CAPCALERA: BOTIGA
CAPÇALERA2: OPLO

Jornalet, gaseta occitana d'informacions

Dimars, 27 de setembre

Lo Quentin

Dimècres, 20.7.2022 03h00

L’IA per daissar pas de costat cap de lenga


Comentaris 2 comentaris    
Dolent Fluix Bo Molt bo Fabulós (8 vòtes)
carregant En cargament





Fa un an vos parlavi de l’iniciativa de Meta (grop de Facebook, Instagram etc) apelada Flores 101. L’idèa èra de far venir possibla la traduccion automatica entre lengas dichas paucas dotadas, per çò qu’es de la disponibilitat de còrpus numerics. Se considèran paucas dotadas las lengas amb mens d’un milion de ressorsas textualas disponiblas. Ongan l’iniciativa concernís 200 lengas, las de la debuta e de novèlas, valent a dire que l’occitan es totjorn present. La comunicacion que ne fan parla d’inclusion pr’amor que la gent que parlan pas las lengas mai emplegadas d’Internet poirián aver accès a de reviradas gràcia a lor trabalh. Sabètz que los islandeses passan a l’anglés pr’amor que lor lenga es pauca visibla al numeric?
 
L’òbra comportava tres etapas: Construccion dels jòcs de donadas, entraïnaments e evaluacions.
 
Un exemple d’inegalitat de disponibilitat de donadas que dònan e que tròbi interessant es aqueste:
 
Lingala es parlat per 45 milions de personas mas la Wikipèdia ligada a aquesta lenga conten sonque 3 260 article. En comparason lo suedés a 10 milions de locutors e una Wikipèdia de 2,5 milions d’articles (87 377 articles per la declinason occitana).
 
Una autra dificultat per amassar de tèxt es de poder identificar la lenga d’un biais automatic. CLD3 e fasttext, doas aisinas de deteccion de lenga plan utilizadas, reconeisson pas que 107 e 187 lengas caduna. D’autras pòdon montar a 1 629 lengas en utilizant de listas de mots. Per aquesta iniciativa utilizèron las traduccions de FLORES 200 fachas per de professionals per trapar la lenga que se sembla a l’ensem. 3001 frasas extrachas de Wikipèdas foguèron traduchas per d’umans per construire un còrpus de basa.
 
Lo domeni dels dectadors de lenga m’interèssa e ai ja començat de contribuir per far detectar l’occitan. Lo tèxt sovent utilizat per generar los fragments es la declaracion dels dreches umans, trapabla aisidament suls internets.
 
Totes los metòdes utilizats son citats dins lor document PDF de 190 paginas enlà
 
Las evaluacions foguèron assistidas per informatica mas tanben validadas per d’èstres umans.
 
Los modèls d’entraïnament e tot çò desvelopat es passat jos licéncia liura per ajudar als desvelopament de novèlas causas ligadas a la traduccion.
 
Amai ofrisson una borsa de 200 000€ a d’organizacions sens tòca lucrativa per desvelopar d’aplicacions per la vida vidanta.
 
Agachatz la video sul site, l’occitan es citat ;-)
 


Al mes de mai la còla d’IA de Google trabalhèt sul tèma tanben:
 

— https://ai.googleblog.com/2022/05/24-new-languages-google-translate.html
 
— e aquí: building machine translation systems for the next thousand languages
 
La finalitat del projècte es pas clara e los jòcs de donadas son pas liberats.
 
 
 
abonar los amics de Jornalet



publicitat
BANNER1 - OPLO erasmus



Comentaris

20 de julh 14.19h

Lo PDF se trapa aquí : https://research.facebook.com/publications/no-language-left-behind/


Valora aquest comentari:   votar positiu 0   votar negatiu 0
Respondre comentari replica Comentari inadequat   Formulari d'abús de comentari

20 de julh 09.45h

Un pichon apondon : gràcia a lor trabalh se pòt ara traduire dirèctament del zolo a l'occitan, de l'occitan al panjabi o encara al tailandés. Totas las possibilitats de las 200 lengas entre elas. Generèron tanben una tièra de mots rudes o de blasfèmias, se pausa la question de l'integritat de la traduccion quand la censura es volontària aital.


Valora aquest comentari:   votar positiu 4   votar negatiu 0
Respondre comentari replica Comentari inadequat   Formulari d'abús de comentari

5 -10 -20 -tots
1




Comenta

Lo comentari es estat mandat corrèctament

  Previsualiza

La direccion del Jornalet a lo drech de publicar pas aqueles comentaris que respècten pas las nòrmas basicas d'educacion, civisme e dialòg.

Perfil

Lo Quentin

Lo Quentin logo rss

Apassionat de lengas, ai començat a recuperar la lenga en 2011 e dempuèi ensagi d’obrar per l’occitan coma pòdi.

mai d'informacions

contactar l'autor

Categorias

Las mai...


Mai d'articles

Archius




D'autres articles


Jornalet, gaseta occitana d'informacions