Brezhoneg, wolofeg, okitaneg… yezhoù nevez e Google treiñ

Abaoe ar 27 a viz Even e tegemer servij treiñ Google testennoù e brezhoneg, pe da dreiñ e brezhoneg. An droidigezh a c’hell bezañ graet gant kement yezh all e hollad Google, a zo bremañ 243 yezh ennañ. Mar n’eo ket direbech an troidigezhioù brezhonek a gas c’hoazh, ez eo anat e yelo buan war wellaat. Gouest-mat eo dija da reiñ dorn d’an treiñ. An dud ne zeu ket ar yezh ganto a c’hell ivez bremañ brastapout ster un destenn e brezhoneg, ha kavout tu memes da wiriañ an droidigezh a lennont (o klask treiñ d’an tu all meur a wech !).

Penaos o deus graet ? Petra ‘neus servijet dezho ?


Araokadennoù bamus ‘neus graet an treiñ gant mekanikoù er bloavezhioù kent, gant implij an naouegezh artifisiel. Sellomp buan-ha-buan, hep mont re bell en teknik, eus a betra zo kaoz, hag a-ziwar betra e vez savet ar binviji-se. A-raok kregiñ ganti zo da ziwall un tamm : geriaoueg an naouegezh artifisiel a ro da soñjal e mont en-dro korfel ha kognitivel an dud. Dav deomp mirout soñj ez eo an dra-se un astenn-implij dre skeudenniñ nemetken, ha n’eo ket dre zeskrivañ dre ret. Klevet ho peus dija ec’h implij an teknik-se rouedadoù « neuron ». Ar re-se zo rouedadoù elektronikel awenet o brastres gant stumm neuronoù gwir an dud. An « neuronoù »-se a vez lakaet a-weleoù ha lakaet neuze an eil war ar re all, a-donennoù don. Pa deu don a-walc’h ar framm, e teu gouest an hollad d’en em ober ouzh ar roadennoù a dremen drezañ. Talvezout a ra eo gouest da cheñch diouzh ar roadennoù kinniget dezhañ, o vezañ nebeutoc’h-nebeutañ « souezhet », da lâret eo, o cheñch nebeutoc’h-nebeutañ e bouezioù diabarzh a-vuzul ma « wel » traoù nevez. An emober-se e reer « deskiñ » anezhañ, gant ar mennozh e talv bezañ nebeutoc’h souezhet gant an traoù, kement ha bezañ savet ur skeudennidigezh dioute. Pleustriñ ar rouedad neuronoù a vez graet eus boueta anezhi gant roadennoù nevez. Meur a bleustradenn a c’heller ober, o choaz ar roadennoù a vo roet dezhi da gentañ, hervez an disoc’hoù a zeu dezhi. Graet ‘vez neuze « deskiñ don » eus an hentenn hollek-se, peogwir e vez ezhomm eus tonennoù « neuron » « don » a-walc’h evit kaout un disoc’h hag a seblant heñvel ouzh tud o « teskiñ ».

Abaoe 2020 en doa cheñchet Google e vod da ziorren troerien evit ar yezhoù bihan o c’horpus, oc’h implij un teknik nevez en deskiñ don1. Diskouezet en doa neuze gant 24 yezh nevez e oa gouest da sevel ur mekanik treiñ a-ziwar testennoù unyezhek, da lâret eo hep ur c’horpus frazennoù troet dija en ur yezh all. Embannet en doa bezañ dastumet danvez yezh unyezhek e 1138 yezh, 400 dioute en tu all da 100 000 frazenn enne. Anat eo e kouezhe ar brezhoneg e-barzh, o vezañ ma zo Wikipedia e brezhoneg tost 90 000 pennad boulc’het ennañ, hag hon Wikimammenn 9840 pajenn lennegezh enni. Nevez-tre eo an doare unyezhek-se da antreal en treiñ. Dre soubidigezh e tesk ar benveg-se kentoc’h, evel ur babig, ha n’eo ket evel er skol gant reolennoù yezhadur ha listennoù geriaoueg. Nebeutoc’h-nebeutañ e servij memes d’ar modeloù ledan-se an hentennoù pleustriñ goursellet a-dost gant mab-den.

Abaoe 2014, pa ne oa ket ‘met 80 yezh kemeret e-karg gant Google Treiñ, e veze goulennet gant ar gomzerien reiñ o ali war pep troidigezh, ha klasket war-lerc’h tennañ frouezh eus ar varnadenn-se evit gwellaat an troer emgefre. Gellet hor befe soñjal e kinnigfe Google deomp-ni ivez reiñ hon ali war ar brezhoneg produet kement hag er yezhoù troet a-ziwar ar brezhoneg. Er c’hontrol-mik, mar chomo ar biz-meud mat pe fall en etrefas, ez eo bet astaliet gant Google an arc’hwel « kenober » abaoe miz Ebrel paseet ! Chom a ra posupl kas evezhiadennoù evit disklêriañ un drougimplij, met ne vo ket mui klasket titouriñ resis an doare fazioù a ra ar benveg. Fiziañs en deus an embregerezh e kendalc’ho da wellaat hep se.


Digeriñ a ra ur bed nevez evit ar yezh. Penaos ‘ta ? E meur a zoare. 


— Anat eo da gentañ ez eo un arouez pouezus.
Brudañ a ra ar yezh dre ar bed a-bezh, Google Translate o vezañ a-bell an troer implijet ar muiañ er bed gant ouzhpenn ur miliard a implijerien hag ouzhpenn 100 miliard a c’herioù troet bemdez. Lakaat a ra ar brezhoneg a-live arouezel gant ar yezhoù gwellañ-diorroet, o kinnig ur servij treiñ gant pep hini dioute. Lakaat a ra splann ivez ez eo bev ar yezh er bed niverel, hag e brouiñ a ra war un dro peogwir eo bet bouetaet ar benveg gant tout ar brezhonegoù a vez da vezañ kavet enlinenn. He ya ! Piv ‘nije soñjet ! Memes brezhonegerien o kunujenniñ an eil egile e-barzh foromoù teñval o deus bet skoazellet an diorren e-barzh fin ar gont ! An dud a skrive e oa didalvoud, pe e oa dañjerus sevel binviji emgefre evit ar yezh, o deus bet skoazellet kalz… o skrivañ o mennozh e brezhoneg war internet, peogwir pep frazenn skrivet eno en em gav bremañ er c’horpusoù ledan dastumet evit an diorren niverel. Dre-se e c’hellomp saouriñ ar fed ez eo an troer-se frouezh gortozet labour ar gumuniezh yezh a-bezh, labour sirius, tabutoù, plusk hag all ! Loreet a ra ivez strivoù tout an dud a zalc’h lec’hiennoù e brezhoneg hag a laka joa en hon buhezioù.

— En tu all d’un arouez, e ledano an tachennoù sokial evit ar brezhoneg er vuhez wir. 
Ar Vretoned a chom tomm o c’halon ouzh ar brezhoneg : tost da 90 % anezho a gav dezho e tlefe bezañ miret ha gwarezet ar yezh. An darn vrasañ anezho ne zeu ket ar brezhoneg gante avat, ha techet eo ar vrezhonegerien da vont e galleg diouzhtu p’en em gavont ganto. Pep benveg a skoazell dezho da gompren ar yezh a lako skañvoc’h d’ar vrezhonegerien dibab ar brezhoneg er vuhez foran, enlinenn pe war blañchod. Abaoe an Dispac’h gall e venn politikerezh yezh Bro-C’hall gwareziñ gwirioù sokial ar c’hallegerien unyezhek. A-vuzul ma vo benveget efedus ar gomzerien-se e teuio nebeutoc’h dañjerus dezho ar yezhoù nann-gallek. A-raok ar binviji-se, e veze diseven a-walc’h diskouez o ampech-yezh d’an nann-vrezhonegerien o kinnig traoù skrivet e brezhoneg nemetken. A-benn bremañ e c’hell bezañ pourvezet ur skoazell d’an ampech-se.

An efed-se zo pouezus-meurbet, met santet e vo donoc’h, anat deoc’h, pa vo tu da dreiñ war-eeun a-ziwar ar vouezh. Da c’hortoz, e vo paouezet a nebeudoù goulenn gant an dud a skriv e brezhoneg ober ul labour div wech, ha gwell a se. Ur pazig kalite c’hoazh war kalite an treiñ, ha sevel ul lec’hienn internet a c’houlo ober al labour e brezhoneg, staliañ ur benveg treiñ warni ha netra ken. An dud o teskiñ ar yezh a vo skoazellet gant an treiñ evit o fazioù kentañ (pe e vefe pazioù pe fazioù !). Kavout a raint muioc’h a zanvez er yezh ivez pa dizhint ul live emrenoc’h. Mard eo keloù mat an troer evit ar vrezhonegerien, ez eo kerkoulz evit tout ar Vretoned neuze… o c’hortoz binviji e gallaoueg !?

— Ha neuze petra bremañ ? Achu an hent ? Pell a se, ha ne ra ket ‘met kregiñ ! 
Hiriv an deiz zo Baidu, NeuralSpace, Apertium, Alibaba Translate, Niutrans, Google, an Ofis, skol-veur Nanterre hag an arloadoù tchat liesyezhek hag a ginnig ur servij treiñ emgefre. Ne oar ket Yann na Katell implijer pe benveg zo da implij a-fed kalite yezh, hervez ar pezh a zo da dreiñ. Talvoudekadurioù aes da dout an dud implij hon dez da bourveziñ. Myriam Gwilhevig (Skol-Veur Roazhon 2) ha me zo bet krog da sevel un dastumad testennoù liesrannyezhel evit gellout boueta un talvoudekaour emgefre, gouest da varnañ ar pezh a vez war ar marc’had. Talvoudekaat labour an droerien emgefre a skoazell ivez evit gwellaat anezho. Breizh Niverel e Kemper zo e penn ur raktres evit sevel ur c’horpus e brezhoneg, linennet gant yezhoù all, ha digor d’an holl da implij evit gwellaat disoc’hoù ar modeloù war ar marc’had.

Troer Google a zigor an hent ivez evit ouzhpennañ ar brezhoneg d’ar savennoù treiñ boutinañ all (DeepL, Microsoft, h.a.) ha ledanañ c’hoazh ar skignañ. Talvezout a ra dispakañ ul labour lobying daveto, evit kendrec’hiñ anezho da gevezañ Google war an dachenn-se, ha skoazell dezho d’ober mar bez ret. Skoazell ar frammoù dieub a wirioù zo d’ober ivez, d’ar memes mare, peogwir produioù an embregerezhioù amerikan ha sinaat zo dre lezenn en o bro, pe e vefe sklaer pe kuzh, binviji spiañ. Pep danvez skrivet kaset d’an embregerezhioù amerikan pe sinaat, en deus droed ar gouarnamant eno da gaout ha da implij evit e interest prevez. Araokadennoù an embregerezhioù prevez a-bell vro-se ez eo deomp-ni neuze da c’houzout implij en un doare speredek, evit sevel ha boueta e fin ar gont binviji emren, digor a wirioù, a c’hellfemp-ni implijout hep servij da interestoù all. Evit ar mare n’eus ket ‘met un troer brezhoneg gant gwirioù digor lakaet warnañ : an hini diorroet gant ar c’hlasker-kelenner Loic Grobol e Skol-veur Paris-Nanterre ha skignet war HuggingFace, a zo a-live kalite gant an hini skignet gant an Ofis (dindan kopyright prevez anezhañ, met diorroet er vro).

En tu all d’an treiñ, e chom ivez kalz d’ober war ahelioù all an diorren niverel e brezhoneg. Ar skeudenn aze2 [a-us, klikit warni] zo bet savet a-ziwar al labour kaset da benn da-heul an datathon e Kemper e miz C’hwevrer, aozet gant Breizh Niverel. Diskouez a ra evit 26 yezh disheñvel, gant ar brezhoneg en traoñ (merket « France, bre ») penaos e chom berr ar modeloù ledan gant dielfennañ skeudennoù danvez sevenadurel Breizh pa vez goulennet e saozneg (a-gleiz), ha gwashoc’h c’hoazh pa vez goulennet e brezhoneg (a-zehoù). A-boan ma ra gwelloc’h evit respont d’ar much, skeudennet gant ar round mouk e-kreiz. Chom a ra paour ivez hon binviji war an anavezoud skeudennoù ha lizherennoù : un « OCR » a vank deomp kaout. Asambles gant Google Lens da skouer, e c’hellfe treiñ traoù skrivet, o tennañ poltred un destenn nemetken. Kement-se a greskfe brasoc’h ar c’horpusoù skrivet, peadra da wellaat tout ar binviji da-heul. Evit-se e klaskan un embregerezh er vro a vefe laouen da gaout un den stummet war an naouegezh artifisiel oc’h ober un dezenn CIFRE gantañ, ur formulenn a ya gant ur skoaziad interesant a-walc’h evit ar gopr, hag a c’hell fidelenniñ ur c’h/glasker·ez d’un embregerezh. Un c’hlasker a live etrebroadel zo prest da ren an dezenn dija. Skrivit din3 !

Chom a ra paour ivez hon binviji war an anavezoud mouezh. Asambles gant un arload SMS, e rofe deomp tu da skrivañ o kaozeal nemetken. Servijout a rafe kement-se ivez evit bizskrivañ ez-otomatek istitloù ur video, pe evit prientiñ diverradenn un emgav. Pelloc’h, e tigorfe deomp ivez an arloadoù yec’hel a zo war fardañ, hag int staliet war dielfennañ al lavar.

Estreget ar brezhoneg a zo ivez, hag an dispac’h teknologel a weler hiriv an deiz a blanto disheñvelderioù kriz etre an dud hervez ma « kompreno » an IA o yezh pe get. Bro-c’hall zo bod (a galite kaoz d’he heul) d’ur c’hant bennak a yezhoù disheñvel. N’eus hiriv an deiz nemet ar brezhoneg, an okitaneg hag ar romani e Google Treiñ, ar pezh a laosk didroer ar gallaoueg, ar yezhoù kanak, tupi-guarini, yezhoù polinesi, ar c’hreoloù liesseurt, hag all. An 243 yezh a vez da vezañ kavet war Google hiriv a ra c’hoazh dindan 4 % eus yezhoù ar bed ! Ouzhpenn da se ez int, al lodenn vrasañ dioute, hag ar brezhoneg en o zouez, yezhoù indezeuropek ha skrivet gant ar memes doare skritur, ha startoc’h al labour diorren evit ar re all, a chom en arvar bras. Laosket e vez c’hoazh a-gostez, hag arvarus o dazont, yezhoù Afrika hag an Amerikaoù, ha yezhoù ar pobloù breskoc’h dija o ekonomiezh.

Mélanie Jouitteau, labourva IKER er CNRS

1An araokadenn deknikel en deskiñ don hag he deus cheñchet ar jeu a zo anvet ez-resis an treuzfurmourion, a zo diazezet anezho war sistem ul liespenn aked.
2Romero & al. 2024. ‘CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark’, https://arxiv.org/pdf/2406.05967.
3melanie.jouitteau@iker.cnrs.fr


CC-BY


Ur pennad embannet en niverenn 996, d’an 9 a viz Gouere 2024.

  • Prenañ an niverenn-mañ e stumm PDF (2€) : amañ
  • Koumanantiñ : amañ

Skoazell adlenn : Ofis Publik ar Brezhoneg

Da lenn

Da lenn ivez