Limbile care sfideaza traducerea automata

Limbile care sfideaza traducerea automata

(Credit de imagine:

Seyllou / Getty Images

)

Exista mai mult de 7.000 de limbi in lume, dintre care 4.000 sunt scrise. Cu toate acestea, doar 100 sau cam asa pot fi traduse prin instrumente automate, cum ar fi Google Translate. Noile cercetari promit ca ne vor permite sa comunicam si cu ceilalti. chaturbate wiki-global.win

Eu

Imaginati-va ca intalniti un mesaj care ar putea contine informatii care va pot salva viata. Dar exista o problema: nu intelegi niciun cuvant. Nici macar nu sunteti sigur in care dintre mii de limbi din lume este scrisa. Ce faceti?

Daca mesajul este in franceza sau spaniola, introducerea acestuia intr-un motor de traducere automata va rezolva instantaneu misterul si va produce un raspuns solid in engleza. Dar multe alte limbi sfideaza inca traducerea automata, inclusiv limbile vorbite de milioane de oameni, cum ar fi wolof, Luganda, Twi si Ewe in Africa. online filmek 3-taraz.balabaqshasy.kz Asta pentru ca algoritmii care alimenteaza aceste motoare invata din traducerile umane – in mod ideal, milioane de cuvinte din text tradus.

Exista o multime de astfel de materiale pentru limbi precum engleza, franceza, spaniola si germana, datorita institutiilor multilingve precum parlamentul canadian, Natiunile Unite si Uniunea Europeana. Traducatorii lor umani scot fluxuri de transcrieri traduse si alte documente. Numai Parlamentul European produce un numar de 1,37 miliarde de cuvinte in 23 de limbi pe parcursul unui deceniu.

Cu toate acestea, nu exista un astfel de munte de date pentru limbile care pot fi vorbite pe scara larga, dar nu la fel de mult traduse. stiri pe surse lipinbor.ru Sunt cunoscute sub numele de limbaje cu resurse reduse. Materialul de formare alternativa pentru aceste limbi consta din publicatii religioase, inclusiv Biblia mult tradusa. Dar acest lucru se echivaleaza cu un set de date ingust si nu este suficient pentru a instrui roboti de traducere exacti, cu o gama larga.

In prezent, Google Translate ofera posibilitatea de a comunica in aproximativ 108 limbi diferite, in timp ce Microsoft Bing Translator ofera aproximativ 70 de limbi. Cu toate acestea, exista peste 7. sah online u.42.pl 000 de limbi vorbite in intreaga lume si cel putin 4.000 cu un sistem de scriere. 

Aceasta bariera lingvistica poate pune o problema pentru oricine are nevoie sa adune informatii precise, globale in graba – inclusiv agentiile de informatii.

Organizatia Natiunilor Unite produce in fiecare an volume de text tradus care pot fi utilizate pentru instruirea algoritmilor (credit: Mohammed Elshamy / Getty Images)

„As spune ca cu cat un individ este mai interesat de intelegerea lumii, cu atat mai mult trebuie sa poata accesa date care nu sunt in limba engleza”, spune Carl Rubino, manager de program la IARPA, bratul de cercetare al serviciilor de informatii din SUA. „Multe provocari cu care ne confruntam astazi, cum ar fi instabilitatea economica si politica, pandemia Covid-19 si schimbarile climatice, depasesc planeta noastra – si, prin urmare, sunt de natura multilingva. bianca dragusanu medvacancy.ru

Pregatirea unui traducator uman sau a unui analist de informatii intr-o noua limba poate dura ani de zile. Chiar si atunci, s-ar putea sa nu fie suficient pentru sarcina la indemana. „In Nigeria, de exemplu, se vorbesc peste 500 de limbi”, spune Rubino. „Chiar si cei mai cunoscuti experti nostri din aceasta tara ar putea intelege doar o mica parte din acestia, daca este cazul”.

Pentru a sparge aceasta bariera, IARPA finanteaza cercetarea pentru a dezvolta un sistem care poate gasi, traduce si rezuma informatii din orice limbaj cu resurse reduse, fie ca este vorba de text sau de vorbire. mobile de ro www.cool-bookmarks.win

Imaginati un motor de cautare in care utilizatorul tasteaza interogarea in limba engleza si primeste o lista de documente sintetizate in limba engleza, traduse din limba straina. Cand dau clic pe unul, apare documentul tradus complet. In timp ce finantarea provine de la IARPA, cercetarea este realizata in mod deschis de echipe concurente si o mare parte din acestea au fost publicate.

Kathleen McKeown, informaticiana la Universitatea Columbia, care conduce una dintre echipele concurente, vede beneficii dincolo de comunitatea de informatii. „Scopul final este de a facilita mai multa interactiune si mai multe informatii despre oamenii din diferite culturi”, spune ea. smart bet proinfoguide4.yousher.com

Echipele de cercetare folosesc tehnologia retelelor neuronale pentru a aborda problema, o forma de inteligenta artificiala care imita unele aspecte ale gandirii umane. Modelele de retele neuronale au revolutionat procesarea limbajului in ultimii ani. In loc sa memoreze doar cuvinte si propozitii, ei isi pot invata semnificatia. Ei pot stabili din context ca cuvinte precum „caine”, „pudel” si „chien” francez exprima toate concepte similare, chiar daca arata foarte diferit la suprafata.

Pentru a face acest lucru, totusi, modelele trebuie, de obicei, sa parcurga milioane de pagini de text de instruire. activenews bioimagingcore.be Provocarea este de a-i determina sa invete din cantitati mai mici de date – la fel ca oamenii. La urma urmei, oamenii nu trebuie sa citeasca inregistrarile parlamentare in valoare de ani de zile pentru a invata o limba.

S-ar putea sa-ti placa si:

  • Numeroasele limbi care lipsesc de pe internet
  • Cum sa reinvii un limbaj pierdut
  • Oamenii fara cuvant pentru dinozaur

„Ori de cate ori studiati o limba, nu veti vedea niciodata in viata dumneavoastra cantitatea de date pe care sistemele de traducere automata pe care le folosesc astazi pentru invatarea traducerilor din engleza in franceza”, spune Regina Barzilay, informaticiana la MIT, care este membru al unei alte a echipelor concurente. „Vedeti o fractiune mica, care va permite sa generalizati si sa intelegeti franceza. Deci, in acelasi mod, doriti sa va uitati la urmatoarea generatie de sisteme de traducere automata care pot face o treaba excelenta chiar si fara a avea acest tip de comportament infometat de date. gsmarena www.khanbogdcourt.gov.mn

Pentru a aborda problema, fiecare echipa este impartita in grupuri mai mici de specialisti care rezolva un aspect al sistemului. Principalele componente sunt tehnologiile de cautare automata, recunoastere a vorbirii, traducere si rezumare a textului, toate adaptate limbajelor cu resurse reduse. De cand a inceput proiectul de patru ani in 2017, echipele au lucrat la opt limbi diferite, inclusiv swahili, tagalog, somaleza si kazaha.

Instrumentele de traducere automate pot oferi modalitati vitale de comunicare in situatiile in care un traducator uman poate sa nu fie disponibil (Credit: Maciej Luczniewski / Getty Images)

O descoperire a fost sa recoltam text si discurs de pe web, sub forma de articole de stiri, bloguri si videoclipuri. Datorita utilizatorilor din intreaga lume care posteaza continut in limbile lor materne, exista o masa in crestere de date online pentru multe limbi cu resurse reduse. cnn 76.shymkent-mektebi.kz

„Daca cautati pe internet si doriti date in somaleza, veti obtine sute de milioane de cuvinte, nicio problema”, spune Scott Miller, un om de stiinta in domeniul computerelor de la Universitatea din California de Sud, care co-conduce una dintre echipele de cercetare care lucreaza la acest. „Puteti obtine text in aproape orice limba in cantitati destul de mari de pe web.”

Aceste date online tind sa fie monolingve, ceea ce inseamna ca articolele sau videoclipurile somaleze sunt doar in limba respectiva si nu vin cu o traducere paralela in limba engleza. Dar Miller spune ca modelele de retele neuronale pot fi pregatite in prealabil in astfel de date monolingve in multe limbi diferite.

Se crede ca in timpul pregatirii lor, modelele neuronale invata anumite structuri si trasaturi ale limbajului uman in general, pe care le pot aplica apoi unei sarcini de traducere. romstal www.blurb.com



  • yahoo mail
  • michael jackson
  • aradon
  • antena 1
  • jysk
  • reverso
  • pornohub
  • goo
  • meteo iasi
  • unibet
  • la liga
  • digi 24 live
  • vremea bacau
  • tiktok
  • whatsapp
  • academia de politie
  • mae
  • sărbătorile de iarnă
  • www.facebook.com
  • adma





Ceea ce sunt acestea este un pic misterios. „Nimeni nu stie cu adevarat ce structuri invata cu adevarat aceste modele”, spune Miller. „Au milioane de parametri”.

Dar odata pregatiti in multe limbi, modelele neuronale pot invata sa traduca intre limbi individuale folosind foarte putin material bilingv de formare, cunoscut sub numele de date paralele. Cateva sute de mii de cuvinte de date paralele sunt suficiente – aproximativ lungimea catorva romane. medlife zoe-beauty.be

Motorul de cautare multilingv va putea sa pieptene atat prin vorbirea umana, cat si prin text, care prezinta un alt set de probleme complexe. De exemplu, recunoasterea vorbirii si tehnologia de transcriere se lupta de obicei cu sunete, nume si locuri pe care nu le-a mai intalnit pana acum. 

„Exemplul meu ar fi o tara care poate este relativ obscura pentru Occident si poate ca un politician este asasinat”, spune Peter Bell, specialist in tehnologia vorbirii la Universitatea din Edinburgh, care face parte dintr-una din echipele care incearca sa abordeze aceasta problema. . „Numele sau este acum foarte important, dar anterior, era obscur, nu aparea. polonia multi mirkrasotoc.ru Deci, cum te duci sa gasesti numele acelui politician in sunetul tau?”

O solutie utilizata de Bell si colaboratorii sai este sa ne intoarcem la cuvinte care au fost initial transcrise cu o masura de incertitudine, indicand faptul ca masina nu le era familiare. La reinspectie, unul dintre ei s-ar putea dovedi a fi numele obscur si putin cunoscut al politicianului.

Odata ce a gasit si tradus informatiile relevante, motorul de cautare le rezuma utilizatorului. In timpul acestui proces de rezumat, modelele neuronale afiseaza unele dintre cele mai ciudate comportamente ale lor – ele halucineaza.

Inlaturarea barierelor lingvistice ar putea aduce beneficii care depasesc cu mult agentiile de informatii (Credit: Getty Images)

Imaginati-va ca cautati un stire despre protestatarii care au asaltat o cladire intr-o zi de luni. pro tv program online-wiki.win Dar rezumatul care apare spune ca l-au asaltat joi. Acest lucru se datoreaza faptului ca modelul neuronal s-a bazat pe cunostintele sale de baza, pe baza a milioane de pagini de text de instruire, atunci cand a rezumat raportul. In aceste texte, existau mai multe exemple de persoane care asaltau cladirile joi, asa ca a ajuns la concluzia ca acest lucru ar trebui sa se aplice si celui mai recent exemplu.

In mod similar, modelele neuronale pot insera date sau numere intr-un rezumat. Informaticienii numesc acest lucru halucinant. rezultate live wiki-fusion.win

„Aceste modele de retea neuronala, sunt atat de puternice, incat au memorat o multime de limbaje, adauga cuvinte care nu erau in sursa”, spune Mirella Lapata, informaticiana la Universitatea din Edinburgh, care dezvolta un element de rezumare pentru una dintre echipe.

Lapata si colegii ei au evitat problema extragand cuvinte cheie din fiecare document, mai degraba decat spunand masinii sa o rezume in propozitii. Cuvintele cheie sunt mai putin elegante decat propozitiile, dar limiteaza tendintele modelelor de a scrie poezie robotica.

In timp ce motorul de cautare este conceput pentru limbi vii, proiectul include un subgrup care lucreaza asupra limbilor care nu au mai fost vorbite de mii de ani. Astfel de limbi stravechi au resurse extrem de reduse, deoarece multe supravietuiesc doar ca fragmente de text. huhurez novostiveka.ru Acestea ofera un teren de testare util pentru tehnici care ar putea fi apoi aplicate limbajelor moderne cu resurse reduse.

Doctorandul Barzilay la MIT, Jiaming Luo, si colaboratorii lor au dezvoltat un algoritm care poate functiona daca anumite limbi antice au supravietuitori moderni. I-au oferit un inceput, oferindu-i informatii de baza despre aceste limbi si despre aspectele generale ale schimbarii limbajului. Cu aceste cunostinte, modelul a reusit sa faca singure descoperiri, folosind doar o cantitate mica de date. S-a stabilit corect ca ugaritica, o limba veche din Orientul Apropiat, este legata de ebraica. fortuna bet login.tiscali.cz De asemenea, a concluzionat ca iberica, o limba europeana veche, este mai aproape de basca decat de alte limbi europene – desi nu este suficient de apropiata pentru a fi o ruda apropiata. 

Barzilay spera ca astfel de abordari ar putea inspira schimbari mai largi si sa faca modelele neuronale mai putin infometate de date. „Dependenta noastra de date paralele uriase – este o slabiciune a sistemului”, spune ea. „Asadar, daca chiar produceti o tehnologie buna, fie pentru descifrare, fie pentru limbaje mici, aceasta va impinge campul inainte”.

Toate echipele au reusit sa produca versiuni de baza ale motorului de cautare multilingv, rafinandu-l cu fiecare limba noua. 9gag gging.ru Rubino, managerul programului IARPA, considera ca astfel de tehnologii ar putea schimba modul in care este colectata informatia. „Vom avea intr-adevar oportunitatea de a revolutiona modul in care analistii nostri invata din datele in limbi straine, permitand analistilor monolingvi vorbitori de limba engleza accesul la date multilingve cu care anterior nu erau capabili sa lucreze”, spune el.

Invatarea automata ar putea ajuta la descifrarea limbilor disparute, cum ar fi ugaritica, care a fost folosita in nordul Siriei in secolele XIV-XII i.Hr. (Credit: API / Gamma-Rapho / Getty Images)

In timp ce analistii de informatii incearca sa premieze limbi cu resurse reduse din exterior, vorbitorii nativi ai acestor limbi iau si ele lucrurile in propriile lor maini. luju animemult.ru Si ei isi doresc accesul la informatii urgente in alte limbi – nu pentru spionaj, ci pentru a-si imbunatati viata de zi cu zi.

„Cand s-a produs aceasta pandemie Covid-19, a existat o nevoie brusca de a traduce sfaturi de baza de sanatate in multe limbi. Si nu am putut face acest lucru cu modele de traducere automata, din cauza calitatii”, spune David Ifeoluwa Adelani, doctorand in informatica la Universitatea Saarland din Saarbrucken, Germania. „Cred ca acest lucru ne-a invatat cu adevarat ca este important sa avem o tehnologie care sa functioneze pentru limbaje cu resurse reduse, mai ales in vreme de nevoie”.

Adelani este originar din Nigeria si vorbitor nativ de yoruba si a construit o baza de date Yoruba-engleza ca parte a unui proiect non-profit numit Cracking the Language Barrier for a Multilingual Africa. loto www.med.uz El si echipa sa au creat un nou set de date colectand scenarii de film traduse, stiri, literatura si discutii publice. Apoi au folosit acest set de date pentru a regla fin un model deja instruit in textele religioase, cum ar fi publicatiile Martorii lui Iehova , imbunatatindu-i performanta. Eforturi similare sunt in curs pentru alte limbi africane, cum ar fi Ewe, Fongbe, Twi si Luganda, ajutate de comunitati de baza, precum Masakhane, o retea de cercetatori din toata Africa.

One day, all of us may be using multilingual search engines in our everyday lives, unlocking the world’s knowledge at the click of a button. Until then, the best way to really understand a low-resource language is probably to learn it – and join the multilingual, online human chatter that trains the world’s translation robots.

Join one million Future fans by liking us on Facebook, or follow us on Twitter or Instagram.

If you liked this story, sign up for the weekly bbc.com features newsletter, called „The Essential List”. A handpicked selection of stories from BBC FutureCultureWorklife, and Travel, delivered to your inbox every Friday.