Kdaj Bo Umetna Inteligenca Začela Slišati Serijo - Alternativni Pogled

Kazalo:

Kdaj Bo Umetna Inteligenca Začela Slišati Serijo - Alternativni Pogled
Kdaj Bo Umetna Inteligenca Začela Slišati Serijo - Alternativni Pogled

Video: Kdaj Bo Umetna Inteligenca Začela Slišati Serijo - Alternativni Pogled

Video: Kdaj Bo Umetna Inteligenca Začela Slišati Serijo - Alternativni Pogled
Video: CS50 2015-10 неделя 2024, Marec
Anonim

Ruski založniki že eksperimentirajo s strojnim snemanjem zvočnih knjig, umetni inteligenci pa lahko v prihodnje zaupajo prevajanje nadaljevank in jih posnamejo z glasovi svojih najljubših igralcev. O značilnostih takšnih tehnologij in kako dolgo bo trajalo, da jih ustvarite.

Ustni govor postane pisen

Na YouTubu se samodejni podnapisi za videoposnetke ustvarijo s programsko opremo za prepoznavanje glasu in prevajanje govora v besedilo. Temelji na nevronskih mrežah s samostojnim učenjem. Ta možnost je stara več kot deset let, vendar je rezultat še vedno daleč od idealnega. Pogosteje lahko ujamete le splošni pomen povedanega. Kaj je težava?

Recimo, razlaga Andrey Filchenkov, vodja laboratorija za strojno učenje na univerzi ITMO, da gradimo algoritem za prepoznavanje govora. To zahteva usposabljanje nevronske mreže na velikem nizu podatkov.

Potrebnih bo več sto tisoč ur posnetkov govora in njihove pravilne primerjave z besedili, vključno z označevanjem začetka in konca stavkov, spreminjanjem sogovornikov in tako naprej. Temu rečemo zaprt prostor. Večji kot je, boljši je trening nevronske mreže. Za angleški jezik so bila ustvarjena res velika korporacija, zato je prepoznavanje veliko boljše. Toda za ruščino ali recimo španščino je veliko manj podatkov, za številne druge jezike pa podatkov sploh ni.

"In rezultat je primeren," zaključi znanstvenik.

"Poleg tega ocenjujemo pomen besede, besedne zveze v filmu, ne le po zvoku, pomembna je tudi intonacija igralca in njegova izraza obraza. Kako si to razlagate? " - doda Sergej Aksenov, izredni profesor na oddelku za informacijsko tehnologijo Tomske politehniške univerze.

Promocijski video:

"Kako ravnati z značilnostmi tekočega govora? Nejasna artikulacija, skice, prekrivanja, pavze? Konec koncev, odvisno od tega, se pomen spremeni, kot v "ne moreš biti oproščen". Kako naučiti stroj za določitev, kje ima zvočnik vejico? In v poeziji? " - navaja Marina Bolsunovskaya, vodja laboratorija "Industrijski pretočni sistemi za obdelavo podatkov" Centra NTI SPbPU.

Najuspešnejši projekti so po mnenju strokovnjaka na ozkih območjih. Na primer, sistem za prepoznavanje strokovnega govora zdravnikov z uporabo medicinskih izrazov, ki ga je razvila skupina podjetij RTC, pomaga zdravnikom, da hranijo anamnezo.

Tu lahko jasno orisujete področje predmeta in poudarite ključne besede v govoru. Zdravnik določene oddelke posebej poudari z intonacijo: pritožbe pacientov, diagnoza, «pojasnjuje Bolsunovskaya.

Na drugo težavo opozarja Mihael Burtsev, vodja laboratorija nevronskih sistemov in globokega učenja na MIPT. Dejstvo je, da je stroj doslej uspešnejši pri prepoznavanju besedila, ko govori ena oseba kot več, kot v filmih.

Prevod s kontekstom

Vzemimo na primer video v angleščini, na primer izrez iz TV serije "Igra prestolov", in vklopimo samodejne ruske podnapise. Kar vidimo, nas bo verjetno nasmejalo.

Še z * Game of Thrones *
Še z * Game of Thrones *

Še z * Game of Thrones *.

Vendar je tehnologija v strojnem prevajanju dosegla impresiven uspeh. Google Translate prevaja besedila v skupne jezike precej strpno, pogosto je potrebno le minimalno urejanje.

Dejstvo je, da je prevajalec nevronske mreže tudi usposobljen na velikem nizu začetnih, pravilno označenih podatkov - vzporednega korpusa, ki prikazuje, kako naj bi v ruskem jeziku izgledala vsaka fraza v izvirnem jeziku.

»Gradnja takšnih zgradb je zelo naporna, draga in zamudna, traja mesece in leta. Za usposabljanje nevronske mreže potrebujemo besedila velikosti Aleksandrijske knjižnice. Modeli so univerzalni, vendar je veliko odvisno od jezika. Če na primer na Avarju zagotovite veliko podatkov in bo prevod kakovosten, vendar za Avar takšne količine podatkov preprosto ni, pravi Andrey Filchenkov.

"Prevod je ločen izdelek, ki je povezan z izvirnikom, vendar mu ni enak," pravi Ilya Mirin, direktor Šole za digitalno ekonomijo na zvezni univerzi na Daljnem vzhodu. - Značilen primer so prevodi tujih filmov Dmitrija Puchkova (Goblin) v 90. letih. Šele po njegovem delu je postalo jasno, kaj se tam dogaja. Iz verzij VHS nismo mogli izvedeti ničesar primernega. Lahko pa poskusite prevesti v jezik, ki ga dobro poznate, nekaj od Mojstra in Margarite. Na primer, "v črnem ogrinjalu s krvavo podlogo". Stroj tega ne zmore."

Nevronske mreže se dobro naučijo iz številnih značilnih primerov, vendar so filmi polni zapletenih pomenov in konotacij, šale, ki niso dostopne stroju - ne more jih razlikovati.

V vsaki epizodi animirane serije Futurama je omenjen klasični ameriški kino - Casablanca, Roman Holiday in tako naprej. Prevajalec mora v takih trenutkih, da bi ujel in prepakiral pomen za tiste, ki teh filmov še niso gledali, iznašel tesni analog iz ruskega konteksta. Napačen strojni prevod lahko za gledalca zelo odvrača, «nadaljuje Mirin.

Kakovost strojnega prevajanja je po njegovem mnenju blizu 80 odstotkov, ostalo je specifičnost, ki jo je treba dodati ročno, pri čemer sodelujejo strokovnjaki. "In če 20-30 odstotkov stavkov zahteva ročni popravek, kakšna je potem uporaba strojnega prevajanja?" - pravi raziskovalka.

"Prevajanje je najbolj problematična faza," se strinja Sergej Aksenov. - Vse je odvisno od semantike in konteksta. Razpoložljiva orodja se lahko uporabljajo za prevajanje in strojno glasovno igranje, na primer otroške risanke s preprostim besediščem. Toda z razlago frazeoloških enot, lastnih imen, besed, ki gledalce usmerjajo v nekatere kulturne resničnosti, se pojavijo težave."

V filmih in videih je kontekst vedno vizualen in ga pogosto spremljata glasba in hrup. Iz slike ugibamo, o čem govori junak. Govor, spremenjen v besedilo, je brez teh informacij, zato je prevajanje težko. Takšno je stanje za prevajalce, ki delajo s besedilnimi podnapisi, ne da bi si ogledali film. Pogosto se motijo. Strojni prevod je ista zgodba.

AI glasuje govor

Če želite presneti serijo, prevedeno v ruščino, potrebujete algoritem za ustvarjanje naravnega govora iz besedila - sintetizator. Ustvarijo jih številna IT podjetja, med njimi Microsoft, Amazon, Yandex, in jim gre dobro.

Po besedah Andreja Filčenkova je pred nekaj leti trajalo nekaj minut kopiranja sintetizatorja govora, zdaj se je hitrost obdelave močno povečala. Naloga sinteze govora za nekatera področja, kjer so potrebni nevtralni dialogi, je rešena precej dobro.

Mnogi že vzamejo samoumeven pogovor z robotom po telefonu, izvajanje ukazov avtomobilskega navigatorja, dialog z Alice v avtu Yandex. Drive. Toda za presnemavanje televizijskih serij te tehnologije še niso ustrezne.

„Težava je v čustvenosti in igranju. Naučili smo se narediti strojni glas človeškega, vendar je to, da še vedno zveni primerno ozadju in vzbuja zaupanje, že daleč. Slaba govorna igra zlahka uniči dojemanje filma, je dejala Filčenkova.

Po besedah Mihaila Burtseva je sinteza govora dokaj resnična. Vendar je to računsko intenzivno in ga v razumnem času za razumno ceno ni mogoče storiti.

Obstajajo algoritmi, ki sintetizirajo govor, podoben govoru določenega akterja. To je tember, način govora in še veliko več. Tako bo vsak tuji igralec dejansko govoril rusko, «napoveduje Burtsev. Pričakuje opazen napredek v naslednjih letih.

Sergej Aksenov daje pet do deset let za razvoj orodij za prevajanje in presnemavanje kompleksnih del iz najpogostejših jezikov, kot je angleščina. Znanstvenik navaja primer Skypea, ki je pred nekaj leti pokazal možnost organizacije spletnih lekcij za šolarje, ki govorijo različne jezike. Toda tudi takrat sistem ne bo idealen, nenehno se bo moral učiti: pridobiti besedišče, upoštevati kulturni kontekst.