Nevronsko Mrežo So Naučili Kopirati človeški Glas Skoraj Popolno - Alternativni Pogled

Video: Nevronsko Mrežo So Naučili Kopirati človeški Glas Skoraj Popolno - Alternativni Pogled

Video: Почему важно хорошо спать по ночам? — Шаи Марку 2024, April

2024 Avtor: Keith Bush | [email protected]. Nazadnje spremenjeno: 2023-12-16 14:48

Lani je podjetje za umetno inteligenco DeepMind delilo podrobnosti o svojem novem projektu WaveNet, nevronski mreži globokega učenja, ki se uporablja za sintezo realističnega človeškega govora. Pred kratkim je izšla izboljšana različica te tehnologije, ki bo uporabljena kot osnova digitalnega mobilnega asistenta Google Assistant.

Sistem sinteze glasu (znan tudi kot funkcija besedila v govor, TTS) je običajno zgrajen okoli ene od dveh osnovnih metod. Konkanativna (ali kompilacijska) metoda vključuje oblikovanje stavkov z zbiranjem posameznih kosov posnetih besed in delov, ki so bili predhodno posneti s sodelovanjem glasovnega igralca. Glavna pomanjkljivost te metode je potreba po nenehnem zamenjavi zvočne knjižnice, kadar koli se izvedejo kakršne koli posodobitve ali spremembe.

Druga metoda se imenuje parametrični TTS, njena značilnost pa je uporaba nizov parametrov, s katerimi računalnik ustvari želeno besedno zvezo. Pomanjkljivost metode je, da se najpogosteje rezultat manifestira v obliki nerealnega ali tako imenovanega robotskega zvoka.

WaveNet na drugi strani proizvaja zvočne valove iz nič, z uporabo konvolucijskega sistema nevronske mreže, kjer se zvok ustvarja v več plasteh. Prvič, za usposabljanje platforme za sintetiziranje "živega" govora je "nahranjeno" ogromno vzorcev, ob tem pa opaziti, kateri zvočni signali zvenijo realistično in kateri ne. To daje sintetizatorju glasbe sposobnost reprodukcije naturalistične intonacije in celo podrobnosti, kot so smrkljanje ustnic. Glede na to, kateri vzorci govora potekajo skozi sistem, mu to omogoča, da razvije edinstven "naglas", ki ga lahko dolgoročno uporabimo za ustvarjanje številnih različnih glasov.

Ostro na jeziku

Morda je bila največja omejitev sistema WaveNet ta, da je za zagon potreboval ogromno računalniške moči, in tudi ko je bil izpolnjen ta pogoj, se hitrost ni razlikovala. Na primer, trajalo je približno 1 sekundo časa, da se ustvari 0,02 sekunde zvoka.

Po enem letu dela so inženirji DeepMind še vedno našli način, kako izboljšati in optimizirati sistem, tako da je zdaj sposoben v samo 50 milisekundah proizvajati surov zvok v eni sekundi, kar je 1000-krat hitreje od njegovih prvotnih zmogljivosti. Poleg tega je strokovnjakom uspelo povečati frekvenco vzorčenja zvoka z 8-bitnega na 16-bitnega, kar je pozitivno vplivalo na teste, ki so vključevali poslušalce. Ti uspehi so utrli pot, da se WaveNet vključi v potrošniške izdelke, kot je Google Assistant.

Promocijski video:

Trenutno WaveNet lahko uporabljamo za ustvarjanje angleških in japonskih glasov prek Googlovega pomočnika in vseh platform, kjer se uporablja ta digitalni asistent. Ker lahko sistem ustvari posebno vrsto glasov, odvisno od tega, kateri nabor vzorcev mu je bil dodeljen za usposabljanje, bo Google v bližnji prihodnosti najverjetneje uvedel podporo za sintetiziranje realističnega govora v WaveNetu v drugih jezikih, vključno z njihovim upoštevanjem. krajevnih narečjih.

Govorni vmesniki postajajo vse pogostejši na najrazličnejših platformah, vendar njihova izrazita nenaravna narava zvoka izklopi številne potencialne uporabnike. Prizadevanja DeepMind-a za izboljšanje te tehnologije bodo gotovo pripomogla k širšemu sprejetju takšnih govornih sistemov in izboljšala uporabniško izkušnjo od njihove uporabe.

Primere angleškega in japonskega sintetiziranega govora z uporabo nevronske mreže WaveNet najdete na tej povezavi.

Nikolaj Hizhnyak