Kako Deluje Umetna Inteligenca: Prepoznavanje Govora - Alternativni Pogled

Kazalo:

2024 Avtor: Keith Bush | [email protected]. Nazadnje spremenjeno: 2023-12-16 14:48

Vsak od nas se v vsakdanjem življenju srečuje s tako skrivnostnim pojavom, kot je umetna inteligenca - prav on omogoča, da glasovni pomočniki in iskalniki prepoznajo človeški govor in ugibajo želje uporabnikov. Danes bomo govorili o tem, kako natančno je urejena ta tehnologija in kakšne možnosti čaka to področje razvoja v bližnji prihodnosti.

Umetna inteligenca je zelo širok pojem, v okviru katerega že obstajajo številni algoritmi in se še razvijajo, zasnovan za izvajanje številnih praktičnih nalog. Toda česa so dejansko sposobni sodobni programi umetne inteligence in kakšnih načel se pri svojem delu držijo? Danes bomo govorili o eni ključnih značilnosti strojnega uma, s katero se vsak v nas redno srečuje v vsakdanjem življenju - zmožnosti glasovnih pomočnikov, da prepoznajo človeški govor.

Prepoznavanje glasu

Program za merjenje glasu uporablja številne zvočne parametre: frekvenco in dolžino zvočnega vala v določenem času. Na primer, ko klepetate s priljubljenim glasovnim asistentom Alexa, programska oprema razdeli vaš glas na 25 milisekundnih diapozitivov in nato pretvori vsak segment v digitalni podpis. Po tem se podpisni bloki primerjajo z internim katalogom programskih zvokov, dokler število zadetkov ni dovolj visoko, da AI "prevede" številke v abecedno poizvedbo, ki jo razume.

Oglejte si zaslon telefona, ko uporabljate Siri ali Google Assistant, in videli boste, da se besednjak med izgovarjanjem besed spreminja. To se zgodi zaradi dejstva, da programska oprema z vsakim naslednjim "korakom" primerja tudi dobljeni rezultat z notranjo bazo podatkov in gradi besede glede na ujemanja. Po besedah Rohita Prasada, glavnega znanstvenika Amazonove divizije Alexa, "se jezikovni model nauči veliko milijard besed v obliki besedila." Razporeditev besed ima tudi pomembno vlogo: to lahko opazimo s pomočjo običajnega Googlovega iskalnika, ki včasih poda različne podatke za identične poizvedbe, v katerih je le nekaj besed preurejenih.

Promocijski video:

Perspektive prepoznavanja govora

Alan Black z Carnegie inštituta za jezikovno tehnologijo trdi, da je za vse strokovnjake v velikih podjetjih najzanimivejše najti mejo lastnega sistema. "Ko program reče:" Ne morem tega storiti, "potem postane situacija res zanimiva," se šali. Vendar pa je res tako: odzivanje na nepredvidljive uporabniške zahteve je celo ena glavnih nalog, ki jih študentski krožki, ki se potegujejo za nagrado Alexa - in to je kar 2,5 milijona dolarjev - preiskujejo. Njihova naloga je ustvariti klepet, zasnovan za komunikacijo z ljudmi, ki postavljajo dosledna in smiselna vprašanja. Informacije v tem primeru se posodabljajo vsakih 20 minut. Zveni kot precej lahka naloga tudi za povprečnega programerja,v praksi pa je komunikacija programa z resničnimi ljudmi vedno povezana z odstopanjem od teme dialoga, spontanimi stavki in drugimi kršitvami. Program, ki se nauči delati z njimi in z resnično osebo, bo velik preboj za celotno industrijo AI.

Vasilij Makarov