Ali Nevroni Sanjajo O Električnih Ovcah? Ustvarjalec Prvih Nevronskih Mrež Je Pripovedoval O Svoji Evoluciji In Prihodnosti - Alternativni Pogled

2024 Avtor: Keith Bush | [email protected]. Nazadnje spremenjeno: 2023-12-16 14:48

Jeffrey Hinton je soustvarjalec koncepta poglobljenega učenja, dobitnik nagrade Turing za leto 2019 in Googlov inženir. Pretekli teden je Wired na konferenci razvijalcev I / O opravil razgovor z njim in razpravljal o svoji fascinaciji z možgani in njegovi sposobnosti modeliranja računalnika, ki temelji na nevronski strukturi možganov. Dolgo časa so te ideje veljale za čudaške. Zanimiv in zabaven pogovor o zavesti, Hintonovih prihodnjih načrtih in o tem, ali je mogoče računalnike naučiti sanjati.

Kaj se bo zgodilo z nevronskimi omrežji?

Začnimo z dnevi, ko ste napisali svoje prve, zelo vplivne članke. Vsi so rekli: "To je pametna ideja, vendar resnično ne moremo oblikovati računalnikov na ta način." Pojasnite, zakaj ste vztrajali pri sebi in zakaj ste bili tako prepričani, da ste našli nekaj pomembnega.

Zdelo se mi je, da možgani ne morejo delovati drugače. Delo mora opraviti s preučevanjem trdnosti povezav. In če želite, da naprava naredi nekaj pametnega, imate dve možnosti: ali jo programirate ali se uči. In nihče ni programiral ljudi, zato smo se morali učiti. Ta metoda je morala biti pravilna.

Pojasnite, kaj so nevronske mreže. Pojasnite izvirni koncept

Jemljete razmeroma preproste elemente za obdelavo, ki zelo nejasno spominjajo na nevrone. Imajo dohodne povezave, vsaka povezava ima težo in ta teža se lahko med treningom spreminja. Nevron naredi povezave, pomnožene z utežmi, sešteje in se nato odloči, ali naj podatke pošlje. Če je vsota vnesena dovolj velika, naredi rezultat. Če je znesek negativen, ne pošlje ničesar. To je vse. Vse, kar morate storiti, je, da povežete oblak takšnih nevronov z utežmi in ugotovite, kako spremeniti te uteži, nato pa bodo storili karkoli. Vprašanje je le, kako boste spremenili uteži.

Promocijski video:

Kdaj ste ugotovili, da gre za grobo predstavitev, kako možgani delujejo?

O ja, vse je bilo prvotno namenjeno. Zasnovan tako, da spominja na možgane pri delu.

Tako ste v nekem trenutku kariere začeli razumeti, kako delujejo možgani. Mogoče ste bili stari dvanajst let, morda petindvajset. Kdaj ste se odločili poskusiti modelirati računalnike kot možgane?

Da takoj. V tem je bila vsa stvar. Celotna ideja je bila ustvariti učno napravo, ki se uči kot možgani, v skladu s predstavami ljudi o tem, kako se možgani učijo, s spreminjanjem moči povezav. In to ni bila moja ideja, Turing je imel isto idejo. Čeprav je Turing izumil velik del temeljev standardne računalniške znanosti, je verjel, da so možgani dezorganizirana naprava z naključnimi utežmi, in je uporabljal okrepljeno učenje za spreminjanje povezav, tako da se je lahko naučil karkoli. In verjel je, da je to najboljša pot do inteligence.

In sledili ste Turingovi zamisli, da je najboljši način za izdelavo stroja oblikovanje tako kot človeški možgani. Tako delujejo človeški možgani, zato ustvarimo podoben stroj

Da, ni mislil samo Turing. Mnogi so mislili tako.

Kdaj so prišli mračni časi? Kdaj se je zgodilo, da so se drugi, ki so delali na tem in verjeli, da je Turingova zamisel pravilna, začeli popuščati, vi pa ste še naprej upogibali svojo linijo?

Vedno je bilo peščica ljudi, ki so verjeli ne glede na vse, zlasti na področju psihologije. Toda med računalniškimi strokovnjaki se mi je v 90. letih zgodilo, da je bilo podatkovnih nizov precej majhnih, računalniki pa niso bili tako hitri. In z majhnimi nabori podatkov so se druge metode, kot so podporni vektorski stroji, izvajale nekoliko bolje. Šum jih ni tako sramoval. Tako je bilo vse žalostno, ker smo v 80. letih razvili metodo razmnoževanja hrbta, ki je zelo pomembna za nevronske mreže. Mislili smo, da bo vse rešil. In bili so zmedeni, da se ni nič odločil. Vprašanje je bilo res na lestvici, a takrat tega nismo vedeli.

Zakaj ste mislili, da ne deluje?

Mislili smo, da ne deluje, ker nismo imeli povsem pravilnih algoritmov in ne povsem pravilnih ciljnih funkcij. Dolgo sem mislil, da je to zato, ker smo poskušali izvajati nadzorovano učenje, ko označujete podatke, in morali smo izvajati nenadzorovano učenje, ko smo se učili iz neoznačenih podatkov. Izkazalo se je, da je bilo vprašanje večinoma na lestvici.

Zanimivo je. Težava je bila v tem, da niste imeli dovolj podatkov. Mislili ste, da imate pravo količino podatkov, vendar ste jih napačno označili. Torej ste napačno diagnosticirali težavo?

Mislil sem, da je napaka v tem, da sploh uporabljamo etikete. Večina usposabljanja se izvaja brez uporabe nalepk, samo poskušate modelirati strukturo v podatkih. Pravzaprav še vedno tako mislim. Mislim, da je računalnik hitrejši, če je računalnik dovolj hiter, zato je za kateri koli nabor podatkov določene velikosti bolje trenirati brez nadzora. Ko končate nenadzorovano učenje, se lahko učite z manj oznakami.

Torej v devetdesetih letih nadaljujete z raziskovanjem, ste v akademiji, še vedno objavljate, vendar ne rešujete velikih težav. Ste kdaj imeli trenutek, ko ste si rekli: »Veste kaj, dovolj je. Bom poskusil narediti kaj drugega? " Ali pa ste si samo rekli, da se boste še naprej ukvarjali s poglobljenim učenjem [to je koncept globokega učenja, globokega učenja nevronskih mrež

Da. Nekaj takega bi moralo delovati. Mislim, povezave v možganih se na nek način naučijo, samo ugotoviti moramo, kako. Verjetno je veliko različnih načinov za krepitev povezav v učnem procesu; možgani uporabljajo enega od njih. Obstajajo lahko tudi drugi načini. Vsekakor pa potrebujete nekaj, kar lahko te povezave med učenjem še okrepi. Nikoli nisem dvomil v to.

Nikoli niste dvomili. Kdaj se je zdelo, kot da deluje?

Eno največjih razočaranj v 80. letih je bilo, da če bi naredili mreže z veliko skritimi sloji, jih ne bi mogli izučiti. To ni povsem res, saj lahko trenirate razmeroma preproste postopke, kot je rokopis. Nismo pa vedeli, kako trenirati večino globokih nevronskih mrež. In okoli leta 2005 sem iznašel način, kako trenirati globoke mreže brez nadzora. Vnesete podatke, recimo slikovne pike in urite več detektorjev podrobnosti, kar je ravno dobro razložilo, zakaj so bili piksli takšni, kot so. Nato v te detektorje delov vnesete podatke in usposobite drug sklop detektorjev delov, da lahko razložimo, zakaj imajo določeni detektorji del posebne korelacije. Še naprej trenirate plast za plastjo. Najbolj zanimivo pa je biloki se lahko matematično razgradijo in dokažejo, da vsakič, ko trenirate novo plast, podatkovnega modela ne boste nujno izboljšali, temveč se boste ukvarjali z vrsto, kako dober je vaš model. In ta razpon se je izboljšal z vsakim dodanim slojem.

Kaj mislite s tem, kako dober je vaš model?

Ko dobite model, boste morda zastavili vprašanje: "Kako nenavadno ta model najde te podatke?" Pokažete ji podatke in postavite vprašanje: "Ali se vam zdi vse to po pričakovanjih ali je to nenavadno?" In to bi lahko merili. Želel sem dobiti model, dober model, ki pogleda podatke in reče: „Ja, da. Vedel sem. To ne preseneča. " Vedno je zelo težko izračunati, kako nenavaden model bo našel podatke. Ampak lahko izračunate obseg tega. Lahko rečemo, da se bo modelu ti podatki zdeli manj nenavadni od tega. In lahko se pokaže, da se z dodajanjem novih slojev v detektorje podrobnosti oblikuje model, in z vsako dodano plastjo, ko najde podatke, se območje razumevanja, kako nenavadno najde, podatki izboljšajo.

Torej, okoli leta 2005 ste naredili ta matematični preboj. Kdaj ste začeli dobivati prave odgovore? S katerimi podatki ste sodelovali? Vaš prvi preboj je bil z govornimi podatki, kajne?

Bili so samo ročno napisane številke. Zelo preprosto. Približno v istem času se je začel razvoj GPU-jev (Graphics Processing Unit). In ljudje, ki so delali nevronske mreže, so leta 2007 začeli uporabljati GPU-je. Imel sem zelo dobrega študenta, ki je začel uporabljati GPU-je, da bi našel ceste v zračnih fotografijah. Napisal je kodo, ki so jo nato sprejeli drugi študentje s pomočjo GPU-ja za prepoznavanje fonem v govoru. Uporabili so to idejo pred treningom. In ko je bilo predhodno usposabljanje opravljeno, so samo obesili oznake na vrhu in uporabili hrbtno razmnoževanje. Izkazalo se je, da je mogoče ustvariti zelo globoko omrežje, ki je bilo predhodno usposobljeno na ta način. Potem bi lahko uporabili povratno širjenje in dejansko je delovalo. Pri prepoznavanju govora je delovalo odlično. Sprva pani bilo veliko bolje.

Je bilo to boljše od komercialno dostopnega prepoznavanja govora? Obšli najboljši znanstveni članki o prepoznavanju govora?

Na razmeroma majhnem naboru podatkov, imenovanem TIMIT, je bil nekoliko boljši od najboljšega akademskega dela. IBM je opravil tudi veliko dela.

Ljudje so hitro ugotovili, da bi vse to - ker presega standardne modele, ki so bili v razvoju že 30 let - delovalo čisto v redu, če bi jih malo razvili. Moji diplomanti so šli v Microsoft, IBM in Google in Google je zelo hitro ustvaril prepoznavo delovnega govora. Do leta 2012 je to delo, ki je bilo opravljeno že leta 2009, prizadelo Android. Android je nenadoma veliko boljši pri prepoznavanju govora.

Povejte mi o trenutku, ko vi, ki 40 let hranite te ideje, 20 let objavljate to temo, nenadoma zaobidete svoje sodelavce. Kakšen je ta občutek?

No, takrat sem te ideje shranjeval le 30 let!

Prav, prav

Obstajal je odličen občutek, da se je vse to končno spremenilo v resnično težavo.

Se spomnite, ko ste prvič dobili podatke, ki to kažejo?

Ne.

V redu. Tako dobite idejo, da to deluje s prepoznavanjem govora. Kdaj ste začeli uporabljati nevronske mreže za druge težave?

Sprva smo jih začeli uporabljati za vse vrste drugih težav. George Dahl, s katerim smo prvotno sodelovali pri prepoznavanju govora, jih je uporabil za napovedovanje, ali se molekula lahko na nekaj veže in postane dobro zdravilo. In bilo je tekmovanje. Preprosto je uporabil našo standardno tehnologijo, ki je bila zgrajena za prepoznavanje govora, za napovedovanje delovanja drog in zmagal na tekmovanju. To je bil znak, da delamo nekaj zelo vsestranskega. Nato se je pojavil študent, ki je rekel: "Veste, Jeff, ta stvar bo delovala s prepoznavanjem slike in Fei-Fei Li je ustvaril primeren nabor podatkov za to. Obstaja javni natečaj, naredimo nekaj."

Dobili smo rezultate, ki so daleč presegli standardni računalniški vid. Bilo je 2012.

Na teh treh področjih ste se odlično odrezali: modeliranje kemikalij, govor, glas. Kje vam ni uspelo?

Ali razumete, da so ovire začasne?

No, kaj loči področja, kjer najhitreje deluje, in področja, kjer traja najdlje? Videti je, da vizualna obdelava, prepoznavanje govora in nekaj podobnega kot osnovne človeške stvari, ki jih počnemo s čutnim zaznavanjem, veljajo za prve ovire, ki jih moramo premagati, kajne?

Da in ne, ker obstajajo tudi druge stvari, ki jih počnemo dobro - iste motorične sposobnosti. Zelo smo dobri v nadzoru motorja. Naši možgani so zagotovo opremljeni za to. In šele zdaj nevronske mreže začnejo konkurirati najboljšim drugim tehnologijam za to. Na koncu bodo zmagali, zdaj pa šele začenjajo zmagati.

Mislim, da je razmišljanje, abstraktno mišljenje zadnja stvar, ki se jo naučimo. Mislim, da bodo med zadnjimi stvarmi, ki se jih te nevronske mreže naučijo narediti.

In tako nenehno govorite, da bodo nevronske mreže na koncu prevladale povsod

No, mi smo nevronske mreže. Vse, kar lahko, lahko.

Res je, toda človeški možgani še zdaleč niso najučinkovitejši računalniški stroj, ki je bil kdajkoli zgrajen

Zagotovo ne.

Definitivno niso moji človeški možgani! Ali obstaja način za modeliranje strojev, ki so veliko učinkovitejši od človeških možganov?

Filozofsko gledano nimam ugovora proti ideji, da bi lahko bilo vse to povsem drugače. Mogoče, če začnete z logiko, poskusite avtomatizirati logiko, se domisliti kakšnega domišljijskega dokazila teorema, razloga in se nato odločiti, da boste s pomočjo sklepanja prišli do vizualne percepcije, morda bo ta pristop zmagal. Ampak še ne. Nimam filozofskega nasprotovanja takšni zmagi. Samo vemo, da so možgani tega sposobni.

Vendar obstajajo tudi stvari, ki jim naši možgani ne morejo dobro. Ali to pomeni, da jim nevronske mreže tudi ne bodo uspele?

Čisto verjetno, da.

In obstaja ločena težava, ki je, da ne razumemo popolnoma, kako delujejo nevronske mreže, kajne?

Da, pravzaprav ne razumemo, kako delujejo.

Ne razumemo, kako delujejo nevronske mreže od zgoraj navzdol. To je osnovni element delovanja nevronskih mrež, ki ga ne razumemo. Pojasnite to, nato pa naj mi postavi naslednje vprašanje: če vemo, kako vse to deluje, kako to potem deluje?

Ko pogledate sodobne sisteme računalniškega vida, je večina od njih večinoma usmerjena v prihodnost; ne uporabljajo povratnih povezav. In potem je še nekaj drugega v sodobnih sistemih računalniškega vida, ki so zelo nagnjeni k nasprotnim napakam. Lahko rahlo spremenite nekaj slikovnih pik, in kar je bila slika pande in še vedno izgleda povsem kot panda, boste nenadoma postali noj v svojem razumevanju nevronske mreže. Očitno je način nadomeščanja pikslov zamišljen tako, da navrže nevronsko mrežo pri razmišljanju o noju. Bistvo pa je, da je za vas še vedno panda.

Na začetku smo mislili, da vse skupaj deluje odlično. Toda potem smo se soočili s tem, da so gledali pando in bili prepričani, da je to noj. Mislim, da je del težave v tem, da jih ne poskušajo rekonstruirati iz stališč na visoki ravni. Skušajo se učiti izolirano, kjer se učijo le plasti detektorjev podrobnosti, celoten cilj pa je spremeniti uteži, da bi bili boljši pri iskanju pravega odgovora. Pred kratkim smo v Torontu ugotovili ali Nick Frost ugotovili, da dodajanje rekonstrukcije poveča nasprotni odpor. Mislim, da se v človeškem vidu rekonstrukcija uporablja za učenje. In ker se med rekonstrukcijo toliko naučimo, smo veliko bolj odporni na nasprotne napade.

Verjamete, da komunikacija na nižji stopnji v nevronski mreži omogoča preizkušanje, kako se nekaj rekonstruira. Preverite in se prepričajte, da gre za pando, ne za noje

Mislim, da je to pomembno, da.

Toda možgani se s tem ne strinjajo?

Znanstveniki možganov ne trdijo, da če imate na poti dojemanja dve regiji možganske skorje, vedno obstajajo povratne povezave. Trdijo, za kaj gre. Morda bo potreben zaradi pozornosti, učenja ali obnove. Ali za vse tri.

In zato ne vemo, kaj je povratna informacija. Gradite svoja nova nevronska omrežja, izhajajoč iz predpostavke, da … ne, niti ne tako - gradite povratne informacije, saj je potrebna za obnovo v vaših nevronskih mrežah, čeprav sploh ne razumete, kako možgani delujejo?

Da.

Ali ni to trik? No, to je, če poskušate narediti nekaj podobnega kot možgani, vendar niste prepričani, ali možgani to storijo?

V resnici ne. Nisem v računalniški nevroznanosti. Ne poskušam modelirati, kako možgani delujejo. Pogledam v možgane in rečem: "Deluje, in če želimo narediti še nekaj, kar deluje, moramo gledati in biti navdihnjeni." Navdihujejo nas nevroni, ne gradijo nevronskega modela. Tako celoten model nevronov, ki jih uporabljamo, navdihuje dejstvo, da imajo nevroni veliko povezav in da spreminjajo uteži.

Zanimivo je. Če bi bil računalničar, ki dela na nevronskih omrežjih in bi hotel obiti Jeffa Hintona, bi bila ena od možnosti izgradnja komunikacije navzdol in osnovo na drugih modelih možganske znanosti. Na podlagi usposabljanja in ne obnove

Če bi bili boljši modeli, bi zmagali. Da.

Zelo, zelo zanimivo. Dotaknimo se bolj splošne teme. Torej, nevronske mreže lahko rešijo vse možne težave. Ali so v človeških možganih uganke, ki jih nevronske mreže ne morejo ali ne bodo zajele? Na primer čustva

Ne.

Je torej ljubezen mogoče rekonstruirati z nevronsko mrežo? Zavest je mogoče rekonstruirati?

Vsekakor. Ko ugotovite, kaj te stvari pomenijo. Mi smo nevronske mreže, kajne? Zavest je zame še posebej zanimiva tema. Toda … ljudje v resnici ne vedo, kaj pomenijo s to besedo. Obstaja veliko različnih definicij. In mislim, da je to precej znanstveni izraz. Če ste torej pred 100 leti vprašali ljudi: kaj je življenje? Odgovorili bi: "No, živa bitja imajo življenjsko silo, in ko umrejo, jih življenjska sila zapusti. To je razlika med živimi in mrtvimi, bodisi imaš vitalnost ali pa je nimaš. " Zdaj nimamo življenjske sile, mislimo, da je ta koncept prišel pred znanost. In ko boste začeli malce razumeti biokemijo in molekularno biologijo, ne potrebujete več življenjske sile, boste razumeli, kako vse to v resnici deluje. In isto se bo, mislim, zgodilo z zavestjo. Mislim,da je zavest poskus razlage duševnih pojavov s pomočjo entitete. In to bistvo ni potrebno. Ko lahko enkrat razložite, lahko razložite, kako počnemo vse, kar ljudi osvešča, razložimo različne pomene zavesti, ne da bi pri tem sodelovali nobeni posebni entiteti.

Se izkaže, da ni čustev, ki jih ne bi bilo mogoče ustvariti? Ni misli, ki je ni mogoče ustvariti? Človeški um ni ničesar, česar teoretično ne bi bilo mogoče ponovno ustvariti s popolnoma delujočo nevronsko mrežo, ko dejansko razumemo, kako možgani delujejo?

John Lennon je v eni svojih pesmi zapel nekaj podobnega.

Ste 100% prepričani v to?

Ne, jaz sem Bayesian, tako da sem 99,9% prepričan.

Ok, kaj je potem 0,01%?

No, lahko bi bili na primer vsi del večje simulacije.

Dovolj pošteno. Kaj se torej naučimo o možganih iz svojega dela na računalnikih?

No, mislim, da je iz tega, kar smo se naučili v zadnjih 10 letih, zanimivo, da če vzamete sistem z milijardnimi parametri in objektivno funkcijo - na primer za zapolnitev vrzeli z vrsticami -, deluje bolje, kot bi moralo. Delovalo bo veliko bolje, kot morda pričakujete. Morda boste pomislili, in mnogi ljudje v tradicionalnih raziskavah AI bi pomislili, da lahko vzamete sistem z milijardo parametrov, ga zaženete po naključnih vrednostih, izmerite gradient ciljne funkcije in nato potegnete, da izboljšate ciljno funkcijo. Morda mislite, da bi se brezupni algoritem neizogibno zataknil. Ampak ne, izkazalo se je, da je to res dober algoritem. In večji kot je lestvica, bolje deluje. In to odkritje je bilo v bistvu empirično. Seveda je bilo za to nekaj teorije, vendar je bilo odkritje empirično. In zdaj,odkar smo to ugotovili, se zdi bolj verjetno, da možgani izračunajo gradient neke ciljne funkcije in posodabljajo uteži in moč sinaptične povezave, da bi bili v koraku s tem gradientom. Ugotoviti moramo le, kaj je ta ciljna funkcija in kako se poslabša.

Ampak tega nismo razumeli s primerom možganov? Ne razumete posodobitve stanja?

To je bila teorija. Dolgo nazaj so ljudje mislili, da je to mogoče. Toda v ozadju so bili vedno nekateri računalničarji, ki so dejali: "Da, ampak ideja, da je vse naključno in učenje zaradi naklona v gradientu, ne bo delovala z milijardo parametrov, povezati morate veliko znanja." Zdaj vemo, da temu ni tako. Lahko samo vnesete naključne parametre in se naučite vsega.

Potopimo se malo globlje. Ko se bomo vedno bolj učili, bomo verjetno še naprej spoznavali, kako delujejo človeški možgani, ko izvajamo obsežne teste modelov, ki temeljijo na našem razumevanju možganske funkcije. Ko bomo vse to bolje razumeli, ali bo prišlo do točke, ko bomo v bistvu ponovno previli svoje možgane, da bi postali veliko učinkovitejši stroji?

Če resnično razumemo, kaj se dogaja, lahko izboljšamo nekatere stvari, kot je izobraževanje. In mislim, da se bomo izboljšali. Zelo nenavadno bi bilo, če bi končno razumeli, kaj se dogaja v vaših možganih, kako se učijo, in se ne prilagodite tako, da bi se bolje učili.

Kako mislite, da bomo čez nekaj let uporabili to, kar smo se naučili o možganih in kako poglobljeno učenje deluje za preoblikovanje izobraževanja? Kako bi spremenili razrede?

Nisem prepričan, da se bomo čez nekaj let veliko naučili. Mislim, da bo trajalo dlje, da se bo spremenila izobrazba. Toda če govorimo o tem, [digitalni] pomočniki postajajo precej pametni. Ko pomočniki razumejo pogovore, se lahko pogovarjajo z otroki.

In teoretično, če razumemo možgane bolje, lahko programiramo pomočnike za boljši pogovor z otroki na podlagi tega, kar so se že naučili

Da, ampak o tem nisem veliko razmišljal. Delam nekaj drugega. A vse to se zdi precej podobno resnici.

Ali lahko razumemo, kako delujejo sanje?

Ja, zelo me zanimajo sanje. Tako me zanima, da imam vsaj štiri različne sanjske teorije.

Povejte nam o njih - o prvem, drugem, tretjem, četrtem

Že dolgo nazaj je obstajala tovrstna stvar, imenovana Hopfield network, in preučevali so spomine kot lokalne privlačnike. Hopfield je ugotovil, da se bodo, če poskušate postaviti preveč spominov, zmešati. Vzeli bodo dva lokalna privlačnika in jih združili v enega atraktorja nekje na polovici med njimi.

Nato sta prišla Francis Crick in Graham Mitchison in dejala, da se lahko te lažne zagate znebimo tako, da se naučimo (torej pozabimo, kar smo se naučili). Izklopimo vnos podatkov, postavimo nevronsko omrežje v naključno stanje, pustimo, da se pomiri, rečemo, da je slabo, spremenimo povezave, da ne pade v to stanje in tako lahko omrežje prisilimo, da shrani več spominov.

Potem sva z Terryjem Sejnowskim prišla in rekla: "Glej, če ne bomo imeli samo nevronov, ki hranijo spomine, ampak še kup drugih nevronov, ali lahko najdemo algoritem, ki uporablja vse te druge nevrone, da nam pomaga priklicati spomine?" … Kot rezultat tega smo ustvarili algoritem strojnega učenja Boltzmanna. In Boltzmannov algoritem strojnega učenja je imel izjemno zanimivo lastnost: prikazujem podatke in nekako gre skozi preostale enote, dokler ne pride v zelo srečno stanje, nato pa poveča moč vseh povezav, in sicer na podlagi dejstva, da sta dve enoti aktivni hkrati.

Prav tako bi morali imeti fazo, v kateri izklopite vhodni del, pustite algoritem "rjoviti" in ga spravite v stanje, v katerem je srečen, da fantazira, in takoj, ko ima fantazijo, si rečete: "Vzemite vse pare nevronov ki so aktivne in zmanjšujejo trdnost povezav."

Algoritem vam razlagam kot postopek. Toda v resnici je ta algoritem rezultat matematike in vprašanja: "Kako morate spremeniti te verige povezav, da se to nevronsko omrežje z vsemi temi skritimi enotami podatkov ne zdi presenetljivo?" Obstajati mora še ena faza, ki ji rečemo negativna faza, ko omrežje deluje brez vnosa podatkov in se ne izuči, ne glede na to, v kakšnem stanju ste ga postavili.

Vsako noč sanjamo več ur. In če se nenadoma zbudite, lahko rečete, da ste pravkar sanjali, saj so sanje shranjene v kratkoročnem spominu. Vemo, da sanje vidimo več ur, toda zjutraj se po prebujanju lahko spomnimo le še zadnjih sanj in ne spomnimo se drugih, kar je zelo uspešno, saj bi jih lahko kdo zmotil za resničnost. Zakaj se torej sploh ne spomnimo svojih sanj? Po Krikovem mnenju je to smisel sanj: tega se naučiti. Nekako se naučite obratno.

Terry Seinovski in jaz smo pokazali, da je to dejansko največja verjetnost učenja za Boltzmannove stroje. To je prva teorija o sanjah.

Rad bi prešel na vaše druge teorije. Toda moje vprašanje je: Ali ste lahko usposobili katerega od svojih algoritmov za globoko učenje, da bi dejansko sanjali?

Nekateri prvi algoritmi, ki so se lahko naučili delati s skritimi enotami, so bili Boltzmannovi stroji. Bili so izjemno neučinkoviti. Toda pozneje sem našel način, kako delati s približki, ki so se izkazali za učinkovite. In to je dejansko spodbudilo nadaljevanje dela z globokim učenjem. To so bile stvari, ki so hkrati učile en sloj funkcijskih detektorjev. In to je bila učinkovita oblika omejevalnega stroja Boltzmanna. In tako je naredila tovrstno obratno učenje. Toda namesto da bi zaspala, bi lahko le malo zamislila po vsaki oznaki podatkov.

V redu, torej androidi dejansko sanjajo o električnih ovcah. Pojdimo na teorije dve, tri in štiri

Druga teorija se je imenovala algoritem Wake Sleep Algorithm. Usposobiti morate generativni model. In imate idejo, da ustvarite model, ki lahko ustvarja podatke, ima sloje funkcij detektorjev funkcij in aktivira višje in spodnje sloje in tako naprej, vse do aktiviranja slikovnih pik - ustvarjanja slike v bistvu. Toda radi bi jo naučili še nekaj. Želeli bi, da podatke prepozna.

In zato morate narediti algoritem z dvema fazama. V fazi prebujanja pride podatek, ga poskuša prepoznati in namesto da bi preučil povezave, ki jih uporablja za prepoznavanje, preučuje generativne povezave. Podatki prihajajo, aktiviram skrite enote. In potem skušam te skrite enote naučiti obnoviti te podatke. Nauči se rekonstruirati v vsaki plasti. Toda vprašanje je, kako se naučiti neposrednih povezav? Ideja je, da če bi poznali neposredne povezave, bi se lahko naučili povratnih povezav, ker bi se lahko naučil obratnega inženirja.

Zdaj se tudi izkaže, da če uporabljate povratne povezave, se lahko naučite tudi neposredne povezave, saj lahko samo začnete na vrhu in ustvarite nekaj podatkov. In ker ustvarjate podatke, poznate stanja vseh skritih plasti in lahko preučite neposredne povezave za obnovitev teh stanj. In tukaj se zgodi: če začnete z naključnimi povezavami in poskusite izmenično uporabljati obe fazi, vam bo uspelo. Da bo dobro delovalo, morate preizkusiti različne možnosti, vendar bo delovalo.

Ok, torej kaj pa drugi dve teoriji? Ostalo nam je le osem minut, mislim, da se ne bom imel časa vprašati o vsem

Dajte mi še eno uro in povedala vam bom o drugih dveh.

Pogovorimo se o naslednjem. Kam gre vaš raziskovalni naslov? Katere težave zdaj poskušate rešiti?

Na koncu boste morali delati na nečem, česar delo še ni končano. Mislim, da morda dobro delam na nečem, česar nikoli ne bom dokončal - imenovanih kapsul, teoriji o tem, kako se vizualno zaznavanje izvaja z rekonstrukcijo in kako se informacije usmerjajo na prava mesta. Dva glavna motivacijska dejavnika sta bila, da se v standardnih nevronskih omrežjih informacije, dejavnosti v plasti preprosto samodejno pošljejo nekam in se ne odločite, kam ga poslati. Ideja za kapsule je bila sprejemati odločitve, kam poslati informacije.

Zdaj, ko sem začel delati na kapsulah, so zelo pametni ljudje pri Googlu izumili transformatorje, ki delajo enako. Odločajo se, kam bodo informacije poslali, in to je velika zmaga.

Prihodnje leto se bomo vrnili in govorili o sanjskih teorijah številka tri in številka štiri.

Ilya Khel