Nasprotni Napadi: Zakaj Je Nevronsko Mrežo Enostavno Preizkusiti? - Alternativni Pogled

Kazalo:

Nasprotni Napadi: Zakaj Je Nevronsko Mrežo Enostavno Preizkusiti? - Alternativni Pogled
Nasprotni Napadi: Zakaj Je Nevronsko Mrežo Enostavno Preizkusiti? - Alternativni Pogled

Video: Nasprotni Napadi: Zakaj Je Nevronsko Mrežo Enostavno Preizkusiti? - Alternativni Pogled

Video: Nasprotni Napadi: Zakaj Je Nevronsko Mrežo Enostavno Preizkusiti? - Alternativni Pogled
Video: Жизнь после смерти | НОВАЯ ПЕРЕДАЧА 2024, Maj
Anonim

V zadnjih letih, ko sistemi globokega učenja postajajo vse bolj razširjeni, so znanstveniki dokazali, kako lahko nasprotni vzorci vplivajo na karkoli, od preprostega klasifikatorja slik do diagnostičnih sistemov raka - in celo ustvarijo življenjsko nevarne razmere. Kljub vsej njihovi nevarnosti pa so nasprotni primeri slabo razumljeni. In znanstveniki so bili zaskrbljeni: ali je mogoče to težavo rešiti?

Kaj je nasprotni napad? To je način, kako nevronsko mrežo prevariti, da ustvari napačen rezultat. Uporabljajo se predvsem v znanstvenih raziskavah za testiranje robustnosti modelov na podlagi nestandardnih podatkov. Toda v resničnem življenju lahko kot primer spremenite nekaj slikovnih pik v sliki pande, tako da bo nevronska mreža prepričana, da je na sliki gibbon. Čeprav znanstveniki na sliko dodajo le "hrup".

Adversarialni napad: kako izigrati nevronsko mrežo?

Novo delo Massachusetts Institute of Technology kaže na možen način za premagovanje te težave. Z reševanjem bi lahko ustvarili veliko bolj zanesljive modele globokega učenja, s katerimi bi bilo veliko težje manipulirati na zlonamerne načine. A poglejmo najprej osnove adverzarnih vzorcev.

Kot veste, moč globokega učenja izhaja iz njegove vrhunske sposobnosti prepoznavanja vzorcev (vzorcev, vzorcev, diagramov, vzorcev) v podatkih. Nevronska mreža nahrani več deset tisoč označenih fotografij živali in nauči se, kateri vzorci so povezani s pando in kateri so povezani z opico. Nato lahko s temi vzorci prepozna nove slike živali, ki jih še nikoli ni videla.

Toda modeli globokega učenja so tudi zelo krhki. Ker se sistem za prepoznavanje slike opira samo na vzorce pikslov in ne na bolj konceptualno razumevanje tega, kar vidi, ga je enostavno zafrkavati, če vidimo nekaj povsem drugega - samo tako, da vzorce razbijemo na določen način. Klasičen primer: Dodajte nekaj hrupa sliki pande in sistem jo s skoraj 100-odstotno gotovostjo razvrsti med gibon. Ta hrup bo nasprotni napad.

Image
Image

Promocijski video:

Znanstveniki že nekaj let opažajo ta pojav, zlasti v sistemih računalniškega vida, ne da bi se zares znali rešiti takšnih ranljivosti. Delo, ki je bilo prejšnji teden predstavljeno na veliki konferenci o raziskovanju umetne inteligence - ICLR - postavlja pod vprašaj neizogibnost nasprotniških napadov. Morda se zdi, da ne glede na to, koliko slik pande hranite s klasifikatorjem slik, bo vedno prišlo do kakšnega ogorčenja, s katerim razbijete sistem.

Toda novo delo MIT dokazuje, da smo napačno razmišljali o nasprotnih napadih. Namesto da bi iznašli načine, kako zbrati več kakovostnih podatkov, ki napajajo sistem, moramo temeljito premisliti svoj pristop k temu izobraževanju.

Delo to dokazuje s tem, da razkriva precej zanimivo lastnost nadomestnih primerov, ki nam pomaga razumeti, zakaj so učinkoviti. Kaj je trik: na videz naključni hrup ali nalepke, ki zmedejo nevronsko mrežo, dejansko uporabljajo zelo točkovne, subtilne vzorce, ki se jih je vizualizacijski sistem naučil močno povezati s posebnimi predmeti. Z drugimi besedami, stroj se ne zruši, ko vidimo gibbon, kjer vidimo pando. Pravzaprav vidi redno razporeditev pikslov, nevidnih za ljudi, ki se pojavljajo veliko pogosteje na slikah z gibboni kot na slikah s pandami med treningom.

Znanstveniki so to dokazali s poskusom: ustvarili so nabor slik psov, ki so bili vsi spremenjeni tako, da jih je standardni klasifikator slike napačno opredelil kot mačke. Nato so te slike označili z "mačkami" in jih uporabili za usposabljanje nove nevronske mreže iz nič. Po treningu so nevronski mreži pokazali resnične slike mačk, ona pa jih je pravilno identificirala kot mačke.

Raziskovalci so domnevali, da v vsakem naboru podatkov obstajata dve vrsti korelacij: vzorci, ki dejansko so v skladu s pomenom podatkov, na primer ličk na slikah mačk ali obarvanost krzna v slikah pande, in vzorci, ki obstajajo v podatkih o treningu, vendar se ne razmnožujejo. v druge kontekste. Te zadnje "zavajajoče" korelacije, tako jih imenujemo, se uporabljajo v nasprotniških napadih. Sistem prepoznavanja, usposobljen za prepoznavanje »zavajajočih« vzorcev, jih najde in misli, da vidi opico.

To nam pove, da moramo, če želimo odpraviti tveganje za nasilne napade, spremeniti način treniranja svojih modelov. Trenutno nevronski mreži omogočamo, da izbere korelacije, ki jih želi uporabiti za identifikacijo predmetov na sliki. Posledično nimamo nadzora nad korelacijami, ki jih ugotovi, ne glede na to, ali so resnične ali zavajajoče. Če bi namesto tega usposobili svoje modele, da se spominjajo samo resničnih vzorcev - ki so vezani na smiselne slikovne pike - bi teoretično lahko ustvarili globoke sisteme učenja, ki jih ni mogoče zamenjati.

Ko so znanstveniki preizkusili to idejo in pri usposabljanju svojega modela uporabili le resnične korelacije, so dejansko zmanjšali njeno ranljivost: z njo se je manipuliralo le 50% časa, medtem ko je bil model, treniran na resničnih in napačnih korelacijah, 95% časa.

Skratka, lahko se branite pred nasprotnimi napadi. Toda za njihovo popolno odpravo potrebujemo več raziskav.

Ilya Khel