Znanstveniki So Ustvarili Samostojno Učenje AI, Ki Je Sposoben Igrati Vse Igre - Alternativni Pogled

Video: Znanstveniki So Ustvarili Samostojno Učenje AI, Ki Je Sposoben Igrati Vse Igre - Alternativni Pogled

Video: Hvala vsem za 50 sabov 2024, April

2024 Avtor: Keith Bush | [email protected]. Nazadnje spremenjeno: 2023-12-16 14:48

Razvijalci revolucionarnega samoučnega sistema umetne inteligence AlphaGo Zero so napovedali ustanovitev nove različice tega stroja, ki se lahko samostojno nauči igrati katero koli družabno igro in pretepe človeka. Njen opis je bil predstavljen v reviji Science.

Globine uma

Sistem AI AlphaGo so konec leta 2014 razvili David Silver in njegovi sodelavci, njegovo delo pa je "preizkusil" evropski prvak Fan Hui, ki je izgubil vseh pet tekem proti avtomobilu. Marca 2016 je AlphaGo v nizu petih tekem premagal Go svetovnega prvaka Leeja Sedola, od katerih se je le ena končala s človeško zmago.

Silver in njegovi sodelavci so uspeli doseči te uspehe, tako da so zgradili AI na podlagi ne ene, temveč dveh nevronskih mrež naenkrat - posebnih algoritmov, ki posnemajo delo verig nevronov v človeških možganih. Ena od njih je odgovorna za oceno trenutnega položaja na plošči, druga pa uporablja rezultate analize, ki jih je pripravilo prvo omrežje, da izbere naslednji korak.

Naslednji logični korak v razvoju AlphaGo je bila odprava glavne pomanjkljivosti vseh obstoječih nevronskih mrež in sistemov umetne inteligence - potrebe, da jih naučijo, kaj naj naredijo z ogromnimi arhivi podatkov, ki jih ročno obdeluje oseba, ali z neposrednim sodelovanjem osebe, kot se je to zgodilo na prvih stopnjah razvoj AlphaGo.

Silver in njegova ekipa so to težavo rešili tako, da so ustvarili bistveno novo nevronsko mrežo, ki temelji na tako imenovanih učnih algoritmih okrepitve. Ta nevronska mreža je za razliko od svojega zvezdnega predhodnika, ki se je prvotno usposabljal v igrah s prostovoljci in imela nekaj vgrajenih primitivnih strategij igre, začela svoje delo kot absolutni začetnik z nič bazo znanja.

Z drugimi besedami, poznala je le pravila igre Go, začetne pogoje in pogoje zmage, nato pa se je računalnik samostojno naučil igrati to starodavno kitajsko strategijo, igrati se sam s sabo in ravnati s poskusom in napako. Edina omejitev pri njenem delu je bil maksimalni čas za razmišljanje o potezi - to je bilo približno 0,4 sekunde.

Promocijski video:

Po vsaki takšni igri je sistem AI analiziral vse svoje poteze in se spomnil tistih, ki so eno od njegovih "polovic" približali zmagi, in vnesel na nekakšen "črni seznam" tiste korake, ki so jih odkrito izgubili. Z uporabo teh podatkov se je nevronsko omrežje obnovilo in postopoma doseglo raven, ki jo je prva serija AlphaGo dosegla pred serijo iger z Leejem Sedolom.

Prehod na algoritme samostojnega učenja ni le omogočil AlphaGo Zero, da je presegel raven predhodnika in jo premagal z oceno 100-0, temveč je tudi izboljšal številne druge vidike svojega dela. Zlasti postopek njegovega usposabljanja je trajal le tri dni in približno pet milijonov iger, kar je bilo za nekaj manj kot zahteve prve različice AI.

Pot do odličnosti

Uspešen zaključek eksperimentov z AlphaGo Zero je privedel Silver in njegovo ekipo, da razmislijo, ali bi lahko podobno nevronsko mrežo uporabili za osvojitev krone prvaka v drugih vrstah strategij in družabnih iger.

Da bi to naredili, so znanstveniki v AlphaGo Zero vgradili še en nov element za naključno iskanje rešitev in kodo, ki je upoštevala obstoj žreba v nekaterih igrah. Poleg tega je nova različica alfe nenehno izboljševala svojo strukturo, namesto da se je posodabljala v stopnjah, kot je bila predhodnica.

Te sorazmerno preproste spremembe, kot so pokazali nadaljnji poskusi, so znatno povečale hitrost samoučenja tega sistema umetne inteligence in ga spremenili v univerzalni stroj, ki je sposoben igrati vse vrste namiznih strategij.

Znanstveniki so njegovo delo preizkusili na treh vrstah iger - go, navadni šah in njihova japonska sorta, shogi. V vseh treh primerih je Silver-jev novi mož v manj kot milijon igrah dosegel raven velemojsterja in tako dosegel skoraj človeško selektivnost pri izbiri možnih potez v samo 9-12 urah treninga šaha in 13 dni za tek.

Prej je premagala najbolj izpopolnjene računalniške programe, ki igrajo te igre - algoritem Stockfish je odpovedal četrto uro treninga AlphaZero, medtem ko je Elmo, trenutni prvak v shogiju, trajal le dve uri. Končno je prva različica AlphaGo-a začela vdati svojega "vnuka" že približno 30 ur njegovega treninga.

Naslednja "žrtev" AlphaZero-ja, kot so ugotovili znanstveniki, so lahko "prave" računalniške igre, kot sta Starcraft II in Dota 2. Potek po prvenstvu v takšnih disciplinah po esportu bo po njihovem mnenju odprl pot samostojnemu učenju AI, da bi prodrl na manj formalizirana področja znanosti in kulture in tehnologije.