Nevronsko Mrežo So Naučili "animirati" Portrete Na Podlagi Samo Ene Statične Slike - Alternativni Pogled

Nevronsko Mrežo So Naučili "animirati" Portrete Na Podlagi Samo Ene Statične Slike - Alternativni Pogled
Nevronsko Mrežo So Naučili "animirati" Portrete Na Podlagi Samo Ene Statične Slike - Alternativni Pogled

Video: Nevronsko Mrežo So Naučili "animirati" Portrete Na Podlagi Samo Ene Statične Slike - Alternativni Pogled

Video: Nevronsko Mrežo So Naučili
Video: Почему важно хорошо спать по ночам? — Шаи Марку 2024, Maj
Anonim

Ruski strokovnjaki iz centra Samsung za umetno inteligenco Samsung AI Center-Moskva so v sodelovanju z inženirji z Znanstveno-tehnološkega inštituta Skolkovo razvili sistem, ki je sposoben ustvariti realistične animirane slike človeških obrazov na podlagi le nekaj statičnih človeških okvirjev. Običajno je v tem primeru potrebna uporaba velikih baz slik, vendar je bil na primeru, ki so ga razvili razvijalci, sistem usposobljen za izdelavo animirane slike človeškega obraza iz samo osmih statičnih okvirjev, v nekaterih primerih pa je bil en dovolj. Za več podrobnosti o razvoju glejte članek, objavljen v spletnem repozitoriju ArXiv.org.

Image
Image

Praviloma je zaradi visoke fotometrične, geometrijske in kinematične zapletenosti reprodukcije človeške glave precej težko reproducirati fotorealistično prilagojen modul človeškega obraza. To je razloženo ne samo s kompleksnostjo modeliranja obraza kot celote (za to obstaja veliko število pristopov k modeliranju), ampak tudi s kompleksnostjo modeliranja določenih lastnosti: ustne votline, las in tako naprej. Drugi zapleteni dejavnik je naša težnja, da v končnem modelu človeških glav opazimo še manjše pomanjkljivosti. Ta nizka toleranca do napak pri modeliranju pojasnjuje trenutno razširjenost nefotorealističnih avatarjev, ki se uporabljajo pri telekonference.

Po mnenju avtorjev je sistem, ki so ga poimenovali Fewshot learning, sposoben ustvariti zelo realistične modele govorečih glav ljudi in celo portretne slike. Algoritmi sintetizirajo podobo glave iste osebe s črtami obraza obraza, vzetih iz drugega fragmenta videoposnetka, ali z uporabo referenčnih točk obraza druge osebe. Razvijalci so uporabili obsežno bazo videov o slavnih kot vir gradiva za usposabljanje sistema. Za zagotovitev najbolj natančne govorilne glave mora sistem uporabiti več kot 32 slik.

Da bi ustvarili bolj realistične animirane podobe obraza, so razvijalci uporabili prejšnji razvoj v generativnem adversarialnem modeliranju (GAN, kjer nevronska mreža premišljuje podrobnosti slike, pravzaprav postane umetnik), pa tudi strojni pristop meta učenja, kjer je vsak element sistema usposobljen in zasnovan za reševanje nekaterih specifična naloga.

Shema meta učenja
Shema meta učenja

Shema meta učenja.

Image
Image
Image
Image

Promocijski video:

Tri nevronske mreže so bile uporabljene za obdelavo statičnih slik glave ljudi in njihovo spreminjanje v animirane: Embedder (izvedbena mreža), Generator (generiranje omrežja) in Discriminator (diskriminacijska mreža). Na prvi particiji so slike glave (s približnimi mejniki obraza) v vgrajene vektorje, ki vsebujejo informacije, neodvisne od pozi, druga mreža uporablja mejnike obraza, ki jih pridobi vdelano omrežje in na njih ustvari nove podatke prek niza konvolucijskih plasti, ki zagotavljajo odpornost na spremembe obsega, premikov, zavoji, sprememba kota in drugačna popačenja originalne slike obraza. Za oceno kakovosti in verodostojnosti drugih dveh omrežij se uporablja diskriminacijski mehanizem. Kot rezultat, sistem transformira mejnike osebe v realno videti personalizirane fotografije.

Image
Image
Image
Image

Razvijalci poudarjajo, da je njihov sistem sposoben inicializirati parametre tako generatorjevega omrežja kot tudi diskriminatorne mreže za vsakega človeka na sliki, zato lahko učni proces temelji na samo nekaj slikah, kar poveča njegovo hitrost, kljub temu, da je treba izbrati več deset milijonov parametrov.

Nikolaj Hizhnyak

Priporočena: