Co jsou Deepfakes a jak je vytvořit?

Váš komplexní vysvětlovač na Deepfakes a pro jejich snadné vytváření pomocí Faceswap.

Umělá inteligence už není tak „umělá“. Tato doba to nám lidem nebezpečně přiblížila.

Může navrhovat, psát, vytvářet umění a nyní vypadá a mluví jako živí.

Toto je jeden z nejnovějších vývojů v této oblasti, kterého bychom měli využít. I na to si však musíme dát pozor.

Co jsou Deepfakes?

Slovo Deepfake je vytvořeno spojením hlubokého učení a falešného. Jednoduše řečeno, můžete také předpokládat, že jde o odborně zmanipulovaná nebo hluboce zfalšovaná média.

Podle Wikipedie je to také známé jako syntetická média, ve kterých je existující obrázek, zvuk nebo video upraveno tak, aby reprezentovalo úplně někoho jiného.

Hluboké fake obvykle působí, že renomované osobnosti říkají něco, co by jinak neřekly.

Na základě dovedností jeho tvůrce může být extrémně těžké určit, zda je skutečný nebo falešný.

Jak Deepfakes fungují?

Zjednodušeně řečeno, část původního videa (řekněme obličej) je nahrazena podobně vypadajícím padělkem. V takovém případě to může být také nazýváno faceswap, jako v tomto videu ‚Obama‘.

Není to však omezeno pouze na video a máme také deepfake obrázky a zvuk (a kdo ví, deepfake VR avatary v blízké budoucnosti).

Zdroj: Disney

Pracovní metodologie takových triků závisí především na aplikaci a základním algoritmu.

Podle tohoto výzkumného dokumentu společnosti Disney existují různé techniky, včetně kodérů-dekodérů, generativních adversariálních sítí (GAN), deepfakes založených na geometrii atd.

Následující části jsou však zásadně ovlivněny tím, jak funguje s Facewapem. Jedná se o bezplatný a open-source software Deepfake, který umožňuje více algoritmů získat očekávaný výsledek.

Existují tři hlavní procesy pro vytváření deepfakes: extrakce, školení a konverze.

#1. Extrakce

Jedná se o detekci a vytlačení předmětné oblasti ze vzorků médií, originálu a média pro výměnu.

Na základě hardwarových možností může existovat mnoho algoritmů pro efektivní detekci.

Například Faceswap má několik různých možností pro extrakci, zarovnání a maskování na základě účinnosti CPU nebo GPU.

Extrakce jednoduše identifikuje obličej v celkovém videu. Zarovnání zaznamená klíčové rysy jakékoli tváře (oči, nos, brada atd.). A nakonec maskování blokuje další prvky obrazu kromě oblasti zájmu.

Celková doba potřebná pro výstup je důležitá při výběru jakékoli možnosti, protože výběr algoritmů náročných na zdroje na průměrném hardwaru může vést k selhání nebo k podstatně dlouhé době, než se zobrazí přijatelné výsledky.

Kromě hardwaru závisí výběr také na parametrech, jako je to, zda vstupní video trpí překážkami na obličeji, jako jsou pohyby rukou nebo brýle.

Nezbytným prvkem je nakonec čištění (vysvětleno později) výstupu, protože extrakce budou mít několik falešných poplachů.

Nakonec se extrakce opakuje pro původní video a falešný (používá se pro výměnu).

#2. Výcvik

To je srdce vytváření deepfakes.

Školení je o neuronové síti, která se skládá z kodéru a dekodéru. Zde jsou algoritmy přiváděny extrahovaná data, aby vytvořily model pro pozdější konverzi.

Kodér převádí vstup na vektorovou reprezentaci, aby trénoval algoritmus pro opětovné vytvoření tváří zpět z vektorů, jak to dělá dekodér.

Poté neuronová síť vyhodnotí své iterace a porovná je s originálem přidělením skóre ztráty. Tato hodnota ztráty v průběhu času klesá, jak se algoritmus neustále opakuje, a zastavíte se, když jsou náhledy přijatelné.

Školení je časově náročný proces a výstupy se obecně zlepšují v závislosti na iteracích, které provádí, a na kvalitě vstupních dat.

Například Faceawap navrhuje minimálně 500 obrázků každý, originální a pro výměnu. Kromě toho by se snímky mezi sebou měly výrazně lišit a pokrývat všechny možné úhly v jedinečném osvětlení pro nejlepší zábavu.

Vzhledem k délce tréninku umožňují některé aplikace (jako Faceswap) zastavit trénink v polovině nebo pokračovat později.

Je pozoruhodné, že fotorealismus výstupu také závisí na účinnosti algoritmu a vstupu. A jeden je opět omezen hardwarovými možnostmi.

#3. Konverze

Toto je poslední kapitola stvoření deepfake. Konverzní algoritmy potřebují zdrojové video, trénovaný model a zdrojový soubor zarovnání.

Následně lze změnit několik možností týkajících se korekce barev, typu masky, požadovaného výstupního formátu atd.

Po konfiguraci těchto několika možností už jen čekáte na finální render.

Jak již bylo zmíněno, Faceswap pracuje s mnoha algoritmy a lze mezi nimi hrát, abyste dosáhli přijatelného facewapu.

Je to všechno?

Ne!

Tohle byla jen výměna obličejů, podmnožina deepfake technologie. Výměna obličeje, stejně jako doslovný význam, nahrazuje pouze část obličeje, aby poskytla slabou představu o tom, co by mohly dělat deepfakes.

Pro věrohodnou výměnu možná budete muset napodobit zvuk (lépe známý jako klonování hlasu) a celou postavu, včetně všeho, co se vejde do rámečku, takto:

Takže, o co se tu hraje?

Mohlo se stát, že autor deepfake natočil video sám (jak bylo uvedeno v posledních několika sekundách), synchronizoval dialog se syntetickým hlasem Morgana Freemana a nahradil hlavu.

V konečném důsledku nejde jen o výměnu obličejů, ale o celý snímek včetně zvuku.

Na YouTube můžete najít spousty deepfakeů až do té míry, že to začíná být děsivé, čemu věřit. A vše, co k tomu potřebujete, je výkonný počítač s výkonnou grafickou kartou.

Dokonalosti je však těžké dosáhnout a u deepfakes to platí obzvlášť.

Pro přesvědčivý deepfake, který může diváky oklamat nebo ohromit, je potřeba dovednost a několik dní až týdnů zpracování jedné nebo dvou minut videa.

Zajímavé je, že právě tak schopné jsou tyto algoritmy. Ale budoucnost, včetně toho, jak efektivní mohou být tyto aplikace na hardwaru nižší třídy, znervózňuje celé vlády.

Nebudeme se však ponořit do jeho budoucích dopadů. Místo toho se pojďme podívat, jak to udělat sami pro malou zábavu.

Vytváření (základních) Deepfake videí

V tomto seznamu deepfake aplikací můžete zkontrolovat mnoho aplikací pro vytváření memů.

Jedním z nich je Faceswap, který budeme používat.

Než budeme pokračovat, musíme zajistit několik věcí. Nejprve bychom měli mít kvalitní video cíle zobrazující různé emoce. Dále budeme potřebovat zdrojové video k přehození na cíl.

Kromě toho zavřete všechny aplikace náročné na grafickou kartu, jako jsou prohlížeče nebo hry, než budete pokračovat s Faceswapem. To platí zejména v případě, že máte méně než 2 gigabajty VRAM (video RAM).

Krok 1: Vyjmutí tváří

Prvním krokem v tomto procesu je vyjmutí tváří z videa. K tomu musíme vybrat cílové video ve vstupním adresáři a uvést výstupní adresář pro extrakci.

Kromě toho existuje několik možností, včetně detektoru, zarovnávače, maskovače atd.; Vysvětlení každého z nich je v FAQ Faceawap a bylo by zbytečné tyto informace zde přehánět.

Zdroj: Faceswap FAQ

Obecně je dobré prohlédnout si dokumentaci pro lepší pochopení a slušný výstup. Existují však užitečné texty v rámci Faceswap, které můžete najít po najetí myší na konkrétní možnost.

Jednoduše řečeno, neexistuje žádný univerzální způsob a člověk by měl začít s nejlepšími algoritmy a úspěšně se propracovat k vytvoření přesvědčivého deepfake.

Pro kontext jsem použil Mtcnn (detektor), Fan (zarovnávač) a Bisenet-Fp (masker), přičemž všechny ostatní možnosti jsem ponechal tak, jak jsou.

Původně jsem to zkoušel s S3Fd (nejlepší detektor) a pár dalšími maskami dohromady. Moje 2Gb Nvidia GeForce GTX 750Ti to však neunesla a proces opakovaně selhal.

Nakonec jsem zmírnil svá očekávání a nastavení, abych to viděl.

Kromě výběru vhodného detektoru, maskérů atd. je v Nastavení > Konfigurovat nastavení několik dalších možností, které pomáhají dále vyladit jednotlivá nastavení, aby pomohly hardwaru.

Jednoduše řečeno, vyberte nejnižší možnou velikost dávky, velikost vstupu a velikost výstupu a zaškrtněte LowMem atd. Tyto možnosti nejsou dostupné univerzálně a jsou založeny na konkrétní sekci. Kromě toho texty nápovědy dále pomáhají při výběru nejlepších možností.

Ačkoli tento nástroj odvádí vynikající práci při extrahování ploch, výstupní snímky mohou mít mnohem více, než je potřeba k trénování (probráno později) modelu. Například bude mít všechny obličeje (pokud má video více než jeden) a některé nesprávné detekce, které cílový obličej vůbec nebudou mít.

To vede k čištění datových sad. Buď můžete zkontrolovat výstupní složku a smazat se, nebo použít třídění Faceswap, abyste získali pomoc.

Pomocí výše uvedeného nástroje uspořádáte různé tváře v pořadí, odkud můžete ty potřebné spojit do jediné složky a zbytek smazat.

Připomínáme, že budete chtít zopakovat extrakci pro zdrojové video.

Krok 2: Školení modelu

Toto je nejdelší proces při vytváření deepfake. Zde vstup A odkazuje na cílovou plochu a vstup B se týká zdrojové plochy. Kromě toho se v Model Dir budou ukládat tréninkové soubory.

Zde je nejvýznamnější možností Trainer. Existuje spousta možností individuálního škálování; co však fungovalo pro můj hardware, jsou trenažéry Dfl-H128 a Lightweight s nejnižším nastavením konfigurace.

Další je velikost dávky. Vyšší velikost dávky zkracuje celkovou dobu školení, ale spotřebovává více VRAM. Iterace nemají žádný pevný vliv na výstup a měli byste nastavit dostatečně vysokou hodnotu a zastavit trénování, jakmile budou náhledy přijatelné.

Existuje několik dalších nastavení, včetně vytvoření timelapse s přednastavenými intervaly; model jsem však trénoval s úplným minimem.

Krok 3: Výměna na originál

Toto je poslední počin v hlubokém stvoření.

To obecně nezabere tolik času a můžete si pohrát s mnoha možnostmi, jak rychle získat požadovaný výstup.

Jak je uvedeno na obrázku výše, toto je několik možností, které je třeba zvolit, aby bylo možné zahájit konverzi.

Většina možností již byla probrána, jako je vstupní a výstupní adresář, adresář modelu atd. Jedna zásadní věc je Alignments, která odkazuje na soubor zarovnání (.fsa) cílového videa. Během extrakce se vytvoří ve vstupním adresáři.

Pole Zarovnání lze ponechat prázdné, pokud konkrétní soubor nebyl přesunut. V opačném případě můžete vybrat soubor a přejít k dalším možnostem. Nezapomeňte však vyčistit soubor zarovnání, pokud jste extrakce vyčistili dříve.

K tomu se tento mini nástroj nachází v nabídce Nástroje > Zarovnání.

Začněte výběrem položky Odebrat tváře v části Úloha, vyberte původní soubor zarovnání a složku vyčištěných cílových ploch a klepněte na Zarovnání vpravo dole.

Tím se vytvoří upravený soubor zarovnání odpovídající složce optimalizovaných ploch. Pamatujte, že to potřebujeme pro cílové video, do kterého chceme zaměnit.

Několik dalších konfigurací zahrnuje úpravu barev a typ masky. Úprava barev určuje prolnutí masky a můžete jich vyzkoušet několik, zkontrolovat náhled a vybrat optimální možnost.

Důležitější je typ masky. To opět závisí na vašich očekáváních a dostupném hardwaru. Obvykle je také třeba vzít v úvahu vstupní charakteristiky videa. Například Vgg-Clear dobře funguje s předními obličeji bez překážek, zatímco Vgg-Obstructed si poradí i s překážkami, jako jsou gesta rukou, brýle atd.

Dále Writer nabídne několik možností na základě požadovaného výstupu. Pro např. vyberte Ffmpeg pro vykreslení videa.

Celkově je klíčem k úspěšnému deepfake náhled několika výstupů a optimalizace podle časové dostupnosti a síly hardwaru.

Aplikace Deepfake

Existují dobré, špatné a nebezpečné aplikace deepfakes.

Ty dobré spočívají v obnovení lekcí dějepisu těmi, kteří tam skutečně byli pro větší zapojení.

Kromě toho je využívají online vzdělávací platformy ke generování videí z textů.

Ale jedním z největších příjemců bude filmový průmysl. Zde bude snadné představit si skutečného vedoucího provádějícího kaskadérské kousky, i když to bude kaskadér riskující svůj život. Kromě toho bude vytváření vícejazyčných filmů snazší než kdy předtím.

Když přijdeme k těm špatným, je jich bohužel mnoho. Největší deepfake aplikace k dnešnímu dni, ve skutečnosti, 96% (podle této zprávy Deeptrace), je v pornoprůmyslu pro výměnu tváří celebrit za pornoherce.

Kromě toho jsou deepfakes také zbraněmi proti „standardním“ ženám bez celebrit. Obvykle mají takové oběti na svých profilech na sociálních sítích vysoce kvalitní fotografie nebo videa, které se používají k vytváření deepfakes.

Další děsivou aplikací je vishing, neboli hlasový phishing. V jednom takovém případě generální ředitel britské firmy převedl 243 000 dolarů na příkaz „CEO“ její německé mateřské společnosti, aby později zjistil, že šlo ve skutečnosti o falešný telefonát.

Ale co je ještě nebezpečnější, je hluboké falešné vyvolávání válek nebo žádost o kapitulaci. Při posledním pokusu ukrajinského prezidenta Volodymyra Zelenského řekl svým silám a lidu, aby se v probíhající válce vzdali. Za pravdu však tentokrát dalo podprůměrné video.

Závěrem lze říci, že existuje mnoho deepfake aplikací a teprve to začíná.

Tím se dostáváme k otázce za milion…

Je Deepfakes legální?

To závisí především na místní správě. I když dobře definované zákony, včetně toho, co je přípustné a co ne, se teprve uvidí.

Přesto je zřejmé, že záleží na tom, k čemu deepfakes používáte – na záměru. Není na tom nic špatného, ​​pokud máte v úmyslu někoho pobavit nebo poučit, aniž byste narušili cíl výměny.

Na druhou stranu by škodlivé aplikace měly být trestné podle zákona, bez ohledu na jurisdikci. Další šedou oblastí je porušování autorských práv, které je třeba řádně zvážit.

Ale opakuji, měli byste si ověřit u svých místních vládních orgánů legální deepfake aplikace.

Dávej pozor!

Deepfkaes využívá umělou inteligenci k tomu, aby někdo něco řekl.

Nevěřte ničemu, co vidíte na internetu, je první rada, podle které bychom měli jednat. Dezinformací jsou tuny a jejich účinnost se jen zvyšuje.

A protože bude snazší je vytvořit, je na čase, abychom se naučili odhalovat deepfakes.