Kdo detekuje Deepfakes lépe: Člověk nebo stroj?

Klíčové věci

  • Deepfakes představují významné hrozby pro společnost, včetně šíření dezinformací, poškozování reputace prostřednictvím předstírání identity a podněcování konfliktů pro národní bezpečnost.
  • I když technologie AI nabízí nástroje pro detekci deepfake, nejsou dokonalé a při identifikaci deepfakeů zůstává zásadní lidská diskrétnost.
  • Lidé a detekční nástroje AI mají různé silné a slabé stránky při identifikaci deepfake a kombinace jejich schopností může zlepšit úspěšnost při odhalování a zmírňování nebezpečí deepfake technologie.

Deepfakes ohrožují každý aspekt společnosti. Naše schopnost identifikovat falešný obsah je zásadní pro anulování dezinformací, ale jak se technologie umělé inteligence zdokonaluje, komu můžeme důvěřovat, že odhalí deepfakes: člověku nebo stroji?

Nebezpečí Deepfakes

Jak technologie AI postupuje, nebezpečí hlubokých padělků představuje pro nás všechny stále větší hrozbu. Zde je rychlý souhrn některých nejpalčivějších problémů, které deepfakes představují:

  • Dezinformace: Hluboce falešná videa a hlasové nahrávky mohou šířit dezinformace, jako jsou falešné zprávy.
  • Předstírání identity: Předstírání identity jednotlivců může deepfakes poškodit pověst lidí nebo podvést kohokoli, kdo je zná.
  • Národní bezpečnost: Zřejmý scénář soudného dne s deepfakes je vymyšlený záznam nebo zvuk globálního vůdce podněcujícího konflikt.
  • Občanské nepokoje: K podněcování hněvu a občanského nepokoje mezi konkrétními skupinami mohou strany také použít klamavé záběry a zvuk.
  • Kybernetická bezpečnost: Kyberzločinci již používají nástroje pro klonování hlasu pomocí umělé inteligence, aby se zaměřili na jednotlivce s přesvědčivými zprávami od lidí, které znají.
  • Soukromí a souhlas: Škodlivé použití deepfakes se podobá jednotlivcům bez jejich souhlasu.
  • Důvěra a důvěra: Pokud nedokážete rozlišit mezi pravdou a podvodem, přesné informace se stávají stejně nedůvěryhodné.

Deepfakes budou jen přesvědčivější, takže potřebujeme robustní nástroje a procesy pro jejich detekci. AI poskytuje jeden takový nástroj v podobě modelů detekce deepfake. Nicméně, stejně jako algoritmy určené k identifikaci psaní generovaného umělou inteligencí, nejsou nástroje pro detekci deepfake dokonalé.

Lidská diskrétnost je v této době jediným dalším nástrojem, na který se můžeme spolehnout. Jsme tedy v identifikaci deepfakes lepší než algoritmy?

Mohou algoritmy detekovat Deepfakes lépe než lidé?

Deepfakes jsou dostatečně vážnou hrozbou, že technologickí giganti a výzkumné skupiny věnují obrovské prostředky na výzkum a vývoj. V roce 2019 nabídly společnosti jako Meta, Microsoft a Amazon ceny 1 000 000 USD během Deepfake Detection Challenge pro co nejpřesnější detekční model.

Nejvýkonnější model byl 82,56% přesný ve srovnání s datovou sadou veřejně dostupných videí. Když však byly stejné modely testovány proti „datové sadě černé skříňky“ 10 000 neviděných videí, nejvýkonnější model byl pouze 65,18% přesný.

Máme také spoustu studií, které analyzují výkon nástrojů detekce AI deepfake proti lidským bytostem. Výsledky se samozřejmě liší od jedné studie k druhé, ale obecně se lidé úspěšnosti nástrojů pro detekci deepfake vyrovnají, nebo dokonce předčí.

Jedna studie z roku 2021 zveřejněná dne PNAS zjistili, že „obyčejní lidští pozorovatelé“ dosáhli mírně vyšší přesnosti než přední nástroje pro detekci deepfake. Studie však také zjistila, že lidští účastníci a modely AI byli náchylní k různým typům chyb.

Zajímavé je, že výzkum provedl Univerzita v Sydney zjistil, že lidský mozek je nevědomě efektivnější při odhalování deepfakes než naše vědomé úsilí.

Detekce vizuálních záchytných bodů v Deepfakes

Detekce deepfake je složitá a požadovaná analýza se liší v závislosti na povaze záznamu. Například nechvalně známé deepfake video severokorejského vůdce Kim Čong-una z roku 2020 je v podstatě videem mluvící hlavy. V tomto případě by nejúčinnější metodou detekce deepfake mohla být analýza visemů (pohyby úst) a fonémů (fonetické zvuky) na nekonzistence.

Lidští odborníci, příležitostní diváci a algoritmy mohou provádět tento druh analýzy, i když se výsledky liší. The MIT definuje osm otázek, které pomohou identifikovat hluboce falešná videa:

  • Věnujte pozornost obličeji. Špičkové manipulace DeepFake jsou téměř vždy transformace obličeje.
  • Dávejte pozor na tváře a čelo. Zdá se vám pokožka příliš hladká nebo příliš vrásčitá? Je stárnutí pleti podobné stárnutí vlasů a očí? DeepFakes mohou být v některých dimenzích nekongruentní.
  • Věnujte pozornost očím a obočí. Objevují se stíny na místech, která byste očekávali? DeepFakes nemusí plně reprezentovat přirozenou fyziku scény.
  • Pozor na brýle. Je tam nějaké oslnění? Je tam příliš mnoho odlesků? Mění se úhel oslnění, když se osoba pohybuje? Ještě jednou, DeepFakes nemusí plně reprezentovat přirozenou fyziku osvětlení.
  • Věnujte pozornost vousům nebo jejich nedostatku. Vypadají tyto vousy jako skutečné? DeepFakes může přidat nebo odstranit knír, kotlety nebo vousy. DeepFakes však nemusí udělat proměny chloupků na obličeji zcela přirozené.
  • Věnujte pozornost krtkům na obličeji. Vypadá krtek jako skutečný?
  • Dávejte pozor na blikání. Mrká dotyčný dostatečně nebo příliš?
  • Věnujte pozornost pohybům rtů. Některé deepfakes jsou založeny na synchronizaci rtů. Vypadají pohyby rtů přirozeně?

Nejnovější nástroje pro detekci hlubokých fake AI mohou analyzovat stejné faktory, opět s různým stupněm úspěchu. Datoví vědci také neustále vyvíjejí nové metody, jako je detekce přirozeného průtoku krve ve tvářích reproduktorů na obrazovce. Nové přístupy a vylepšení těch stávajících by mohly v budoucnu vést k tomu, že nástroje pro detekci hlubokého falešného obsahu AI budou trvale překonávat výkony lidí.

Detekce zvukových stop v Deepfakes

Detekce deepfake zvuku je úplně jiná výzva. Bez vizuálních vodítek videa a možnosti identifikovat audiovizuální nesrovnalosti se detekce deepfake do značné míry spoléhá na analýzu zvuku (v některých případech mohou pomoci i jiné metody, jako je ověření metadat).

Studie zveřejněná University College London v roce 2023 bylo zjištěno, že lidé dokážou detekovat hluboce falešnou řeč v 73 % případů (angličtina a mandarínština). Stejně jako u hluboce falešných videí lidští posluchači často intuitivně detekují nepřirozené řečové vzorce v řeči generované umělou inteligencí, i když nedokážou určit, co se zdá být nevhodné.

Mezi běžné znaky patří:

  • Slintání
  • Nedostatek výrazu
  • Pozadí nebo rušivý šum
  • Nekonzistence hlasu nebo řeči
  • Nedostatek „plnosti“ v hlasech
  • Příliš skriptované doručení
  • Nedostatek nedokonalostí (falešné starty, korekce, pročištění hrdla atd.)

Algoritmy mohou opět analyzovat řeč na stejné hluboké falešné signály, ale nové metody zefektivňují nástroje. Výzkum podle USENIX identifikované vzory v rekonstrukci hlasového traktu umělé inteligence, které nedokážou napodobit přirozenou řeč. Shrnuje, že hlasové generátory AI produkují zvuk odpovídající úzkým hlasovým traktům (zhruba velikosti brčka na pití) bez přirozených pohybů lidské řeči.

Dřívější výzkum z Institut Horsta Görtze analyzoval pravý a hluboce falešný zvuk v angličtině a japonštině a odhalil jemné rozdíly ve vyšších frekvencích pravé řeči a hluboce falešné.

Jak hlasový trakt, tak vysokofrekvenční nekonzistence jsou vnímatelné lidskými posluchači a modely detekce AI. V případě vysokofrekvenčních rozdílů by modely umělé inteligence mohly být teoreticky stále přesnější – i když totéž lze říci i o deepfakes AI.

Lidé i algoritmy jsou oklamáni Deepfakes, ale různými způsoby

Studie naznačují, že lidé a nejnovější detekční nástroje AI jsou podobně schopné identifikovat deepfakes. Úspěšnost se může pohybovat mezi 50 % a 90+ %, v závislosti na parametrech testu.

Lidé a stroje jsou navíc v podobné míře oklamáni deepfaky. Rozhodující však je, že jsme náchylní různými způsoby, a to by mohlo být naším největším přínosem při řešení nebezpečí deepfake technologie. Kombinace silných stránek lidí a nástrojů pro detekci deepfake zmírní jejich slabé stránky a zlepší úspěšnost.

Například, MIT výzkum zjistil, že lidé byli lepší v identifikaci deepfakes světových vůdců a slavných lidí než modely AI. Odhalila také, že modely umělé inteligence se potýkaly se záběry s více lidmi, i když to naznačovalo, že by to mohlo být důsledkem trénování algoritmů na záběrech s jednotlivými reproduktory.

Stejná studie naopak zjistila, že modely umělé inteligence předčí lidi s nekvalitními záběry (rozmazané, zrnité, tmavé atd.), které by mohly být záměrně použity k oklamání lidských diváků. Podobně nedávné metody detekce AI, jako je monitorování průtoku krve v určitých oblastech obličeje, zahrnují analýzu, kterou lidé nejsou schopni.

Jak se vyvíjí další metody, schopnost umělé inteligence detekovat známky, které nemůžeme, se bude jen zlepšovat, ale také se zlepší její schopnost klamat. Velkou otázkou je, zda technologie detekce deepfake bude i nadále překonávat samotné deepfake.

Vidět věci jinak ve věku Deepfakes

Nástroje AI pro detekci deepfake se budou nadále zlepšovat, stejně jako kvalita samotného deepfake obsahu. Pokud schopnost umělé inteligence klamat předčí její schopnost detekovat (jako je tomu u textu generovaného umělou inteligencí), lidská diskrétnost může být jediným nástrojem, který nám zbývá k boji s deepfakes.

Každý má zodpovědnost naučit se známky deepfakes a jak je rozpoznat. Kromě ochrany před podvody a bezpečnostními hrozbami je vše, o čem diskutujeme a sdílíme online, náchylné k dezinformacím, pokud ztratíme přehled o realitě.