Audio Deepfakes: Může někdo říct, jestli jsou falešné?

Video deepfakes znamená, že nemůžete věřit všemu, co vidíte. Nyní mohou hluboké falšování zvuku znamenat, že už nemůžete věřit svým uším. Opravdu to byl prezident, který vyhlásil válku Kanadě? Opravdu vás táta po telefonu žádá o heslo k e-mailu?

Přidejte další existenční obavy na seznam toho, jak by nás naše vlastní arogance mohla nevyhnutelně zničit. Během Reaganovy éry byla jediným skutečným technologickým rizikem hrozba jaderné, chemické a biologické války.

V následujících letech jsme měli příležitost být posedlí šedivou špatností nanotechnologií a globálními pandemiemi. Nyní máme deepfakes – lidi, kteří ztrácejí kontrolu nad svou podobou nebo hlasem.

Co je zvuk Deepfake?

Většina z nás viděla video deepfake, ve kterém jsou algoritmy hlubokého učení použity k nahrazení jedné osoby podobou někoho jiného. Nejlepší jsou znepokojivě realistické a nyní je řada na zvuku. Hluboký zvuk je, když se k produkci syntetického zvuku použije „klonovaný“ hlas, který je potenciálně nerozeznatelný od hlasu skutečné osoby.

„Je to jako Photoshop pro hlas,“ řekl Zohaib Ahmed, generální ředitel společnosti Připomínat AIo technologii klonování hlasu jeho společnosti.

Špatné úlohy Photoshopu však lze snadno odhalit. Bezpečnostní firma, se kterou jsme mluvili, uvedla, že lidé obvykle pouze hádají, zda je zvukový deepfake skutečný nebo falešný, s přesností asi 57 procent – ​​není to lepší než hod mincí.

Navíc, protože tolik hlasových nahrávek pokrývá nekvalitní telefonní hovory (nebo jsou nahrány na hlučných místech), mohou být zvukové deepfakes ještě více nerozeznatelné. Čím horší je kvalita zvuku, tím těžší je zachytit ty výmluvné známky toho, že hlas není skutečný.

Ale proč by vůbec někdo potřeboval Photoshop pro hlasy?

Přesvědčivé pouzdro pro syntetický zvuk

Po syntetickém zvuku je skutečně enormní poptávka. Podle Ahmeda je návratnost investic velmi okamžitá.

To platí zejména, pokud jde o hraní her. V minulosti byla řeč jedinou složkou hry, kterou nebylo možné vytvořit na vyžádání. Dokonce i v interaktivních titulech se scénami v kvalitě kina vykreslenými v reálném čase jsou verbální interakce s nehrajícími postavami vždy v podstatě statické.

Nyní je však technologie dohnala. Studia mají potenciál klonovat hlas herce a používat nástroje pro převod textu na řeč, takže postavy mohou říkat cokoli v reálném čase.

Existují také tradičnější použití v reklamě a technické a zákaznické podpoře. Zde je důležitý hlas, který zní autenticky lidsky a reaguje osobně a kontextově bez lidského zásahu.

Společnosti zabývající se hlasovým klonováním jsou také nadšeny z lékařských aplikací. Nahrazení hlasu samozřejmě není v medicíně nic nového – Stephen Hawking skvěle použil robotický syntetizovaný hlas poté, co v roce 1985 ztratil svůj vlastní. Moderní klonování hlasu však slibuje ještě něco lepšího.

V roce 2008 společnost syntetického hlasu, CereProc, vrátil zesnulému filmovému kritikovi Rogeru Ebertovi svůj hlas poté, co ho vzala rakovina. CereProc zveřejnil webovou stránku, která lidem umožňovala psát zprávy, které by pak byly vysloveny hlasem bývalého prezidenta George Bushe.

„Ebert to viděl a pomyslel si: ‚No, když dokázali zkopírovat Bushův hlas, měli by být schopni zkopírovat můj‘,“ řekl Matthew Aylett, hlavní vědecký pracovník CereProc. Ebert poté požádal společnost, aby vytvořila náhradní hlas, což udělali zpracováním velké knihovny hlasových nahrávek.

„Bylo to jedno z prvních, kdy to někdo udělal, a byl to skutečný úspěch,“ řekla Aylett.

V posledních letech řada společností (včetně CereProc) spolupracovala s Asociace ALS na Project Revoice poskytovat syntetické hlasy těm, kteří trpí ALS.

Jak funguje syntetický zvuk

Hlasové klonování má právě teď chvilku a spousta společností vyvíjí nástroje. Připomínat AI a Popis mít online ukázky, které si může kdokoli vyzkoušet zdarma. Stačí nahrát fráze, které se objeví na obrazovce, a během několika minut je vytvořen model vašeho hlasu.

Můžete poděkovat AI – konkrétně algoritmům pro hluboké učení – za to, že dokážete přiřadit nahranou řeč k textu, abyste porozuměli složkovým fonémům, které tvoří váš hlas. Výsledné lingvistické stavební bloky pak použije k aproximaci slov, která vás neslyšel mluvit.

Základní technologie už nějakou dobu existuje, ale jak zdůraznila Aylett, vyžadovala nějakou pomoc.

„Kopírování hlasu bylo trochu jako pečení pečiva,“ řekl. „Bylo to trochu těžké a existovaly různé způsoby, jak to ručně vyladit, aby to fungovalo.“

Vývojáři potřebovali obrovské množství nahraných hlasových dat, aby získali přijatelné výsledky. Pak se před pár lety otevřela stavidla. Výzkum v oblasti počítačového vidění se ukázal jako kritický. Vědci vyvinuli generativní adversariální sítě (GAN), které mohly poprvé extrapolovat a předpovídat na základě existujících dat.

„Místo toho, aby počítač viděl obrázek koně a řekl ‚toto je kůň‘, mohl nyní můj model z koně udělat zebru,“ řekla Aylett. „Takže exploze syntézy řeči je nyní díky akademické práci z počítačového vidění.“

Jednou z největších inovací v klonování hlasu bylo celkové snížení množství nezpracovaných dat, které je potřeba k vytvoření hlasu. V minulosti systémy potřebovaly desítky nebo dokonce stovky hodin zvuku. Nyní však lze kompetentní hlasy generovat z pouhých minut obsahu.

Existenciální strach z ničeho nevěřit

Tato technologie spolu s jadernou energií, nanotechnologií, 3D tiskem a CRISPR je zároveň vzrušující a děsivá. Koneckonců, ve zprávách se již objevily případy, kdy lidé byli podvedeni hlasovými klony. V roce 2019 jedna společnost ve Spojeném království tvrdila, že ano podvedeno zvukovým deepfakeem telefonát o převodu peněz zločincům.

Nemusíte chodit daleko, abyste našli překvapivě přesvědčivé zvukové padělky. kanál YouTube Vokální syntéza představuje známé lidi, kteří říkají věci, které nikdy neřekli, např George W. Bush čte knihu „In Da Club“ od 50 Centa. Je to na místě.

Jinde na YouTube můžete slyšet hejno bývalých prezidentů, včetně Obama, Clintonová a Reagan, rapující NWA. Hudba a zvuky na pozadí pomáhají zamaskovat některé zjevné robotické závady, ale i v tomto nedokonalém stavu je potenciál zřejmý.

Experimentovali jsme s nástroji Připomínat AI a Popis a vytvořil hlasový klon. Descript používá engine pro klonování hlasu, který se původně jmenoval Lyrebird a byl obzvláště působivý. Byli jsme šokováni kvalitou. Slyšet svůj vlastní hlas říkat věci, o kterých víte, že jste to nikdy neřekli, je znervózňující.

Řeč má rozhodně robotickou kvalitu, ale při běžném poslechu by většina lidí neměla důvod si myslet, že jde o padělek.

Ještě větší naděje jsme vkládali do Resemble AI. Poskytuje vám nástroje pro vytvoření konverzace s více hlasy a změnu expresivity, emocí a tempa dialogu. Nemysleli jsme si však, že hlasový model zachycuje základní kvality hlasu, který jsme použili. Ve skutečnosti bylo nepravděpodobné, že by někoho oklamal.

Zástupce Resemble AI nám řekl, že „většina lidí je ohromena výsledky, pokud to dělají správně.“ Vytvořili jsme hlasový model dvakrát s podobnými výsledky. Je tedy zřejmé, že není vždy snadné vytvořit hlasový klon, který můžete použít k provedení digitální loupeže.

I tak se zakladatel Lyrebirdu (který je nyní součástí Descriptu), Kundan Kumar, domnívá, že jsme tuto hranici již překročili.

„U malého procenta případů už tam je,“ řekl Kumar. „Pokud používám syntetický zvuk ke změně několika slov v řeči, je to už tak dobré, že budete mít problém zjistit, co se změnilo.“

Můžeme také předpokládat, že tato technologie se bude časem zlepšovat. Systémy budou k vytvoření modelu potřebovat méně zvuku a rychlejší procesory budou schopny model sestavit v reálném čase. Chytřejší umělá inteligence se naučí, jak přidat přesvědčivější lidskou kadenci a důraz na řeč, aniž by měl příklad.

Což znamená, že se možná přibližujeme široké dostupnosti snadného klonování hlasu.

Etika Pandořiny skříňky

Zdá se, že většina společností pracujících v tomto prostoru je připravena zacházet s technologií bezpečným a odpovědným způsobem. Resemble AI má například celou sekci „Etika“ na svých webových stránkácha následující úryvek je povzbudivý:

„Spolupracujeme se společnostmi prostřednictvím přísného procesu, abychom se ujistili, že hlas, který klonují, je pro ně použitelný a že máme patřičné souhlasy s hlasovými herci.“

The

Stejně tak Kumar řekl, že Lyrebird měl od začátku obavy ze zneužití. To je důvod, proč nyní, jako součást Descriptu, umožňuje lidem pouze klonovat svůj vlastní hlas. Ve skutečnosti Resemble i Descript vyžadují, aby lidé nahrávali své vzorky živě, aby se zabránilo nekonsensuálnímu klonování hlasu.

Je povzbudivé, že hlavní komerční hráči zavedli některé etické zásady. Je však důležité si uvědomit, že tyto společnosti nejsou strážci této technologie. Již ve volné přírodě existuje řada open-source nástrojů, pro které neexistují žádná pravidla. Podle Henryho Ajdera, šéfa zpravodajství o hrozbách v Deeptrace, k jeho zneužití také nepotřebujete pokročilé znalosti kódování.

„Velký pokrok v tomto prostoru přišel díky spolupráci na místech, jako je GitHub, s využitím open source implementací dříve publikovaných akademických prací,“ řekl Ajder. „Může ho používat každý, kdo má střední znalosti kódování.“

To všechno už bezpečnostní profesionálové viděli

Zločinci se pokoušeli ukrást peníze po telefonu dávno předtím, než bylo možné hlasové klonování, a bezpečnostní experti byli vždy v pohotovosti, aby to odhalili a zabránili. Bezpečnostní společnost Pindrop se snaží zastavit bankovní podvody ověřením, zda je volající tím, za koho se vydává ze zvuku. Jen v roce 2019 Pindrop tvrdí, že analyzoval 1,2 miliardy hlasových interakcí a zabránil pokusům o podvod ve výši 470 milionů dolarů.

Před klonováním hlasu zkoušeli podvodníci řadu dalších technik. Nejjednodušší bylo zavolat odjinud s osobními údaji o značce.

„Náš akustický podpis nám umožňuje určit, že hovor skutečně přichází z telefonu Skype v Nigérii kvůli zvukovým charakteristikám,“ řekl generální ředitel Pindrop, Vijay Balasubramaniyan. „Pak můžeme porovnat, že když víme, že zákazník používá telefon AT&T v Atlantě.“

Někteří zločinci si také udělali kariéru z používání zvuků na pozadí, aby shodili bankovní zástupce.

„Je tu podvodník, kterému jsme říkali Chicken Man, který měl vždy v pozadí kohouty,“ řekl Balasubramaniyan. „A je tu jedna dáma, která použila dětský pláč v pozadí, aby v podstatě přesvědčila agenty call centra, že „hele, procházím těžkým obdobím“, aby získala sympatie.“

A pak jsou tu mužští zločinci, kteří jdou po ženských bankovních účtech.

„Používají technologii ke zvýšení frekvence svého hlasu, aby zněly více žensky,“ vysvětlil Balasubramaniyan. Ty mohou být úspěšné, ale „občas se software pokazí a zní jako Alvin a Chipmunkové“.

Hlasové klonování je samozřejmě jen nejnovějším vývojem v této neustále eskalující válce. Bezpečnostní firmy již při nejméně jednom spearfishingovém útoku přistihly podvodníky používající syntetický zvuk.

„Se správným cílem může být výplata masivní,“ řekl Balasubramaniyan. „Takže má smysl věnovat čas vytvoření syntetizovaného hlasu toho správného jedince.“

Může někdo říct, jestli je hlas falešný?

Pokud jde o rozpoznání, zda byl hlas falešný, existují dobré i špatné zprávy. Špatné je, že hlasové klony se každým dnem zlepšují. Systémy hlubokého učení jsou stále chytřejší a vytvářejí autentičtější hlasy, které vyžadují méně zvuku.

Jak můžete vidět z tohoto klipu Prezident Obama řekl MC Renovi, aby se postavil, také jsme se již dostali do bodu, kdy vysoce věrný, pečlivě zkonstruovaný hlasový model může znít lidskému uchu docela přesvědčivě.

Čím delší je zvukový klip, tím je pravděpodobnější, že si všimnete, že je něco v nepořádku. U kratších klipů si však nemusíte všimnout, že je syntetický – zvláště pokud nemáte důvod zpochybňovat jeho legitimitu.

Čím jasnější je kvalita zvuku, tím snazší je zaznamenat známky hlubokého falešného zvuku. Pokud někdo mluví přímo do mikrofonu studiové kvality, budete moci poslouchat zblízka. Nekvalitní záznam telefonátu nebo konverzace zachycené na ručním zařízení v hlučné garáži se ale bude hodnotit mnohem hůř.

Dobrou zprávou je, že i když mají lidé problém oddělit skutečné od falešného, ​​počítače nemají stejná omezení. Naštěstí nástroje pro ověřování hlasem již existují. Pindrop má jeden, který proti sobě staví systémy hlubokého učení. Používá obojí, aby zjistil, zda je zvukový vzorek tou osobou, kterou má být. Zkoumá však také, zda člověk vůbec dokáže všechny zvuky v ukázce vydávat.

V závislosti na kvalitě zvuku obsahuje každá sekunda řeči 8 000 až 50 000 vzorků dat, které lze analyzovat.

„Věci, které obvykle hledáme, jsou omezení řeči způsobená lidskou evolucí,“ vysvětlil Balasubramaniyan.

Například dva vokální zvuky mají minimální možné vzájemné oddělení. Je to proto, že je fyzicky není možné vyslovit rychleji kvůli rychlosti, s jakou se svaly v ústech a hlasivky dokážou samy překonfigurovat.

„Když se podíváme na syntetizovaný zvuk,“ řekl Balasubramaniyan, „někdy vidíme věci a říkáme: „Tohle by nikdy nemohl vytvořit člověk, protože jediný člověk, který to mohl vytvořit, potřebuje mít sedm stop dlouhý krk.“ “

Existuje také třída zvuků zvaná „frikativy“. Vznikají, když vzduch prochází úzkým zúžením v krku, když vyslovujete písmena jako f, s, v a z. Fricatives je obzvláště těžké zvládnout pro systémy s hlubokým učením, protože software má problém je odlišit od hluku.

Software pro klonování hlasu tedy alespoň prozatím naráží na skutečnost, že lidé jsou pytle masa, které proudí vzduch otvory v jejich