Jak Alexa poslouchá slova probuzení

Photo of author

By etechblogcz

Alexa neustále naslouchá, avšak nenahrává vše, co se v její blízkosti děje. Žádná data neodesílá na cloudové servery, dokud nezaznamená aktivační slovo, jako je „Alexa“, „Echo“ nebo „Počítač“. Rozpoznávání těchto aktivačních slov je však složitější, než by se na první pohled mohlo zdát.

Samotný hardware zařízení Echo není natolik inteligentní, aby fungoval bez internetového připojení. Pokud položíte otázku nebo zadáte příkaz, který vyžaduje interpretaci, bez připojení k síti se to nepodaří. Veškeré vaše požadavky jsou totiž odesílány do cloudu, kde dochází k jejich zpracování. Amazon se snaží chránit vaše soukromí, proto nechce nahrávat veškeré konverzace, ale pouze ty úseky, které následují po vyslovení aktivačního slova. Z tohoto důvodu využívá kombinaci vyladěných mikrofonů, krátkodobé paměti a neuronové sítě.

Vyladěné mikrofony lokalizují zdroj hlasu

Díky LED světlu budete vždy informováni o směru, odkud přichází váš hlas.

Chytré reproduktory, jako je Echo a Echo Dot, jsou vybaveny několika zabudovanými mikrofony. Například Echo Dot jich má sedm. Toto rozmístění mikrofonů umožňuje zařízení lépe snímat hlasové povely i z větší vzdálenosti a zároveň oddělovat hluk od vašeho hlasu.

Tato funkce je obzvláště užitečná při rozpoznávání aktivačního slova. Díky několika mikrofonům dokáže Echo určit vaši polohu v prostoru a zaměřit se na váš hlas, zatímco hluk v pozadí ignoruje.

Tuto schopnost můžete sami otestovat. Postavte se vedle zařízení Echo nebo Echo Dot a vyslovte aktivační slovo. Všimněte si, že světelný kruh se rozsvítí tmavě modře a následně světleji modře, přičemž se otáčí a „ukazuje“ na vás. Pokud se posunete do jiné pozice a opakujete aktivační slovo, světla vás budou následovat.

Schopnost určit vaši polohu pomáhá zařízení lépe filtrovat zvuky přicházející z jiných směrů, což zlepšuje rozpoznávání hlasu.

Krátkodobá paměť chrání vaše soukromí

Zařízení Echo sice disponují určitým úložným prostorem, avšak využívají ho jen minimálně. Podle Rohita Prasada, viceprezidenta a hlavního vědeckého pracovníka Amazon Alexa Artificial Intelligence, může Echo fyzicky uložit pouze několik sekund zvuku.

Omezení doby ukládání zvuku slouží nejen k ochraně vašeho soukromí, ale také zabraňuje Echu v ukládání celých konverzací. Zaměřuje se pouze na identifikaci aktivačního slova.

Představte si magnetofon s třísekundovou kazetou, která se po dosažení konce automaticky přetočí zpět na začátek. Pokud začnete nahrávat konverzaci, vše, co jste řekli před více než třemi sekundami, se vymaže a nahradí aktuálním záznamem. Přesně takto funguje Amazon Echo.

Zařízení neustále nahrává zvuk, avšak zároveň ho okamžitě vymazává. Díky této krátkodobé paměti je jediným zaznamenaným prvkem aktivační slovo. Tři sekundy jsou však dostatečně dlouhá doba na to, aby bylo slovo analyzováno a zpracováno.

Neuronová síť rozpoznává vzory

Schéma vrstev používaných algoritmy Amazonu.

Amazon využívá neuronovou síť pro rozpoznávání vzorů. Stejně jako u jiných forem strojového učení, Amazon trénuje své algoritmy pomocí velkého množství instancí aktivačních slov (Alexa, Počítač nebo Echo).

Cílem je pokrýt veškeré možné skloňování a přízvuky, stejně jako kontext. Amazon chce, aby vaše Echo dokázalo rozlišit, kdy na něj mluvíte, kdy o něm mluvíte nebo když mluvíte s osobou jménem Alexa. K tomuto účelu slouží i směrové mikrofony.

Každé slovo, které Echo zachytí, prochází několika vrstvami algoritmů. Každá vrstva je navržena tak, aby eliminovala falešné poplachy, hledala podobné zvuky nebo kontextové vodítka. Pokud slovo projde jednou vrstvou, je posunuto k další. V okamžiku, kdy zařízení vyhodnotí, že zaznamenalo aktivační slovo, začne nahrávat a odesílat data na cloudové servery Amazonu. Amazon používá čtyři algoritmy: jeden pro každé aktivační slovo (Alexa, Computer, Echo) a jeden pro funkci Alexa Guard, která zpracovává specifické zvuky, jako je rozbití skla, jako aktivační slovo.

Avšak i v případě shody Amazon provádí další kontroly. Jistě jste si všimli, že vyslovení slova „Alexa“ v televizní show nebo reklamě obvykle nespustí reakci vašeho Echa. Důvodem je další kontrola prováděná v cloudu.

Cloudové kontroly eliminují falešné poplachy

Tato zábavná reklama na Alexu neaktivuje vaše zařízení Echo.

Společnosti, které ve svých reklamách používají slovo „Alexa“, mohou zaslat záznam zvuku společnosti Amazon. Společnost analyzuje tento zvuk pomocí podobných algoritmů, které se používají k rozpoznávání aktivačního slova. Jakmile je instance zvuku katalogizována, je přidána do databáze.

V rámci procesu odesílání dat do cloudu vaše Echo zahrnuje informace o zaznamenaném aktivačním slovu a kontroluje ho s touto databází. Jakmile Amazon najde shodu, dá vašemu Echo pokyn, aby ignorovalo aktivaci, vypnulo se a odstranilo veškerý nahraný zvuk.

Kromě toho Amazon také sleduje případy současného vyslovení aktivačního slova. Ne všechny společnosti zasílají zvuk Amazonu, proto společnost přišla s dalším řešením. Po kontrole shody s databází, společnost porovnává otisk zaznamenaného aktivačního slova s jinými instancemi přicházejícími ve stejném čase. Je nepravděpodobné, aby dva lidé, kteří současně řeknou „Alexa“, zněli úplně stejně. Pokud dojde k takové shodě, Amazon ví, že se jedná pravděpodobně o reklamu nebo televizní pořad a požadavek ignoruje.

I přes veškeré kontroly se stále mohou vyskytnout falešné poplachy. Můžete si poslechnout, co vaše Echo nahrálo, v Centru ochrany osobních údajů Amazonu. Pravděpodobně zde najdete alespoň jeden falešný poplach. Nicméně technologie se neustále vyvíjí a Amazon se v budoucnu snaží dosáhnout toho, aby fungovala bez nutnosti aktivačního slova.