Jak Alexa poslouchá slova probuzení

Alexa vždy poslouchá, ale nenahrává. Neposílá nic na cloudové servery, dokud neuslyší, že říkáte probuzení (Alexa, Echo nebo Počítač). Ale poslouchat slova probuzení je těžší, než si možná myslíte.

Hardware Echo není tak inteligentní. Bez internetu jakýkoli požadavek nebo otázka, kterou položíte, selže. Je to proto, že vaše příkazy jsou odesílány do cloudu k interpretaci a rozhodování. Amazon nechce, aby byla nahrána každá konverzace, kterou vedete před chytrým reproduktorem, ale spíše jen příkazy, které chytrému reproduktoru zadáte. Z tohoto důvodu společnost používá probuzení, aby upoutala pozornost chytrého mluvčího. K dosažení tohoto cíle používá Amazon kombinaci vyladěných mikrofonů, krátké vyrovnávací paměti a tréninku neuronové sítě.

Vyladěné mikrofony přesně určí váš hlas

Světle modrá LED bude vždy směřovat ke směru vašeho hlasu.

Reproduktory hlasového asistenta, jako jsou Echo a Echo Dot, mají obvykle několik vestavěných mikrofonů. Například Echo Dot jich má sedm. Toto pole poskytuje zařízením několik schopností, od naslouchání příkazů vyslovených na dálku až po oddělení hluku na pozadí od hlasů.

Poslední jmenovaný je zvláště užitečný pro detekci slova probuzení. Pomocí několika mikrofonů dokáže Echo určit vaši polohu vzhledem k místu, kde sedí, a poslouchat v tomto směru, přičemž ignoruje zbytek místnosti.

Vidíte to v akci, kdykoli použijete slovo probuzení. Postavte se ke straně Echo nebo Echo Dot a řekněte slovo probuzení. Všimněte si, že prsten se rozsvítí tmavě modře a poté světleji modře, když krouží a „ukazuje“ směrem k vám. Nyní udělejte několik kroků stranou a znovu řekněte probuzení. Všimněte si, že vás následují světle modrá světla.

Vědět, kde se nacházíte, pomáhá zařízení lépe se na vás zaměřit vyladit zvuky přicházející odjinud.

Krátká paměť zabraňuje tomu, aby reproduktor příliš držel

Zařízení Echo mají dostatek úložného prostoru, ale moc ho nevyužívají. Podle Rohita Prasada, viceprezidenta společnosti Amazon a hlavního vědeckého pracovníka Alexa Artificial Intelligence, an Echo může fyzicky uložit pouze několik sekund zvuku.

Snížením své schopnosti vám Amazon nejen poskytuje více soukromí (je to o jedno místo, kde je uložen váš hlas), ale také zabraňuje Echo v naslouchání celých konverzací, čímž se omezuje na nalezení slova probuzení.

Představte si, že máte třísekundovou kazetu a magnetofon. Předpokládejme, že poté, co se páska dostala na konec, se znovu a znovu točila zpět na začátek. Pokud začnete nahrávat konverzaci, vše, co jste řekli před čtyřmi sekundami, bude vymazáno a okamžitě zaznamenáno. To je to, co Amazon Echo dělá.

Nahrává nepřetržitě, ale zároveň smaže vše, co právě zaznamenal. Tato krátká doba pozornosti znamená, že jediné, co slyší, je slovo „Alexa“ a nic víc. Tři sekundy jsou však dostatečně dlouhá doba na to, aby bylo slovo zaznamenáno, prozkoumáno a náležitě se s ním zacházelo.

Trénink neuronové sítě pomáhá s porovnáváním vzorů

Reprezentace vrstev používaných algoritmy Amazon.

Konečně, Amazon závisí na trénink neuronové sítě naučit Echo, jak spárovat vzor. Stejně jako jiné formy strojového učení, Amazon trénuje své algoritmy tím, že do nich dodává instanci slova Alexa (nebo Počítač nebo Echo, v závislosti na tom, které budicí slovo společnost trénuje).

Cílem je pokrýt každé skloňování a přízvuk, ale také kontext. Amazon chce, aby vaše Echo poznalo rozdíl, když s ním mluvíte, když o tom mluvíte, nebo možná, když mluvíte s osobou jménem Alexa. K tomuto cíli pomáhají také směrové mikrofony.

S každým slovem, které Echo slyší, spustí zvuk přes vrstvy algoritmů. Každá vrstva je navržena tak, aby vyloučila falešné poplachy, hledala zvukové obdoby nebo kontextová vodítka. Pokud kontrola jedné vrstvy projde, slovo přejde na další. Nakonec, když se místní zařízení rozhodne, že slyšelo slovo probuzení, začne nahrávat a předávat zvuk cloudovým serverům Amazonu. Amazon využívá čtyři algoritmy: jeden pro každé probuzené slovo (Alexa, Computer, Echo) a jeden pro Alexa Guard, který zachází se specifickými zvuky, jako je rozbití skla, jako s probuzeným slovem.

Ale i když dojde ke shodě, Amazon stále provádí složitější kontroly. Všimli jste si, že když někdo vysloví slovo Alexa v televizní show nebo reklamě, obvykle to nevyvolá odezvu vaší Echo? Je to proto, že Amazon také provádí kontrolu cloudu.

Cloudové kontroly vylučují některá falešná pozitiva

Tento veselá reklama na Alexa neprobudí vaši Echo.

Když společnosti dělají reklamy, které obsahují Alexu, mohou odeslat zvuk na Amazon. Společnost provozuje zvuk pomocí podobných algoritmů pro porovnávání vzorů, které se používají k identifikaci budícího slova. Jakmile je přesně tato instance plně katalogizována, je přidána do databáze.

V rámci procesu, kdy se dostanete do cloudu, vaše Echo zahrnuje informace o probuzeném slově, které slyšelo, a kontroluje tuto databázi. Kdykoli Amazon najde shodu, dá Amazon pokyn vašemu Echo, aby ignorovalo probuzení, vypnulo se a zahodilo veškerý nahraný zvuk.

Amazon navíc kontroluje výskyty současně vysloveného slova probuzení. Ne každá společnost předává zvuk Amazonu, takže společnost přišla s novým řešením zálohování. Po kontrole shody databáze společnost porovná otisk slova probuzení s jinými instancemi přicházejícími ve stejnou dobu. Je nepravděpodobné, že by dva lidé, kteří současně říkají Alexa, zněli úplně stejně, takže pokud dojde ke shodě, Amazon ví, že se pravděpodobně jedná o reklamu nebo televizní pořad, a ignoruje požadavek.

Navzdory všem kontrolám se stále vyskytují falešně pozitivní výsledky. Můžete poslouchat, co vaše Echo nahrálo Centrum ochrany osobních údajů Amazonua pravděpodobně ve skupině najdete alespoň jeden falešně pozitivní výsledek. Technologie se však neustále zdokonaluje a Amazon by nakonec chtěl, aby fungovala bez jakéhokoli probuzení.