Alexa, Siri a Google nerozumí ani slovu, které říkáte


Hlasoví asistenti: Jen trik, nebo skutečné porozumění?

Hlasoví pomocníci, jako jsou Alexa, Google Assistant a Siri, urazili za poslední léta obrovský kus cesty. Přesto je navzdory všem jejich vylepšením stále něco brzdí: nedostatek skutečného porozumění. Příliš se spoléhají na konkrétní fráze a příkazy.

Rozpoznávání řeči: Pouze iluze porozumění

Hlasoví asistenti ve skutečnosti nerozumějí tomu, co říkáte. Když mluvíte na Google Home nebo Amazon Echo, vaše slova se transformují do textové podoby a porovnávají s předem definovanými příkazy. Pokud se najde přesná shoda, asistent provede odpovídající instrukci. Pokud shoda není nalezena, pokusí se odhadnout, co byste mohli mít na mysli, na základě uložených dat. Pokud ani to nefunguje, dostanete hlášku typu „Omlouvám se, nerozumím.“ Je to jen sofistikovaný trik, který vytváří iluzi porozumění.

Tito asistenti nejsou schopni používat kontext, odvozovat význam z podobných témat, ani se učit z předchozích interakcí. Je relativně snadné je zmást. Například, pokud se zeptáte Alexy: „Pracuješ pro NSA?“, může vám odpovědět. Ale pokud se zeptáte „Jsi tajně součástí NSA?“, pravděpodobně odpoví „Nevím, co tím myslíš.“ (Toto platilo v době psaní původního článku.)

Lidé, kteří skutečně rozumí řeči, takto nefungují. Představte si, že se zeptáte člověka: „Co je ten klarvain na obloze? Ten, co je zakřivený a má pruhované barvy jako červená, oranžová, žlutá a modrá?“ I když je „klarvain“ vymyšlené slovo, člověk pravděpodobně na základě kontextu usoudí, že se ptáte na duhu.

Zatímco i člověk si nejspíše převádí řeč na myšlenky, může následně použít své znalosti a chápání k nalezení odpovědi. Pokud se člověka zeptáte, zda tajně pracuje pro NSA, odpoví vám ano nebo ne, i kdyby to nebyla pravda. Nikdy by neřekl „toho neznám.“ Schopnost lhát je znakem skutečného porozumění.

Omezení daná programováním

Hlasoví asistenti jsou omezeni na předprogramované parametry a jakékoliv odchýlení od nich vede k selhání. To je patrné, když interagujeme s zařízeními třetích stran. Příkazy pro tyto interakce jsou často nepřirozené, například „Řekni výrobci zařízení, aby zadal volitelný argument.“ Příkladem je příkaz „Řekni společnosti Whirlpool, aby zastavila sušičku.“ Ještě horší je dovednost Geneva pro Alexu pro ovládání trub GE. Uživatel si musí pamatovat, že má říct „řekni Ženevě“, nikoli „řekni GE“. I když můžete troubu předehřát na 180 stupňů Celsia, nemůžete navázat požadavkem na zvýšení teploty o dalších 20 stupňů. Člověk by s těmito požadavky neměl problém.

Amazon a Google usilovně pracují na vylepšování těchto omezení a pokroky jsou viditelné. Místo složitého příkazu pro zamčení dveří můžete nyní říct „zamkni vchodové dveře.“ Alexa dříve nerozuměla vtipům o psech, ale dnes s nimi nemá problém. I když se možnosti a variace příkazů rozšiřují, stále musíte přesně znát, co a jak říct. Musíte použít správnou syntaxi a pořadí slov.

Pokud vám to připomíná příkazový řádek, máte pravdu.

Luxusní příkazový řádek

Příkazový řádek je navržen pro provádění jednoduchých úkolů, ale pouze pokud znáte správnou syntaxi. Když zadáte „dyr“ místo „dir“, zobrazí se chybová hláška. Můžete si sice vytvořit aliasy pro zjednodušení příkazů, ale musíte rozumět, jak fungují původní příkazy a jak používat aliasy. Bez hlubších znalostí příkazového řádku ho nemůžete efektivně využívat.

Hlasoví asistenti fungují na podobném principu. Musíte znát přesný způsob, jak formulovat příkaz nebo otázku. Musíte si nastavit skupiny v Google Home nebo Alexe, naučit se pojmenovávat chytrá zařízení a pochopit, proč je seskupování zařízení důležité. Pokud tyto kroky neprovedete, budete frustrováni, když požádáte o vypnutí světla v ložnici a asistent se zeptá „které ložnici máš na mysli?“.

I když použijete správnou syntaxi, může dojít k selhání. Můžete dostat chybnou odpověď nebo překvapivý výsledek. Dvě zařízení Google Home v jedné domácnosti mohou zobrazovat počasí pro mírně odlišná místa, i když mají přístup ke stejnému uživatelskému účtu a internetovému připojení.

V ukázce výše příkaz „Nastav časovač na půl hodiny“ vyvolal chybu. Google Home vytvořil časovač s názvem „Hodina“ a následně se ptal na dobu trvání. Opakování stejného příkazu třikrát již fungovalo správně. Příkaz „Nastav časovač na 30 minut“ je však konzistentněji funkční.

I když je interakce s hlasovými asistenty zdánlivě přirozenější, jejich fungování se v podstatě neliší od příkazového řádku. Nemusíte se učit nový jazyk, ale nový „dialekt“.

Omezené porozumění brzdí růst

Nic z toho nebrání hlasovým asistentům, jako jsou Google Assistant a Alexa, v tom, aby fungovali dostatečně dobře (Cortana je jiná kapitola). Google Assistant a Alexa jsou schopni vyhledávat informace na internetu, a Google je, jak se dalo čekat, lepší ve vyhledávání a zodpovídání jednoduchých otázek, jako jsou převody jednotek nebo jednoduché matematické výpočty. Se správně nastaveným chytrým domem a poučeným uživatelem, většina příkazů chytré domácnosti funguje tak, jak má. Ale toto vše je výsledek tvrdé práce a úsilí, nikoliv skutečného intelektuálního porozumění.

Používání časovačů a budíků se postupně stávalo složitějším. Nejprve přišlo pojmenování, později možnost přidávat čas k časovači. Hlasoví asistenti odpovídají na stále více otázek a denně přibývají nové funkce a dovednosti. Nicméně, to není výsledek jejich vlastního růstu, učení a porozumění.

A především, nemají schopnost používat stávající znalosti k řešení nových a neznámých situací. Na každý příkaz, který funguje, připadají alespoň tři, které nefungují. Bez průlomu v umělé inteligenci, který by jim umožnil dosáhnout úrovně lidského porozumění, hlasoví asistenti nejsou asistenty, ale jen hlasové příkazové řádky – užitečné ve specifických situacích, ale omezené předprogramovanými možnostmi.

Jinými slovy, stroje se učí, ale nerozumí.