Je Turingův test zastaralý? 5 alternativ Turingova testu

Před více než sedmdesáti lety, v době kdy se rodila myšlenka umělé inteligence, publikoval Alan Turing zásadní studii popisující, jak ji vlastně identifikovat. Tento koncept, později známý jako Turingův test, sloužil po celá desetiletí jako měřítko pro odlišení člověka od umělé inteligence.

Avšak s příchodem pokročilých chatbotů s umělou inteligencí, jako jsou ChatGPT a Google Bard, se stále více stává obtížné rozeznat, zda komunikujete s umělou inteligencí, či nikoli. Tato skutečnost vede k otázce: Je Turingův test stále relevantní? A pokud ne, jaké existují alternativy?

Je Turingův test překonaný?

Abychom posoudili, zda je Turingův test zastaralý, je nutné nejprve pochopit jeho principy. V Turingově testu je umělá inteligence hodnocena na základě toho, zda dokáže přesvědčit lidského hodnotitele, že je člověkem. Klíčovým prvkem je, že umělá inteligence soutěží s člověkem a komunikuje pouze prostřednictvím textu.

Představme si to takto: pokud jste v roli hodnotitele a kladete otázky dvěma subjektům online, přičemž jeden z nich je model umělé inteligence, dokázali byste je odlišit po pěti minutách? Je důležité si uvědomit, že cílem Turingova testu není identifikovat umělou inteligenci na základě správnosti odpovědí, ale spíše posoudit, zda je schopna myslet a jednat jako člověk.

Problémem Turingova testu, který se zaměřuje pouze na identifikaci lidských reakcí, je, že nebere v potaz další faktory. Mezi ně patří například inteligence daného modelu umělé inteligence nebo znalosti samotného hodnotitele. Navíc je Turingův test omezen na textovou komunikaci, což ztěžuje identifikaci pokročilých AI, které dokážou generovat lidský hlas nebo vytvářet realistická videa napodobující lidské chování.

Současné modely umělé inteligence, jako jsou ChatGPT-4 a Google Bard, však ještě nedosáhly takové úrovně, aby byly schopny trvale obstát v Turingově testu. Ve skutečnosti, pokud jste s umělou inteligencí obeznámeni, můžete text generovaný umělou inteligencí poměrně snadno rozpoznat.

5 nejlepších alternativ Turingova testu

Je možné, že budoucí modely AI, jako například ChatGPT-5, by mohly Turingovým testem projít. Pokud k tomu dojde, budeme potřebovat další testy, které v kombinaci s Turingovým testem pomohou určit, zda komunikujeme s AI nebo člověkem. Zde je několik z nejlepších alternativ k Turingovu testu:

1. Marcusův test

Gary Marcus, uznávaný kognitivní vědec a výzkumník v oblasti umělé inteligence, navrhl alternativní test, který byl publikován v magazínu The New Yorker. Tento test slouží k posouzení kognitivních schopností umělé inteligence. Je založen na jednoduchém principu: model umělé inteligence je hodnocen na základě své schopnosti sledovat a chápat videa a televizní pořady na YouTube bez jakýchkoli titulků nebo textového doprovodu. Aby umělá inteligence prošla Marcusovým testem, měla by být schopna rozumět sarkasmu, humoru, ironii a příběhu obsaženému ve videu a vyjádřit jej podobně jako člověk.

V současné době je sice GPT-4 schopna popisovat obrázky, ale žádný model umělé inteligence zatím nedokáže plně chápat videa stejně jako člověk. Samojízdná vozidla se tomuto cíli sice přibližují, ale stále nejsou zcela autonomní a vyžadují senzory, protože nejsou schopna plně porozumět všemu v okolním prostředí.

2. Vizuální Turingův test

Výzkumná studie publikovaná v PNAS uvádí, že Vizuální Turingův test je možné použít k identifikaci, zda komunikujete s člověkem nebo umělou inteligencí pomocí obrázkových dotazníků. Funguje na podobném principu jako Turingův test, ale namísto odpovídání na textové otázky jsou účastníkům prezentovány obrázky a očekává se, že budou odpovídat na jednoduché otázky, přičemž budou přemýšlet jako člověk. Vizuální Turingův test se však liší od CAPTCHA, protože všechny odpovědi jsou správné – ale pro úspěšné absolvování testu musí umělá inteligence zpracovávat obrázky podobně jako člověk.

Navíc, pokud jsou umělé inteligenci a člověku ukázány vedle sebe různé obrázky a jsou požádáni, aby identifikovali ty, které vypadají realisticky, člověk by měl být schopen s pomocí svých kognitivních schopností v testu obstát. Je to proto, že pro modely umělé inteligence je obtížné rozeznat snímky, které nepůsobí jako pořízené ve skutečném světě. Proto je možné odhalit obrázky generované umělou inteligencí na základě anomálií, které nedávají smysl.

3. Test Lovelace 2.0

Teorie, že počítač není schopen vytvářet originální myšlenky nad rámec toho, pro co byl naprogramován, byla poprvé zformulována Adou Lovelace před vznikem Turingova testu. Alan Turing se však proti této teorii ohradil a tvrdil, že umělá inteligence může člověka stále překvapovat. Až v roce 2001 byly vytvořeny pokyny pro Test Lovelace, aby se rozlišila AI od člověka. Pravidla byla později revidována v roce 2014, jak uvádí thekurzweillibrary.

Aby umělá inteligence prošla Testem Lovelace, musí prokázat schopnost generovat originální myšlenky, které přesahují rámec jejího výcviku. Současné modely umělé inteligence, jako je GPT-4, zatím nemají schopnost přicházet s novými vynálezy, které by překračovaly naše stávající znalosti. Nicméně, všeobecná umělá inteligence by takové schopnosti mohla dosáhnout a testem Lovelace projít.

4. Reverzní Turingův test

A co takhle provést Turingův test obráceně? Místo toho, abyste se snažili zjistit, zda mluvíte s člověkem, cílem reverzního Turingova testu je přimět umělou inteligenci, aby uvěřila, že jste AI. K zodpovězení stejných otázek pomocí textu však budete potřebovat jiný model umělé inteligence.

Pokud je například hodnotitelem ChatGPT-4, můžete do testu zaregistrovat Google Bard a dalšího člověka jako účastníky. Jestliže model AI na základě odpovědí správně identifikuje lidského účastníka, testem prošel.

Nevýhodou reverzního Turingova testu je, že je nespolehlivý, zejména pokud si uvědomíme, že umělá inteligence občas nedokáže rozlišit obsah, který sama vygenerovala od obsahu vytvořeného lidmi.

5. Klasifikační rámec umělé inteligence

Podle klasifikačního rámce AI, který vyvinul Chris Saad, je Turingův test pouze jednou z mnoha metod hodnocení, které slouží k odlišení umělé inteligence od člověka. Zjednodušeně řečeno, klasifikační rámec AI je založen na teorii vícenásobné inteligence, která vyžaduje, aby lidská inteligence splňovala minimálně osm různých kritérií. Mezi tyto kritéria patří hudební rytmus, logicko-matematická inteligence, vizuální identifikace, emoční inteligence, sebereflektivní inteligence, schopnost existenciálního myšlení a pohyb těla.

Vzhledem k tomu, že je umělá inteligence posuzována na základě osmi různých parametrů, je nepravděpodobné, že by jimi mohla plně projít, i když v některých z nich dosahuje nadprůměrných výsledků. Například ChatGPT dokáže řešit matematické problémy, popisovat obrázky a konverzovat přirozeným jazykem jako člověk, ale selhal by v jiných kategoriích definovaných klasifikačním rámcem AI.

Turingův test není průkazný

Turingův test byl koncipován spíše jako myšlenkový experiment, než jako spolehlivý test k odlišení člověka od umělé inteligence. V době svého vzniku sloužil jako zásadní měřítko pro hodnocení inteligence strojů.

Nicméně, s nedávným vývojem modelů umělé inteligence, které jsou schopny interakce s pomocí řeči, obrazu a zvuku, Turingův test začíná zaostávat, protože je omezen pouze na textovou konverzaci. Nejúčinnějším řešením by proto bylo zavedení alternativních testů k Turingovu testu, které by dále odlišovaly modely umělé inteligence od lidí.