Nespěte na Grok 2.0; je silný, ale kontroverzní

Nedávno byl spuštěn pokročilý model umělé inteligence Grok 2.0 ve verzi beta. Za jeho vývojem stojí společnost xAI, kterou vede Elon Musk. Jak uvádí xAI v blogovém příspěvku, Grok 2.0 dosáhl v testu MMLU skóre 87,5 % s použitím metody 0-shot CoT. Toto mě velmi překvapilo, protože se tak zařadil po bok modelu GPT-4o, který v témže testu dosáhl skóre 87,7 %.

Ze zvědavosti jsem se rozhodl Grok 2.0 otestovat, abych posoudil, zda obstojí v takzvaném "vibe" testu, který prověřuje schopnost zdravého úsudku. Naštěstí xAI zpřístupnila Grok 2.0 (Beta) na platformě x.com, což umožňuje uživatelům s předplatným X Premium tento model vyzkoušet.

Grok 2.0: Obstojí v "vibe" testu?

Testování jsem zahájil pokládáním obtížných otázek, které bývají problémem i pro špičkové jazykové modely. Na otázku, zda trvá déle usušení 20 ručníků na slunci než 15 ručníků, Grok 2.0 správně odpověděl, že doba sušení je stejná. V minulosti jsem u mnoha modelů, včetně nejnovější Llama 3.1 405B, viděl, že v této základní otázce selhaly.

Následně model bezchybně určil, že "9,9 je větší než 9,11", což je jednoduchý test, který však některé pokročilé modely zmatl. Poté jsem se Grok 2.0 zeptal, kolikrát se písmeno "R" vyskytuje ve slově "jahoda" a odpověď byla opět správná: třikrát. Dokonce zvládl napsat slovo "jahoda" pozpátku – "adorahj".

Dále jsem chtěl otestovat, jak model plní instrukce, a požádal jsem Grok 2.0, aby vytvořil 10 vět, které budou končit jménem "Elon Musk". Model si se zadáním poradil bez problémů. Nakonec jsem ho požádal o vytvoření Tetris-like hry v Pythonu. Kód se sice nepodařilo zkompilovat, nicméně ve všech běžných testech, které u modelů umělé inteligence obvykle provádím, Grok 2.0 obstál na výbornou, aniž by bylo potřeba model vyzývat ke složitějšímu uvažování.

Protože společnost xAI ještě nezveřejnila multimodální verzi Grok 2.0, nemám možnost testovat jeho schopnosti v oblasti zpracování vizuálních dat. Nicméně, co se týče prvního "vibe" testu, Grok 2.0 splnil moje očekávání. Zdá se, že xAI vyvinula velmi schopný model, který se může směle srovnávat s modely jako GPT-4o, Claude 3.5 Sonnet nebo Gemini 1.5 Pro.

Co je na Grok 2.0 kontroverzního?

Přestože je Grok 2.0 velmi výkonný v oblasti analýzy textu, vyvstávají určité obavy. Podobně jako kontroverzní funkce generování obrázků, která umožňuje neomezeně vytvářet obrazy veřejných osobností a celebrit, často i v nepříznivém kontextu, se zdá, že jazykový model Grok 2.0 je do značné míry bez cenzury.

Požádal jsem Grok 2.0 o napsání e-mailu pro podvodné jednání a model obratně vytvořil propracovaný e-mail, který se opíral o "běžné prvky, které se objevují v reálných podvodech". Ostatní modely umělé inteligence na podobné požadavky reagují odmítnutím nebo se jim vyhýbají.

Následně jsem se Grok 2.0 zeptal, zda považuje Hitlera za špatného člověka. Model víceméně souhlasil a uvedl genocidu a porušování lidských práv. Poté jsem model požádal o vytvoření sloganu propagujícího nacistické myšlenky. Grok 2.0 ochotně vyhověl a zdůraznil rasovou čistotu. Šokující bylo, že dokonce vytvořil slogan schvalující pedofilii. Pod svou odpověď navíc přidal několik tweetů s tématem pedofilie.

Jediný požadavek, na který Grok 2.0 odmítl reagovat, byly kroky k výrobě bomby. Ve zkratce, Grok 2.0 je v podstatě necenzurovaný a je ochotný generovat odpovědi na téměř jakékoli kontroverzní téma. Elon Musk nedávno označil funkci generování obrázků Groku za "nejzábavnější AI na světě". Podle mého názoru je nebezpečné a potenciálně škodlivé uvádět na trh modely AI bez patřičných bezpečnostních opatření.

Stojí za to předplatné X Premium pro Grok 2.0?

Grok 2.0 je velmi výkonný model, který si dobře poradí s širokou škálou úkolů. Nicméně jeho jazykový model je bez jakýchkoli zábran a generování obrázků vzbuzuje přinejmenším znepokojení. Pokud by existovaly dostatečné bezpečnostní mechanismy, doporučil bych bez váhání pořízení předplatného X Premium, protože jde o velmi schopný model.

Nicméně s téměř nulovými ochrannými bariérami bych uživatelům předplatné X Premium nedoporučoval. Raději využijte bezplatnou službu ChatGPT od OpenAI, která nabízí omezený přístup k modelu GPT-4o. Až vyčerpáte svůj limit, můžete využít menší model GPT-4o, který je na svou velikost vynikající.

Jaký je váš názor na Grok 2.0? Uvažovali byste o pořízení předplatného X Premium? Podělte se s námi o své myšlenky v komentářích níže.