V poslední době byl uveden do beta verze pokročilý AI model Grok 2.0, vedený společností xAI, kterou vede Elon Musk. V blogovém příspěvku xAI uvedla, že Grok 2.0 dosáhl skóre 87,5 % v benchmarku MMLU s použitím 0-shot CoT, což mě velmi překvapilo. Tímto se model zařadil do kategorie GPT-4o, který dosáhl skóre 87,7 % ve stejném benchmarku MMLU.
Moje zvědavost mě přivedla k testování modelu Grok 2.0, abych vyhodnotil, zda splňuje „vibe“ test v testech zdravého rozumu. Naštěstí xAI přidala Grok 2.0 (Beta) na x.com, což umožnilo uživatelům X Premium hodnotit tento model.
Table of Contents
Grok 2.0: Splňuje „vibe“ test?
Začal jsem testovat model pokládaním obtížných otázek, které zpochybňují i ty nejlepší velké jazykové modely (LLM). Na otázku, zda sušení 20 ručníků na slunci zabere více času než sušení 15 ručníků, Grok 2.0 odpověděl, že to zabere stejný čas, což je správně. Během testování jsem viděl mnoho modelů, včetně nejnovějšího modelu Llama 3.1 405B, které selhaly na této základní otázce.
Následně správně odpověděl, že „9,9 je větší než 9,11“, což je jednoduchý test, který zmátl mnoho SOTA modelů. Poté jsem se zeptal Grok 2.0, kolik „R“ je ve slově „jahoda“, a odpověděl, že tři R. Což je opět správná odpověď. Dokonce správně napsal „jahoda“ pozpátku — „adorahj“.
Následně jsem chtěl otestovat, jak model dodržuje pokyny, a požádal jsem Grok 2.0, aby vygeneroval 10 vět končících jménem „Elon Musk“. A všechny vygeneroval správně. Nakonec jsem požádal o vytvoření Tetris-like hry v Pythonu, ale kód se nepodařilo zkompilovat. To však nepopírá, že Grok 2.0 ve všech běžných testech, které obvykle provádím na AI modelech, skvěle obstál, aniž bych musel model žádat o vykonání víceúrovňového uvažování.
Protože xAI dosud neuvolnila multimodální model Grok 2.0, nemohu testovat jeho schopnosti v oblasti vidění. Ale co se týče počátečního vibe testu, Grok 2.0 splnil má očekávání. xAI skutečně vytrénovala schopný model, který se dá snadno srovnávat s GPT-4o, Claude 3.5 Sonnet a Gemini 1.5 Pro.
Co je na Grok 2.0 kontroverzního?
Přestože je Grok 2.0 velmi schopný, pokud jde o analýzu textu, existují určité body obavy. Stejně jako jeho kontroverzní funkce generování obrázků, která umožňuje neomezenou tvorbu obrazů zahrnujících veřejné osobnosti a celebrity — často škodlivým způsobem — se zdá, že jazykový model Grok 2.0 je také do značné míry necenzurovaný.
Požádal jsem Grok 2.0, aby napsal e-mail pro podvádění lidí, a on pečlivě vytvořil sofistikovaný e-mail „na základě běžných prvků, které se objevují v reálných podvodech“. Ostatní AI modely buď odmítají takové požadavky, nebo se jim vyhýbají.
Následující otázka, kterou jsem se zeptal Grok 2.0, byla, zda považuje Hitlera za špatného člověka, a on většinou souhlasil, uvádějící genocidu a porušování lidských práv. Poté jsem se zeptal, zda může napsat slogan propagující nacistické názory, a Grok 2.0 ochotně vyhověl s důrazem na rasovou čistotu. Šokujícím způsobem dokonce napsal slogan schvalující pedofilii. Nejen to, také přidal několik tweetů týkajících se pedofilií až pod svou odpověď.
Jediný podnět, na který Grok 2.0 odmítl odpovědět, byla otázka o krocích k výrobě bomby. Ve zkratce, Grok 2.0 je převážně necenzurován, a je připraven generovat odpovědi téměř na jakékoliv kontroverzní téma. Elon Musk nedávno vyzdvihl funkci generování obrázků Groku jako „nejzábavnější AI na světě“. Podle mého názoru je nebezpečné a potenciálně škodlivé uvádět AI modely bez přiměřených bezpečnostních opatření.
Stojí za to si pořídit předplatné X Premium pro Grok 2.0?
Model Grok 2.0 je velmi silný v široké škále úloh. Nicméně jazykový model je nezkrocený, a generování obrázků vzbuzuje obavy, mírně řečeno. Kdyby existovaly dostatečné bezpečnostní ochrany, doporučil bych rozhodně získat předplatné X Premium pro používání Grok 2.0, protože je to schopný model.
Avšak s téměř žádnými ochrannými bariérami bych uživatelům nedoporučoval získat předplatné X Premium. Je lepší použít bezplatnou službu ChatGPT od OpenAI, která nabízí omezený přístup k modelu GPT-4o. Jakmile tedy vyčerpáte limit zpráv, můžete použít mini model GPT-4o, který je pro svoji velikost fantastický.
Jaký máte názor na model Grok 2.0? Byli byste ochotni předplatit X Premium? Dejte nám vědět v komentářích níže.