Proč Gemini 1.5's One Million Token Context mění hru

Obsah

Klíčové aspekty

Google Gemini 1.5 přichází s kontextovým oknem o velikosti jednoho milionu tokenů, čímž předstihuje konkurenty jako Claude a ChatGPT.
Rozsáhlejší kontextové okno zvyšuje výkon umělé inteligence a redukuje chyby, avšak samo o sobě nemusí být zárukou celkového úspěchu.
Očekává se, že díky svému obřímu kontextovému oknu by Gemini 1.5 mohl významně zlepšit přesnost, omezit výskyt chyb a prohloubit schopnost porozumění.

Nová verze Google Gemini 1.5 se pyšní obrovským kontextovým oknem s kapacitou jeden milion tokenů, což jej staví do čela pelotonu oproti konkurenčním modelům, jako jsou ChatGPT, Claude a dalším AI chatbotům.

Tento razantní upgrade by mohl znamenat zásadní změnu v používání AI. Ačkoli je obtížné si přesně představit plný potenciál tohoto posunu, tak je zjevné, že takové kontextové okno by mohlo mít transformační dopad.

Co je to kontextové okno?

Když modely umělé inteligence odpovídají na dotazy uživatelů, ať už jde o vysvětlení složitých konceptů nebo shrnutí textu, mají omezenou kapacitu zpracování dat. Velikost textu, kterou mohou efektivně zvážit při generování odpovědi, se nazývá kontextové okno.

Pro lepší představu si to můžeme přirovnat k situaci, kdy jdete na nákup potravin bez nákupního seznamu. Množství položek, které si dokážete zapamatovat, představuje vaše kontextové okno. Čím více si toho zapamatujete, tím větší je šance, že váš nákup bude úspěšný. Stejně tak platí, že čím větší kontextové okno AI model má, tím lépe si zapamatuje vše potřebné pro poskytnutí relevantních a kvalitních odpovědí.

V době psaní tohoto textu je největším veřejně dostupným kontextovým oknem model Claude 2.1 od společnosti Anthropic s 200 tisíci tokenů. Následuje GPT-4 Turbo se 128 tisíci tokenů. Google Gemini 1.5 přichází s ohromujícím jedním milionem tokenů, což je čtyřikrát více než jeho konkurence. Tím se naskýtá otázka: proč je kontextové okno s jedním milionem tokenů tak významné?

Proč je kontextové okno Gemini 1.5 tak důležité?

Smartmockups

Pro lepší představu: kontextové okno o velikosti 200 000 tokenů, kterým disponuje Claude, umožňuje modelu zpracovat knihu o přibližně 150 000 slovech. To je samo o sobě působivé. Ovšem Gemini 1.5 od Googlu by dokázal zpracovat až 700 000 slov najednou!

Když do AI chatbota, jako je ChatGPT nebo Gemini, vložíte rozsáhlý text, pokusí se zpracovat co nejvíce informací, ovšem s ohledem na své kontextové okno. Jestliže v konverzaci použijete 100 000 slov a model umí pracovat pouze s 28 000 slovy, a pak položíte otázky vyžadující znalost celé konverzace, nastavujete model na neúspěch.

Představte si, že jste zhlédli jen 20 minut hodinového filmu, a přesto máte za úkol vysvětlit celý film. Jak by vypadaly vaše odpovědi? Buď byste odpověď odmítli, nebo byste si něco vymysleli. Podobně by se choval i AI chatbot, což vede k takzvaným halucinacím umělé inteligence.

Pokud si myslíte, že nikdy nebudete potřebovat zadávat do chatbota 100 000 slov, tak je třeba si uvědomit, že kontextové okno se nevztahuje jen na jeden zadaný text. AI modely berou v potaz celou předchozí konverzaci, aby jejich odpovědi byly co nejvíce relevantní.

Takže, i když nezadáváte knihu o 100 000 slovech, vaše výměna zpráv a odpovědi modelu se sčítají do celkového kontextu. Zajímalo vás někdy, proč ChatGPT nebo Gemini od Googlu neustále zapomínají věci, které jste jim řekli na začátku rozhovoru? Nejčastěji je to z důvodu vyčerpání kontextového okna a následného „zapomínání“.

Větší kontextové okno je klíčové zejména pro úkoly, které vyžadují hlubší pochopení kontextu, jako jsou sumarizace rozsáhlých článků, odpovídání na složité dotazy nebo zachování koherentního příběhu při generování textu. Chcete napsat román o 50 000 slovech s koherentní zápletkou? Potřebujete model, který dokáže „sledovat“ a odpovídat na otázky ohledně hodinového videa? Potřebujete větší kontextové okno!

Stručně řečeno, větší kontextové okno Gemini 1.5 má potenciál výrazně zvýšit výkon AI modelu, redukovat halucinace a v konečném důsledku zvýšit přesnost a efektivitu při dodržování pokynů.

Splní Gemini 1.5 očekávání?

Pokud vše proběhne podle plánu, Gemini 1.5 má potenciál překonat nejlepší AI modely na trhu. Nicméně, vzhledem k mnoha neúspěchům společnosti Google v oblasti stabilních AI modelů, je nezbytné zachovat opatrnost. Samotné rozšíření kontextového okna modelu automaticky nezaručuje zlepšení jeho výkonu.

Sám jsem používal 200k kontextové okno Claude 2.1 po dobu několika měsíců od jeho uvedení, a je mi jasné, že větší kontextové okno sice skutečně zlepšuje kontextovou citlivost, ale problémy se základním výkonem modelu mohou vést k tomu, že větší kontext se stane spíše překážkou.

Znamená Google Gemini 1.5 zásadní zlom? Sociální sítě jsou aktuálně plné nadšených recenzí Gemini 1.5 od uživatelů s předběžným přístupem. Nicméně většina 5hvězdičkových hodnocení pochází z uspěchaných nebo zjednodušených testů. Místo, kde lze ověřit, jak si Gemini 1.5 vede v praxi, je technická zpráva od společnosti Google: Technická zpráva Gemini 1.5 [PDF]. Tato zpráva ukazuje, že ani během řízeného testování nedokázal model načíst veškeré detailní informace z dokumentů v rámci svého kontextového okna.

Kontextové okno s milionem tokenů je nepochybně ohromující technický počin, ale bez schopnosti spolehlivě načítat detaily z dokumentů má takové okno jen malý praktický význam a dokonce může způsobit pokles přesnosti a zvýšení halucinací.