Proč jsou malé jazykové modely budoucností umělé inteligence

Hlavní poznatky

  • Velké společnosti jako Open AI, Google, Microsoft a Meta investují do malých jazykových modelů (SLMs).
  • SLMs získávají popularitu v průmyslu a mají silnější postavení jako budoucnost AI.
  • Příklady SLMs zahrnují Google Nano, Microsoft Phi-3 a Open AI GPT-4o mini.

Malé jazykové modely (SLMs) se staly důležitou součástí vývoje umělé inteligence. Poté, co velké jazykové modely (LLMs) získaly na popularitě s uvedením Open AI ChatGPT, začíná více společností upřednostňovat právě SLMs. Jaké jsou rozdíly mezi těmito modely a proč jsou SLMs považovány za klíč k budoucnosti AI?

SLMs si získávají na významu, ale co přesně jsou a jak se liší od LLMs?

Co je malý jazykový model?

Malý jazykový model (SLM) je typ umělého inteligentního modelu s menším počtem parametrů (což si představte jako hodnotu v modelu naučenou během tréninku). Stejně jako jejich větší protějšky, SLMs mohou generovat text a vykonávat další úkoly. Nicméně, SLMs používají pro trénink méně datových sad, mají méně parametrů a vyžadují menší výpočetní výkon pro trénink a provoz.

SLMs se zaměřují na klíčové funkce, a jejich malá stopa znamená, že mohou být nasazeny na různých zařízeních, včetně těm, která nemají špičkový hardware, jako jsou mobilní zařízení. Například Google Nano je SLM, které bylo od základů vyvinuto pro běh na mobilních zařízeních. Díky své malé velikosti může Nano běžet lokálně s nebo bez připojení k síti, podle informací společnosti.

Google

Kromě Nano existuje mnoho dalších SLMs od předních a vycházejících společností v oblasti AI. Některé populární SLMs zahrnují Microsoft Phi-3, OpenAI GPT-4o mini, Anthropic Claude 3 Haiku, Meta Llama 3 a Mixtral 8x7B od Mistral AI.

K dispozici jsou také další možnosti, které byste mohli považovat za LLMs, ale jsou to SLMs. To platí zejména, když většina společností přijímá vícerozměrný přístup uvolněním více než jednoho jazykového modelu ve svém portfoliu, nabízejíc LLMs i SLMs. Jedním příkladem je GPT-4, které má různé modely, včetně GPT-4, GPT-4o (Omni) a GPT-4o mini.

Malé jazykové modely vs. Velké jazykové modely

Při diskusi o SLMs nemůžeme ignorovat jejich velké protějšky: LLMs. Klíčový rozdíl mezi SLM a LLM je velikost modelu, která se měří podle počtu parametrů.

K datu tohoto psaní neexistuje v AI průmyslu shoda o maximálním počtu parametrů, které by model neměl překročit, aby byl považován za SLM, nebo minimálním počtu požadovaném pro LLM. Nicméně SLMs obvykle mají miliony až několik miliard parametrů, zatímco LLMs mají více, až do trilionů.

Například GPT-3, který byl vydán v roce 2020, má 175 miliard parametrů (a model GPT-4 se podle pověstí odhaduje na přibližně 1,76 trilionu), zatímco Microsoftovy SLMs Phi-3-mini, Phi-3-small a Phi-3-medium mají 3,8, 7 a 14 miliard parametrů.

Microsoft

Dalším diferenciujícím faktorem mezi SLMs a LLMs je množství dat použitých pro trénink. SLMs jsou trénovány na menších množstvích dat, zatímco LLMs používají velké datové sady. Tento rozdíl také ovlivňuje schopnost modelu řešit složité úkoly.

Díky velkému množství dat použitých při tréninku jsou LLMs lépe přizpůsobeny k řešení různých typů složitých úkolů, které vyžadují pokročilé uvažování, zatímco SLMs jsou lépe přizpůsobeny pro jednodušší úkoly. Na rozdíl od LLMs používají SLMs méně tréninkových dat, ale použité data musí mít vyšší kvalitu, aby dosáhly mnoha schopností nalezených v LLMs v malém balení.

Proč jsou malé jazykové modely budoucností

Pro většinu případů použití jsou SLMs lépe umístěny na to, aby se staly běžnými modely používanými společnostmi a spotřebiteli pro vykonání široké škály úkolů. Jistě, LLMs mají své výhody a jsou lépe přizpůsobeny pro určité případy použití, jako je řešení složitých úkolů. Nicméně, SLMs jsou budoucností pro většinu případů použití z následujících důvodů.

1. Nižší náklady na trénink a údržbu

Timofeev Vladimir/Shutterstock

SLMs potřebují méně dat pro trénink než LLMs, což z nich dělá nejvíce životaschopnou možnost pro jednotlivce a malé až střední společnosti s omezenými tréninkovými daty, financemi, nebo obojím. LLMs vyžadují velké množství tréninkových dat a tím pádem potřebují obrovské výpočetní zdroje pro trénink i provoz.

Abychom si to lépe představili, generální ředitel OpenAI, Sam Altman, potvrdil, že trénink GPT-4 stál více než 100 milionů dolarů, když mluvil na akci na MIT (podle Wired). Další příklad je Meta OPT-175B LLM. Meta říká, že byl trénován pomocí 992 NVIDIA A100 80GB GPU, které stojí zhruba 10 000 dolarů za kus, podle CNBC. To dává náklady přibližně na 9 milionů dolarů, bez dalších nákladů jako energie, mzdy a další.

S takovými čísly není pro malé a střední společnosti životaschopné trénovat LLM. Naproti tomu SLMs mají nižší bariéru pro vstup z hlediska zdrojů a jsou levnější na provoz, a proto je více společností bude přijímat.

2. Lepší výkon

GBJSTOCK / Shutterstock

Výkon je další oblast, kde SLMs překonávají LLMs díky své kompaktní velikosti. SLMs mají nižší latenci a jsou lépe vhodné pro scénáře, kde jsou potřeba rychlejší odpovědi, například v reálných aplikacích. Například rychlejší odpověď je preferována v systémech hlasové odezvy, jako jsou digitální asistenti.

Běh na zařízení (o tom později) také znamená, že vaše žádost nemusí putovat na online servery a zpět, aby odpověděla na vaši otázku, což vede к rychlejším odpovědím.

3. Přesnější

ZinetroN / Shutterstock

Když jde o generativní AI, jedna věc zůstává konstantní: pokud bude vstup nekvalitní, výstup také. Současné LLMs byly trénovány pomocí velkých datových sad surových internetových dat. Proto nemusí být přesné ve všech situacích. To je jeden z problémů s ChatGPT a podobnými modely, a proto byste neměli důvěřovat všemu, co říká AI chatbot. Na druhou stranu SLMs jsou trénovány na hlubší a kvalitnější data než LLMs, a proto mají vyšší přesnost.

SLMs lze také dále jemně ladit s cíleným tréninkem na konkrétní úkoly nebo domény, což vede k lepší přesnosti v těchto oblastech ve srovnání s většími, více generalizovanými modely.

4. Mohou běžet na zařízení

Pete Hansen/Shutterstock

SLMs potřebují méně výpočetního výkonu než LLMs a jsou tedy ideální pro případy okrajového výpočtu. Mohou být nasazeny na okrajových zařízeních, jako jsou chytré telefony a autonomní vozidla, která nemají velký výpočetní výkon nebo zdroje. Model Google Nano může běžet na zařízení, což mu umožňuje pracovat i bez aktivního připojení k internetu.

Tato schopnost představuje oboustranně výhodnou situaci jak pro společnosti, tak pro spotřebitele. Za prvé, je to výhra pro ochranu soukromí, protože data uživatelů jsou zpracovávána lokálně, spíše než aby byla odesílána do cloudu, což je důležité, když je AI integrována do našich chytrých telefonů, které obsahují téměř všechny detaily o nás. Je to také výhra pro společnosti, protože nepotřebují nasazovat a provozovat velké servery pro zpracování úkolů AI.

SLMs získávají na významu, přičemž největší hráči v průmyslu, jako Open AI, Google, Microsoft, Anthropic a Meta, uvolňují takové modely. Tyto modely jsou lépe přizpůsobeny pro jednodušší úkoly, což je to, co většina z nás používá LLMs, a proto jsou budoucností.

Ale LLMs nikam nepůjdou. Místo toho budou využívány pro pokročilé aplikace, které kombinují informace z různých oblastí k vytvoření něčeho nového, jako je například medicínský výzkum.

Shrnutí: Vzhledem k růstu vývoje a poptávky po malých jazykových modelech se SLMs stávají významnou součástí naší budoucnosti v AI, přičemž společnosti jako Google, Microsoft a Open AI vedou tomuto trendu. Jejich efektivita, nízké náklady na trénink a schopnost běžet na zařízeních bez potíží je činí ideálními pro širokou škálu aplikací v moderním světě.