Jak stáhnout a nainstalovat Llama 2 lokálně

Meta vydala Llama 2 v létě 2023. Nová verze Llama je vyladěna o 40 % více tokenů než původní model Llama, čímž se zdvojnásobila délka kontextu a výrazně předčí ostatní dostupné modely s otevřeným zdrojovým kódem. Nejrychlejší a nejsnadnější způsob, jak získat přístup k Llama 2, je prostřednictvím API prostřednictvím online platformy. Pokud však chcete ten nejlepší zážitek, je nejlepší nainstalovat a načíst Llama 2 přímo na váš počítač.

S ohledem na to jsme vytvořili podrobného průvodce, jak používat Text-Generation-WebUI k načtení kvantizovaného Llama 2 LLM lokálně do vašeho počítače.

Table of Contents

Proč instalovat Llama 2 lokálně

Existuje mnoho důvodů, proč se lidé rozhodnou spustit Llamu 2 přímo. Někteří to dělají kvůli ochraně soukromí, někteří kvůli přizpůsobení a další kvůli možnostem offline. Pokud zkoumáte, dolaďujete nebo integrujete Llama 2 pro své projekty, pak přístup k Llama 2 přes API nemusí být pro vás. Smyslem spuštění LLM lokálně na vašem PC je snížit závislost na nástrojích umělé inteligence třetích stran a používat umělou inteligenci kdykoli a kdekoli, aniž byste se museli obávat úniku potenciálně citlivých dat do společností a dalších organizací.

S tím, co bylo řečeno, začněme s podrobným průvodcem pro místní instalaci Llama 2.

Pro zjednodušení použijeme instalátor na jedno kliknutí pro Text-Generation-WebUI (program používaný k načtení Llama 2 s GUI). Aby však tento instalační program fungoval, musíte si stáhnout nástroj Visual Studio 2019 Build Tool a nainstalovat potřebné prostředky.

Jak obnovit smazaný dokument Google z Disku Google

Stažení: Visual Studio 2019 (Volný, uvolnit)

Pokračujte a stáhněte si komunitní verzi softwaru.

Nyní nainstalujte Visual Studio 2019 a poté otevřete software. Po otevření zaškrtněte políčko Desktop development with C++ a stiskněte install.

Nyní, když máte nainstalovaný vývoj Desktop s C++, je čas stáhnout si instalační program Text-Generation-WebUI na jedno kliknutí.

Krok 2: Nainstalujte Text-Generation-WebUI

Instalační program na jedno kliknutí Text-Generation-WebUI je skript, který automaticky vytvoří požadované složky a nastaví prostředí Conda a všechny nezbytné požadavky pro spuštění modelu AI.

Chcete-li skript nainstalovat, stáhněte si instalační program na jedno kliknutí kliknutím na Kód > Stáhnout ZIP.

Stažení: Text-Generation-WebUI Installer (Volný, uvolnit)

Po stažení rozbalte soubor ZIP do preferovaného umístění a poté rozbalenou složku otevřete.

Ve složce přejděte dolů a vyhledejte vhodný spouštěcí program pro váš operační systém. Spusťte programy poklepáním na příslušný skript.

Pokud používáte Windows, vyberte dávkový soubor start_windows
pro MacOS vyberte skript shellu start_macos
pro Linux, skript shell start_linux.

Váš antivirus může vytvořit výstrahu; Tohle je fajn. Výzva je pouze antivirový falešně pozitivní pro spuštění dávkového souboru nebo skriptu. Klepněte na Spustit.

Otevře se terminál a spustí se nastavení. Brzy se nastavení pozastaví a zeptá se vás, jaký GPU používáte. Vyberte příslušný typ GPU nainstalovaného v počítači a stiskněte klávesu Enter. Pro ty, kteří nemají vyhrazenou grafickou kartu, vyberte možnost Žádná (chci spouštět modely v režimu CPU). Mějte na paměti, že běh v režimu CPU je mnohem pomalejší ve srovnání se spuštěním modelu s vyhrazeným GPU.

Jakmile je nastavení dokončeno, můžete nyní lokálně spustit Text-Generation-WebUI. Můžete tak učinit otevřením preferovaného webového prohlížeče a zadáním poskytnuté IP adresy na URL.

WebUI je nyní připraveno k použití.

VLAN vs. podsíť: Vysvětleny rozdíly [2023]

Program je však pouze modelovým zavaděčem. Pojďme si stáhnout Llamu 2 pro model loader ke spuštění.

Krok 3: Stáhněte si model Llama 2

Při rozhodování, jakou iteraci Llama 2 potřebujete, je třeba vzít v úvahu několik věcí. Patří mezi ně parametry, kvantizace, optimalizace hardwaru, velikost a využití. Všechny tyto informace budou uvedeny v názvu modelu.

Parametry: Počet parametrů použitých k trénování modelu. Větší parametry dělají schopnější modely, ale za cenu výkonu.
Použití: Může být standardní nebo chatovací. Chatovací model je optimalizován pro použití jako chatbot jako ChatGPT, zatímco standardní je výchozí model.
Hardware Optimization: Odkazuje na hardware, který nejlépe provozuje model. GPTQ znamená, že model je optimalizován pro běh na vyhrazeném GPU, zatímco GGML je optimalizován pro běh na CPU.
Kvantizace: Označuje přesnost vah a aktivací v modelu. Pro odvození je optimální přesnost q4.
Velikost: Vztahuje se na velikost konkrétního modelu.

Všimněte si, že některé modely mohou být uspořádány odlišně a nemusí mít dokonce zobrazeny stejné typy informací. Tento typ konvence pojmenování je však v knihovně HuggingFace Model poměrně běžný, takže stále stojí za pochopení.

V tomto příkladu lze model identifikovat jako středně velký model Llama 2 trénovaný na 13 miliardách parametrů optimalizovaných pro odvození chatu pomocí vyhrazeného CPU.

Pro ty, kteří používají dedikovaný GPU, zvolte GPTQ model, zatímco pro ty, kteří používají CPU, zvolte GGML. Pokud chcete s modelem chatovat jako s ChatGPT, zvolte chat, ale pokud chcete experimentovat s modelem s jeho plnými možnostmi, použijte standardní model. Pokud jde o parametry, vězte, že použití větších modelů poskytne lepší výsledky na úkor výkonu. Osobně bych vám doporučil začít s modelem 7B. Pokud jde o kvantování, použijte q4, protože slouží pouze k vyvozování.

Jak používat příkaz dig na Linuxu

Stažení: GGML (Volný, uvolnit)

Stažení: GPTQ (Volný, uvolnit)

Nyní, když víte, jakou iteraci Llama 2 potřebujete, pokračujte a stáhněte si model, který chcete.

V mém případě, protože to provozuji na ultrabooku, budu používat model GGML vyladěný pro chat, lama-2-7b-chat-ggmlv3.q4_K_S.bin.

Po dokončení stahování umístěte model do text-generation-webui-main > models.

Nyní, když máte svůj model stažený a umístěný ve složce modelu, je čas nakonfigurovat zavaděč modelu.

Krok 4: Nakonfigurujte Text-Generation-WebUI

Nyní zahájíme fázi konfigurace.

Znovu otevřete Text-Generation-WebUI spuštěním souboru start_(vašeho OS) (viz předchozí kroky výše).

Na kartách umístěných nad GUI klikněte na Model. Klikněte na tlačítko aktualizace v rozbalovací nabídce modelu a vyberte svůj model.

Nyní klikněte na rozevírací nabídku zavaděče modelu a vyberte AutoGPTQ pro uživatele používající model GTPQ a ctransformátory pro uživatele používající model GGML. Nakonec klikněte na Načíst a načtěte svůj model.

Chcete-li model použít, otevřete kartu Chat a začněte testovat model.

Gratulujeme, úspěšně jste nahráli Llama2 do svého místního počítače!

Vyzkoušejte jiné LLM

Nyní, když víte, jak spustit Llama 2 přímo na vašem počítači pomocí Text-Generation-WebUI, měli byste být schopni spouštět i další LLM kromě Llama. Stačí si pamatovat konvence pojmenování modelů a to, že na běžné počítače lze načíst pouze kvantované verze modelů (obvykle s přesností q4). Na HuggingFace je k dispozici mnoho kvantovaných LLM. Pokud chcete prozkoumat další modely, vyhledejte TheBloke v knihovně modelů HuggingFace a měli byste najít mnoho dostupných modelů.