Ako spustiť Llama 2 lokálne na počítači Mac alebo PC

Ak ste už počuli o hre Llama 2 a chcete ju spustiť na svojom počítači, môžete to jednoducho urobiť pomocou niekoľkých programov zadarmo.

Rýchle odkazy

Požiadavky

Ako spustiť Llama 2 na Macu alebo Linuxe pomocou Ollama

Ako spustiť Llama 2 na Windows pomocou webového GUI

Ak sa vám páči myšlienka ChatGPT, Google Bard, Bing Chat, alebo ktorýkoľvek z iných asistentov AI, potom môžete mať určité obavy týkajúce sa súkromia, nákladov a podobne. To je miesto, kde prichádza Llama 2. Llama 2 je open source veľký jazykový model vyvinutý spoločnosťou Meta a existujú varianty v rozsahu od 7 miliárd do 70 miliárd parametrov.

Vzhľadom na to, že ide o open-source LLM, môžete ho upraviť a spustiť ľubovoľným spôsobom na akomkoľvek zariadení. Ak to chcete vyskúšať na počítači so systémom Linux, Mac alebo Windows, môžete to jednoducho!

Požiadavky

Na lokálne spustenie Llama 2 budete potrebovať nasledovné:

Jeden z najlepšie GPU Nvidia (v systéme Linux môžete použiť AMD)
Internetové pripojenie

Ako spustiť Llama 2 na Macu alebo Linuxe pomocou Ollama

Ak máte Mac, môžete použiť Ollama na spustenie Llama 2. Je to zďaleka najjednoduchší spôsob, ako to urobiť zo všetkých platforiem, pretože si to vyžaduje minimálnu prácu. Všetko, čo potrebujete, je Mac a čas na stiahnutie LLM, keďže ide o veľký súbor.

Krok 1: Stiahnite si Ollama

Prvá vec, ktorú musíte urobiť, je Stiahnuť ▼ Ollama. Beží na Mac a Linux a uľahčuje sťahovanie a spúšťanie viacerých modelov, vrátane Llama 2. Môžete ho dokonca spustiť v kontajneri Docker, ak chcete s akceleráciou GPU, ak ho chcete ľahko nakonfigurovať.

Po stiahnutí Ollamy extrahujte ho do priečinka podľa vlastného výberu a spusti to.

Krok 2: Stiahnite si model Llama 2

Po nainštalovaní Ollama spustite nasledujúci príkaz vytiahnuť model Llama 2 s parametrom 13 miliárd.

ollama pull llama2:13b

Môže to chvíľu trvať, takže tomu dajte čas na spustenie. Je to súbor s veľkosťou 7,4 GB a pri niektorých pripojeniach môže byť pomalý.

Krok 3: Spustite hru Llama 2 a interagujte s ňou

Ďalšie, spustite nasledujúci príkaz na spustenie a interakciu s modelom.

ollama run llama2

Tým sa spustí model a môžete s ním interagovať. Hotovo!

Ako spustiť Llama 2 na Windows pomocou webového GUI

Ak používate počítač so systémom Windows, nemusíte si robiť starosti, pretože jeho nastavenie je rovnako jednoduché, hoci s viacerými krokmi! Budete môcť naklonovať úložisko GitHub a spustiť ho lokálne, a to je všetko, čo musíte urobiť.

Krok 1: Stiahnite si a spustite webové GUI Llama 2

Ak ste oboznámení s Stabilná difúzia a spustenie lokálne cez webové GUI, o to v podstate ide. GitHub úložisko webového používateľského rozhrania na generovanie textu oobabooga je inšpirovaný tým a funguje veľmi podobne.

Stiahnuť ▼ úložisko prepojené vyššie
Bežať start_windows.bat, start_linux.sh, alebo start_macos.sh v závislosti od platformy, ktorú používate
Vyberte svoj GPU a umožniť mu nainštalovať všetko, čo potrebuje

Krok 2: Prístup k webovému GUI Llama 2

Z vyššie uvedeného môžete vidieť, že vám poskytne lokálnu IP adresu na pripojenie k webovému GUI. Pripojte sa k nemu vo svojom prehliadači a mali by ste vidieť webové GUI. Kliknite a oboznámte sa s používateľským rozhraním. Najprv načítate okno rozhovoru, ale nebude fungovať, kým nenačítate model.

Krok 3: Vložte model Llama 2

Teraz budete musieť načítať model. Bude to chvíľu trvať, pretože ho bude potrebné stiahnuť, ale môžete to urobiť z webového grafického rozhrania.

Kliknite na Model kartu v hornej časti
Vpravo zadajte TheBloke/Llama-2-13B-chat-GPTQ a kliknite Stiahnuť ▼
Ak sa sťahuje, v príkazovom riadku by ste mali vidieť indikátor priebehu pri sťahovaní príslušných súborov.
Po dokončení obnovte zoznam modelov vľavo a kliknite na stiahnutý model.
Kliknite Naložiť, uistite sa, že nakladač modelu hovorí GPTQ-pre-LLaMa

Načítanie môže chvíľu trvať, pretože tieto modely vyžadujú veľa pamäte vRAM.

Krok 4: Interakcia s Llamou 2!

Všetko ide dobre, teraz by ste mali mať Llama 2 spustenú na vašom PC! Môžete s ním komunikovať prostredníctvom prehliadača v prostredí bez internetu, pokiaľ máte hardvér potrebný na jeho spustenie. Na mojom RTX 4080 so 16 GB vRAM dokáže generovať rýchlosťou takmer 20 tokenov za sekundu, čo je výrazne rýchlejšie, ako nájdete na väčšine bezplatných plánov pre akékoľvek LLM, ako je ChatGPT alebo iné.