Kako pokrenuti Llama 2 lokalno na vašem Mac ili PC računalu

Ako ste čuli za Llama 2 i želite je pokrenuti na svom računalu, možete to jednostavno učiniti uz nekoliko besplatnih programa.

Brze veze

Zahtjevi

Kako pokrenuti Llamu 2 na Macu ili Linuxu pomoću Ollame

Kako pokrenuti Llama 2 na Windowsu pomoću web GUI-ja

Ako vam se sviđa ideja o ChatGPT, Google Bard, Bing Chat, ili bilo kojeg drugog AI pomoćnika, možda ćete imati problema u vezi s privatnošću, troškovima ili više. Tu na scenu stupa Llama 2. Llama 2 je open-source veliki jezični model koji je razvila Meta, a postoje varijante u rasponu od 7 milijardi do 70 milijardi parametara.

S obzirom da se radi o LLM-u otvorenog koda, možete ga modificirati i pokrenuti na bilo koji način, na bilo kojem uređaju. Ako ga želite isprobati na Linux, Mac ili Windows računalu, lako možete!

Zahtjevi

Za lokalno pokretanje Llame 2 trebat će vam sljedeće:

Jedan od najbolji Nvidia GPU (možete koristiti AMD na Linuxu)
Internetska veza

Kako pokrenuti Llamu 2 na Macu ili Linuxu pomoću Ollame

Ako imate Mac, možete koristiti Ollamu za pokretanje Llame 2. To je daleko najlakši način za to od svih platformi, jer zahtijeva minimalan rad za to. Sve što trebate je Mac i vrijeme za preuzimanje LLM-a, jer je to velika datoteka.

Korak 1: Preuzmite Ollamu

Prva stvar koju ćete morati učiniti je preuzimanje datoteka Ollama. Radi na Macu i Linuxu i olakšava preuzimanje i pokretanje više modela, uključujući Llamu 2. Možete ga čak pokrenuti u Docker spremniku ako želite s GPU ubrzanjem ako ga želite jednostavno konfigurirati.

Nakon što se Ollama preuzme, izdvojite ga u mapu po vašem izboru i pokreni ga.

Korak 2: Preuzmite model Llama 2

Nakon instaliranja Ollame, pokrenite sljedeću naredbu povući model Llama 2 od 13 milijardi parametara.

ollama pull llama2:13b

Ovo može potrajati, pa dajte vremena da se pokrene. To je datoteka od 7,4 GB i može biti spora na nekim vezama.

Korak 3: Pokrenite Llama 2 i komunicirajte s njim

Sljedeći, pokrenite sljedeću naredbu za pokretanje i interakciju s modelom.

ollama run llama2

To će zatim pokrenuti model i možete komunicirati s njim. Gotov si!

Kako pokrenuti Llama 2 na Windowsu pomoću web GUI-ja

Ako koristite Windows stroj, nema potrebe za brigom jer ga je jednako lako postaviti, iako uz više koraka! Moći ćete klonirati GitHub repozitorij i pokrenuti ga lokalno, i to je sve što trebate učiniti.

Korak 1: Preuzmite i pokrenite Llama 2 Web GUI

Ako ste upoznati s Stabilna difuzija i pokretanje lokalno kroz web GUI, to je ono što je ovo u osnovi. GitHub repozitorij web sučelja za generiranje teksta oobabooga inspiriran je time i radi na gotovo isti način.

preuzimanje datoteka repozitorij povezan gore
Trčanje start_windows.bat, start_linux.sh, ili start_macos.sh ovisno o platformi koju koristite
Odaberite svoj GPU i dopustite mu da instalira sve što treba

Korak 2: Pristupite Llama 2 Web GUI

Iz gore navedenog možete vidjeti da će vam dati lokalnu IP adresu za spajanje na web GUI. Povežite se s njim u svom pregledniku i trebali biste vidjeti web GUI. Kliknite okolo i upoznajte se s korisničkim sučeljem. Prvo ćete učitati prozor za chat, ali on neće raditi dok ne učitate model.

Korak 3: Učitajte model Llama 2

Sada ćete morati učitati model. To će potrajati neko vrijeme jer će ga trebati preuzeti, ali to možete učiniti iz web GUI-ja.

Kliknite na Model karticu na vrhu
S desne strane unesite TheBloke/Llama-2-13B-chat-GPTQ i kliknite preuzimanje datoteka
Ako se preuzima, trebali biste vidjeti traku napretka u naredbenom retku dok preuzima relevantne datoteke.
Kada završi, osvježite popis modela s lijeve strane i kliknite preuzeti model.
Klik Opterećenje, pazeći da program za učitavanje modela kaže GPTQ-za-LLaMa

Može potrajati neko vrijeme dok se ne učita jer ovi modeli zahtijevaju puno vRAM-a.

4. korak: komunicirajte s Llamom 2!

Sve ide dobro, sada biste trebali pokrenuti Llamu 2 na računalu! Možete komunicirati s njim putem svog preglednika u okruženju bez interneta, sve dok imate hardver potreban za njegovo izvršavanje. Na mom RTX 4080 sa 16 GB vRAM-a može generirati gotovo 20 tokena u sekundi, što je znatno brže nego što ćete naći na većini besplatnih planova za bilo koji LLM kao što je ChatGPT ili neki drugi.