Kako zagnati Llama 2 lokalno na vašem računalniku Mac ali PC

Če ste že slišali za Llama 2 in jo želite zagnati na svojem računalniku, lahko to preprosto storite z nekaj brezplačnimi programi.

hitre povezave

Zahteve

Kako zagnati Llama 2 na Macu ali Linuxu z Ollamo

Kako zagnati Llama 2 v sistemu Windows s spletnim grafičnim vmesnikom

Če vam je všeč ideja o ChatGPT, Google Bard, Klepet Bing, ali katerega koli drugega pomočnika AI, potem imate morda nekaj pomislekov v zvezi z zasebnostjo, stroški ali več. Tu nastopi Llama 2. Llama 2 je odprtokodni velik jezikovni model, ki ga je razvila Meta, in obstajajo različice, ki segajo od 7 milijard do 70 milijard parametrov.

Glede na to, da gre za odprtokodni LLM, ga lahko spreminjate in izvajate na kakršenkoli način, v kateri koli napravi. Če ga želite preizkusiti na računalniku z operacijskim sistemom Linux, Mac ali Windows, lahko preprosto!

Zahteve

Za lokalni zagon Llame 2 potrebujete naslednje:

Eden izmed najboljši grafični procesorji Nvidia (lahko uporabljate AMD v Linuxu)
Internetna povezava

Kako zagnati Llama 2 na Macu ali Linuxu z Ollamo

Če imate Mac, lahko uporabite Ollamo za zagon Llame 2. To je daleč najlažji način za to od vseh platform, saj zahteva minimalno delo. Vse, kar potrebujete, je Mac in čas za prenos LLM, saj gre za veliko datoteko.

1. korak: Prenesite Ollamo

Prva stvar, ki jo boste morali storiti, je Prenesi Ollama. Deluje v sistemih Mac in Linux ter omogoča enostaven prenos in zagon več modelov, vključno z Llama 2. Lahko ga celo zaženete v vsebniku Docker, če želite s pospeševanjem GPE, če ga želite enostavno konfigurirati.

Ko je Ollama prenesen, ekstrahirajte v mapo po vaši izbiri in zaženite ga.

2. korak: Prenesite model Llama 2

Ko je Ollama nameščena, zaženite naslednji ukaz izvleči model Llama 2 s 13 milijardami parametrov.

ollama pull llama2:13b

To lahko traja nekaj časa, zato si dajte čas, da teče. To je datoteka s 7,4 GB in je lahko počasna pri nekaterih povezavah.

3. korak: Zaženite Llamo 2 in komunicirajte z njo

Naslednji, zaženite naslednji ukaz za zagon in interakcijo z modelom.

ollama run llama2

To bo nato zagnalo model in z njim lahko komunicirate. Končal si!

Kako zagnati Llama 2 v sistemu Windows s spletnim grafičnim vmesnikom

Če uporabljate računalnik z operacijskim sistemom Windows, vam ni treba skrbeti, saj je nastavitev prav tako enostavna, vendar z več koraki! Lahko boste klonirali repozitorij GitHub in ga zagnali lokalno, in to je vse, kar morate storiti.

1. korak: Prenesite in zaženite Llama 2 Web GUI

Če poznate Stabilna difuzija in ga izvajati lokalno prek spletnega GUI, to je v bistvu to. repozitorij GitHub spletnega uporabniškega vmesnika za ustvarjanje besedila oobabooga se zgleduje po tem in deluje na skoraj enak način.

Prenesi repozitorij, povezan zgoraj
Teči start_windows.bat, start_linux.sh, oz start_macos.sh odvisno od platforme, ki jo uporabljate
Izberite svoj GPE in mu dovolite, da namesti vse, kar potrebuje

2. korak: Dostopite do spletnega grafičnega vmesnika Llama 2

Iz zgornjega lahko vidite, da vam bo dal lokalni naslov IP za povezavo s spletnim GUI. Povežite se z njim v brskalniku in videli bi spletni grafični vmesnik. Kliknite in se seznanite z uporabniškim vmesnikom. Najprej boste naložili okno za klepet, vendar ne bo delovalo, dokler ne naložite modela.

3. korak: Naložite model Llama 2

Zdaj boste morali naložiti model. To bo trajalo nekaj časa, saj ga bo treba prenesti, vendar lahko to storite v spletnem grafičnem vmesniku.

Kliknite na Model zavihek na vrhu
Na desni vnesite TheBloke/Llama-2-13B-klepet-GPTQ in kliknite Prenesi
Če se prenaša, bi morali v ukaznem pozivu videti vrstico napredka, ko prenaša ustrezne datoteke.
Ko se konča, osvežite seznam modelov na levi in kliknite preneseni model.
Kliknite obremenitev, pri čemer se prepričajte, da nalagalnik modela pravi GPTQ-za-LLaMa

Morda bo trajalo nekaj trenutkov, da se naloži, saj ti modeli zahtevajo veliko vRAM-a.

4. korak: komunicirajte z Llamo 2!

Vse gre dobro, zdaj bi morali imeti Llama 2 na vašem računalniku! Z njim lahko komunicirate prek brskalnika v okolju brez interneta, če imate strojno opremo, potrebno za njegovo izvajanje. Na moji RTX 4080 s 16 GB vRAM-a lahko ustvari skoraj 20 žetonov na sekundo, kar je bistveno hitreje, kot boste našli pri večini brezplačnih načrtov za kateri koli LLM, kot je ChatGPT ali drugače.