Cum să rulați Llama 2 local pe Mac sau PC

Dacă ați auzit de Llama 2 și doriți să îl rulați pe computer, o puteți face cu ușurință cu câteva programe gratuit.

Legături rapide

Cerințe

Cum să rulați Llama 2 pe un Mac sau Linux folosind Ollama

Cum să rulați Llama 2 pe Windows folosind o interfață grafică web

Dacă vă place ideea de ChatGPT, Google Bard, Bing Chat, sau oricare dintre ceilalți asistenți AI, atunci este posibil să aveți unele preocupări legate de confidențialitate, costuri sau mai multe. Aici intervine Llama 2. Llama 2 este un model de limbaj mare open-source dezvoltat de Meta și există variante care variază de la 7 la 70 de miliarde de parametri.

Având în vedere că este un LLM open-source, îl puteți modifica și rula în orice mod doriți, pe orice dispozitiv. Dacă doriți să încercați pe o mașină Linux, Mac sau Windows, puteți face cu ușurință!

Cerințe

Veți avea nevoie de următoarele pentru a rula Llama 2 local:

Unul dintre cele mai bune GPU-uri Nvidia (puteți folosi AMD pe Linux)
O conexiune la internet

Cum să rulați Llama 2 pe un Mac sau Linux folosind Ollama

Dacă aveți un Mac, puteți utiliza Ollama pentru a rula Llama 2. Este de departe cel mai simplu mod de a face acest lucru dintre toate platformele, deoarece necesită o muncă minimă pentru a face acest lucru. Tot ce aveți nevoie este un Mac și timp pentru a descărca LLM, deoarece este un fișier mare.

Pasul 1: Descărcați Ollama

Primul lucru pe care va trebui să-l faci este Descarca Ollama. Funcționează pe Mac și Linux și facilitează descărcarea și rularea mai multor modele, inclusiv Llama 2. Puteți chiar să îl rulați într-un container Docker dacă doriți cu accelerare GPU dacă doriți să îl configurați ușor.

Odată ce Ollama este descărcat, extrageți-l într-un folder la alegere și rulați-l.

Pasul 2: Descărcați modelul Llama 2

Odată ce Ollama este instalat, rulați următoarea comandă pentru a trage modelul Llama 2 cu parametri de 13 miliarde.

ollama pull llama2:13b

Acest lucru poate dura ceva timp, așa că acordați-i timp să ruleze. Este un fișier de 7,4 GB și poate fi lent la unele conexiuni.

Pasul 3: Rulați Llama 2 și interacționați cu acesta

Următorul, rulați următoarea comandă pentru a lansa și a interacționa cu modelul.

ollama run llama2

Acest lucru va lansa apoi modelul și puteți interacționa cu acesta. Ai terminat!

Cum să rulați Llama 2 pe Windows folosind o interfață grafică web

Dacă utilizați o mașină Windows, atunci nu este nevoie să vă îngrijorați, deoarece este la fel de ușor de configurat, deși cu mai mulți pași! Veți putea să clonați un depozit GitHub și să îl rulați local și asta este tot ce trebuie să faceți.

Pasul 1: Descărcați și rulați Llama 2 Web GUI

Dacă ești familiarizat cu Difuzie stabilă și rulând-o local printr-o interfață grafică web, asta este în principiu. Depozitul GitHub al interfeței de utilizare web de la oobabooga este inspirat de asta și funcționează aproape în același mod.

Descarca depozitul legat mai sus
Alerga start_windows.bat, start_linux.sh, sau start_macos.sh în funcție de platforma pe care o folosești
Selectați GPU-ul dvs și permiteți-i să instaleze tot ce are nevoie

Pasul 2: Accesați interfața web Llama 2

Din cele de mai sus, puteți vedea că vă va oferi o adresă IP locală pentru a vă conecta la GUI web. Conectați-vă la acesta în browser și ar trebui să vedeți interfața grafică web. Faceți clic și familiarizați-vă cu interfața de utilizare. Mai întâi veți fi încărcat o fereastră de chat, dar nu va funcționa până când încărcați un model.

Pasul 3: Încărcați un model Llama 2

Acum va trebui să încărcați un model. Acest lucru va dura ceva timp, deoarece va trebui să îl descărcați, dar puteți face asta din interiorul interfeței grafice web.

Apasă pe Model filă în partea de sus
In dreapta, intra TheBloke/Llama-2-13B-chat-GPTQ și faceți clic Descarca
Dacă se descarcă, ar trebui să vedeți o bară de progres în promptul de comandă, pe măsură ce descarcă fișierele relevante.
Când se termină, reîmprospătați lista de modele din stânga și faceți clic pe modelul descărcat.
Clic Sarcină, asigurându-vă că acel model de încărcare spune GPTQ-for-LLaMa

Poate dura un moment până se încarcă, deoarece aceste modele necesită multă vRAM.

Pasul 4: Interacționează cu Llama 2!

Toate merg bine, acum ar trebui să aveți Llama 2 care rulează pe computer! Puteți interacționa cu acesta prin browser într-un mediu fără internet, atâta timp cât aveți hardware-ul necesar pentru a-l executa. Pe RTX 4080 cu 16 GB de vRAM poate genera aproape 20 de jetoane pe secundă, ceea ce este semnificativ mai rapid decât veți găsi în majoritatea planurilor gratuite pentru orice LLM, cum ar fi ChatGPT sau altfel.