Sådan kører du Llama 2 lokalt på din Mac eller pc

Hvis du har hørt om Llama 2 og vil køre det på din pc, kan du nemt gøre det med et par programmer gratis.

hurtige links

  • Krav
  • Sådan kører du Llama 2 på en Mac eller Linux ved hjælp af Ollama
  • Sådan kører du Llama 2 på Windows ved hjælp af en web-GUI

Hvis du kan lide ideen om ChatGPT, Google Bard, Bing Chat, eller nogen af ​​de andre AI-assistenter, så kan du have nogle bekymringer i forbindelse med f.eks. privatliv, omkostninger eller mere. Det er her, Llama 2 kommer ind. Llama 2 er en open source stor sprogmodel udviklet af Meta, og der er varianter, der spænder fra 7 milliarder til 70 milliarder parametre.

Da det er en open source LLM, kan du ændre den og køre den på enhver måde, du vil, på enhver enhed. Hvis du vil prøve det på en Linux-, Mac- eller Windows-maskine, kan du nemt!

Krav

Du skal bruge følgende for at køre Llama 2 lokalt:

  • En af de bedste Nvidia GPU'er (du kan bruge AMD på Linux)
  • En internetforbindelse

Sådan kører du Llama 2 på en Mac eller Linux ved hjælp af Ollama

Hvis du har en Mac, kan du bruge Ollama til at køre Llama 2. Det er langt den nemmeste måde at gøre det på af alle platforme, da det kræver minimalt arbejde at gøre det. Alt du behøver er en Mac og tid til at downloade LLM, da det er en stor fil.

Trin 1: Download Ollama

Den første ting du skal gøre er Hent Ollama. Det kører på Mac og Linux og gør det nemt at downloade og køre flere modeller, inklusive Llama 2. Du kan endda køre det i en Docker-container, hvis du vil med GPU-acceleration, hvis du gerne vil have det nemt konfigureret.

Når Ollama er downloadet, udpakke det til en mappe efter eget valg og Kør det.

Trin 2: Download Llama 2-modellen

Når Ollama er installeret, kør følgende kommando at trække 13 milliarder parameter Llama 2-modellen.

ollama pull llama2:13b

Dette kan tage et stykke tid, så giv det tid til at køre. Det er en 7,4 GB fil og kan være langsom på nogle forbindelser.

Trin 3: Kør Llama 2 og interager med den

Næste, kør følgende kommando at starte og interagere med modellen.

ollama run llama2

Dette vil derefter starte modellen, og du kan interagere med den. Du er færdig!

Sådan kører du Llama 2 på Windows ved hjælp af en web-GUI

Hvis du bruger en Windows-maskine, så er der ingen grund til at bekymre sig, da det er lige så nemt at sætte op, dog med flere trin! Du vil være i stand til at klone et GitHub-lager og køre det lokalt, og det er alt, du skal gøre.

Trin 1: Download og kør Llama 2 Web GUI

Hvis du er bekendt med Stabil diffusion og køre det lokalt gennem en web-GUI, det er, hvad det grundlæggende er. oobaboogas tekstgenerering Web UI GitHub repository er inspireret af det og fungerer på meget samme måde.

  1. Hent depotet, der er linket ovenfor
  2. Løb start_windows.bat, start_linux.sh, eller start_macos.sh afhængig af hvilken platform du bruger
  3. Vælg din GPU og lad den installere alt, hvad den har brug for

Trin 2: Få adgang til Llama 2 Web GUI

Fra ovenstående kan du se, at det vil give dig en lokal IP-adresse for at oprette forbindelse til web-GUI. Opret forbindelse til den i din browser, og du bør se web-GUI. Klik rundt og gør dig bekendt med brugergrænsefladen. Du har først indlæst et chatvindue, men det virker ikke, før du indlæser en model.

Trin 3: Indlæs en Llama 2-model

Nu skal du indlæse en model. Dette vil tage noget tid, da det skal downloades, men du kan gøre det inde fra web-GUI.

  1. Klik på Model fanen øverst
  2. Indtast til højre TheBloke/Llama-2-13B-chat-GPTQ og klik Hent
  3. Hvis det downloader, bør du se en statuslinje i din kommandoprompt, mens den downloader de relevante filer.
  4. Når det er færdigt, skal du opdatere modellisten til venstre og klikke på den downloadede model.
  5. Klik belastning, og sørg for, at modellæsseren siger GPTQ-for-LLaMa

Det kan tage et øjeblik for det at indlæse, da disse modeller kræver meget vRAM.

Trin 4: Interager med Llama 2!

Alt går godt, du skulle nu have Llama 2 kørende på din pc! Du kan interagere med det gennem din browser i et miljø uden internet, så længe du har den nødvendige hardware til at udføre den. På min RTX 4080 med 16 GB vRAM kan den generere med næsten 20 tokens i sekundet, hvilket er betydeligt hurtigere, end du finder på de fleste gratis planer for nogen LLM'er som ChatGPT eller andet.