Slik kjører du Llama 2 lokalt på din Mac eller PC

Hvis du har hørt om Llama 2 og ønsker å kjøre den på PC-en din, kan du enkelt gjøre det med noen få programmer gratis.

Hurtigkoblinger

Krav

Hvordan kjøre Llama 2 på en Mac eller Linux ved å bruke Ollama

Hvordan kjøre Llama 2 på Windows ved hjelp av en web-GUI

Hvis du liker ideen om ChatGPT, Google Bard, Bing Chat, eller noen av de andre AI-assistentene, kan det hende du har noen bekymringer knyttet til personvern, kostnader eller mer. Det er der Llama 2 kommer inn. Llama 2 er en åpen kildekode stor språkmodell utviklet av Meta, og det finnes varianter som spenner fra 7 milliarder til 70 milliarder parametere.

Gitt at det er en åpen kildekode LLM, kan du endre den og kjøre den på hvilken som helst måte du vil, på hvilken som helst enhet. Hvis du vil prøve det på en Linux-, Mac- eller Windows-maskin, kan du enkelt!

Krav

Du trenger følgende for å kjøre Llama 2 lokalt:

En av beste Nvidia GPUer (du kan bruke AMD på Linux)
En internettforbindelse

Hvordan kjøre Llama 2 på en Mac eller Linux ved å bruke Ollama

Hvis du har en Mac, kan du bruke Ollama til å kjøre Llama 2. Det er den desidert enkleste måten å gjøre det på av alle plattformene, siden det krever minimalt med arbeid å gjøre det. Alt du trenger er en Mac og tid til å laste ned LLM, siden det er en stor fil.

Trinn 1: Last ned Ollama

Det første du må gjøre er nedlasting Ollama. Den kjører på Mac og Linux og gjør det enkelt å laste ned og kjøre flere modeller, inkludert Llama 2. Du kan til og med kjøre den i en Docker-beholder hvis du vil med GPU-akselerasjon hvis du vil ha den enkelt konfigurert.

Når Ollama er lastet ned, pakke den ut til en mappe etter eget valg og kjøre den.

Trinn 2: Last ned Llama 2-modellen

Når Ollama er installert, kjør følgende kommando å trekke 13 milliarder parameter Llama 2-modellen.

ollama pull llama2:13b

Dette kan ta litt tid, så gi det tid til å løpe. Det er en 7,4 GB fil og kan være treg på enkelte tilkoblinger.

Trinn 3: Kjør Llama 2 og samhandle med den

Neste, kjør følgende kommando å lansere og samhandle med modellen.

ollama run llama2

Dette vil da starte modellen, og du kan samhandle med den. Du er ferdig!

Hvordan kjøre Llama 2 på Windows ved hjelp av en web-GUI

Hvis du bruker en Windows-maskin, er det ingen grunn til å bekymre deg, siden det er like enkelt å sette opp, men med flere trinn! Du vil kunne klone et GitHub-depot og kjøre det lokalt, og det er alt du trenger å gjøre.

Trinn 1: Last ned og kjør Llama 2 Web GUI

Hvis du er kjent med Stabil diffusjon og kjøre det lokalt gjennom et web-grensesnitt, det er det dette i utgangspunktet er. oobaboogas tekstgenerering Web UI GitHub-depot er inspirert av det og fungerer på veldig samme måte.

nedlasting depotet lenket ovenfor
Løpe start_windows.bat, start_linux.sh, eller start_macos.sh avhengig av hvilken plattform du bruker
Velg din GPU og la den installere alt den trenger

Trinn 2: Få tilgang til Llama 2 Web GUI

Fra ovenstående kan du se at det vil gi deg en lokal IP-adresse for å koble til web-GUI. Koble til den i nettleseren din, og du bør se web-GUI. Klikk deg rundt og gjør deg kjent med brukergrensesnittet. Du har først lastet et chattevindu, men det vil ikke fungere før du laster inn en modell.

Trinn 3: Last inn en Llama 2-modell

Nå må du laste inn en modell. Dette vil ta litt tid siden det må lastes ned, men du kan gjøre det fra innsiden av web-grensesnittet.

Klikk på Modell fanen øverst
Gå inn på høyre side TheBloke/Llama-2-13B-chat-GPTQ og klikk nedlasting
Hvis den laster ned, bør du se en fremdriftslinje i ledeteksten mens den laster ned de relevante filene.
Når den er ferdig, oppdaterer du modelllisten til venstre og klikker på den nedlastede modellen.
Klikk Laste, og sørg for at modelllasteren sier GPTQ-for-LLaMa

Det kan ta et øyeblikk før den lastes, siden disse modellene krever mye vRAM.

Trinn 4: Samhandle med Llama 2!

Alt går bra, du bør nå ha Llama 2 kjørende på PC-en din! Du kan samhandle med den gjennom nettleseren din i et miljø uten internett, så lenge du har den nødvendige maskinvaren for å utføre den. På min RTX 4080 med 16 GB vRAM kan den generere med nesten 20 tokens per sekund, noe som er betydelig raskere enn du finner på de fleste gratisplaner for noen LLM-er som ChatGPT eller annet.