Hvis du har hørt om Llama 2 og ønsker å kjøre den på PC-en din, kan du enkelt gjøre det med noen få programmer gratis.
Hurtigkoblinger
- Krav
- Hvordan kjøre Llama 2 på en Mac eller Linux ved å bruke Ollama
- Hvordan kjøre Llama 2 på Windows ved hjelp av en web-GUI
Hvis du liker ideen om ChatGPT, Google Bard, Bing Chat, eller noen av de andre AI-assistentene, kan det hende du har noen bekymringer knyttet til personvern, kostnader eller mer. Det er der Llama 2 kommer inn. Llama 2 er en åpen kildekode stor språkmodell utviklet av Meta, og det finnes varianter som spenner fra 7 milliarder til 70 milliarder parametere.
Gitt at det er en åpen kildekode LLM, kan du endre den og kjøre den på hvilken som helst måte du vil, på hvilken som helst enhet. Hvis du vil prøve det på en Linux-, Mac- eller Windows-maskin, kan du enkelt!
Krav
Du trenger følgende for å kjøre Llama 2 lokalt:
- En av beste Nvidia GPUer (du kan bruke AMD på Linux)
- En internettforbindelse
Hvordan kjøre Llama 2 på en Mac eller Linux ved å bruke Ollama
Hvis du har en Mac, kan du bruke Ollama til å kjøre Llama 2. Det er den desidert enkleste måten å gjøre det på av alle plattformene, siden det krever minimalt med arbeid å gjøre det. Alt du trenger er en Mac og tid til å laste ned LLM, siden det er en stor fil.
Trinn 1: Last ned Ollama
Det første du må gjøre er nedlasting Ollama. Den kjører på Mac og Linux og gjør det enkelt å laste ned og kjøre flere modeller, inkludert Llama 2. Du kan til og med kjøre den i en Docker-beholder hvis du vil med GPU-akselerasjon hvis du vil ha den enkelt konfigurert.
Når Ollama er lastet ned, pakke den ut til en mappe etter eget valg og kjøre den.
Trinn 2: Last ned Llama 2-modellen
Når Ollama er installert, kjør følgende kommando å trekke 13 milliarder parameter Llama 2-modellen.
ollama pull llama2:13b
Dette kan ta litt tid, så gi det tid til å løpe. Det er en 7,4 GB fil og kan være treg på enkelte tilkoblinger.
Trinn 3: Kjør Llama 2 og samhandle med den
Neste, kjør følgende kommando å lansere og samhandle med modellen.
ollama run llama2
Dette vil da starte modellen, og du kan samhandle med den. Du er ferdig!
Hvordan kjøre Llama 2 på Windows ved hjelp av en web-GUI
Hvis du bruker en Windows-maskin, er det ingen grunn til å bekymre deg, siden det er like enkelt å sette opp, men med flere trinn! Du vil kunne klone et GitHub-depot og kjøre det lokalt, og det er alt du trenger å gjøre.
Trinn 1: Last ned og kjør Llama 2 Web GUI
Hvis du er kjent med Stabil diffusjon og kjøre det lokalt gjennom et web-grensesnitt, det er det dette i utgangspunktet er. oobaboogas tekstgenerering Web UI GitHub-depot er inspirert av det og fungerer på veldig samme måte.
- nedlasting depotet lenket ovenfor
- Løpe start_windows.bat, start_linux.sh, eller start_macos.sh avhengig av hvilken plattform du bruker
- Velg din GPU og la den installere alt den trenger
Trinn 2: Få tilgang til Llama 2 Web GUI
Fra ovenstående kan du se at det vil gi deg en lokal IP-adresse for å koble til web-GUI. Koble til den i nettleseren din, og du bør se web-GUI. Klikk deg rundt og gjør deg kjent med brukergrensesnittet. Du har først lastet et chattevindu, men det vil ikke fungere før du laster inn en modell.
Trinn 3: Last inn en Llama 2-modell
Nå må du laste inn en modell. Dette vil ta litt tid siden det må lastes ned, men du kan gjøre det fra innsiden av web-grensesnittet.
- Klikk på Modell fanen øverst
- Gå inn på høyre side TheBloke/Llama-2-13B-chat-GPTQ og klikk nedlasting
- Hvis den laster ned, bør du se en fremdriftslinje i ledeteksten mens den laster ned de relevante filene.
- Når den er ferdig, oppdaterer du modelllisten til venstre og klikker på den nedlastede modellen.
- Klikk Laste, og sørg for at modelllasteren sier GPTQ-for-LLaMa
Det kan ta et øyeblikk før den lastes, siden disse modellene krever mye vRAM.
Trinn 4: Samhandle med Llama 2!
Alt går bra, du bør nå ha Llama 2 kjørende på PC-en din! Du kan samhandle med den gjennom nettleseren din i et miljø uten internett, så lenge du har den nødvendige maskinvaren for å utføre den. På min RTX 4080 med 16 GB vRAM kan den generere med nesten 20 tokens per sekund, noe som er betydelig raskere enn du finner på de fleste gratisplaner for noen LLM-er som ChatGPT eller annet.