Hur man kör Llama 2 lokalt på din Mac eller PC

Om du har hört talas om Llama 2 och vill köra den på din PC kan du göra det enkelt med några program gratis.

snabblänkar

  • Krav
  • Hur man kör Llama 2 på en Mac eller Linux med Ollama
  • Hur man kör Llama 2 på Windows med ett webbgränssnitt

Om du gillar tanken på ChatGPT, Google Bard, Bing Chat, eller någon av de andra AI-assistenterna, kan du ha vissa bekymmer som rör integritet, kostnader eller mer. Det är där Llama 2 kommer in. Llama 2 är en stor språkmodell med öppen källkod utvecklad av Meta, och det finns varianter som sträcker sig från 7 miljarder till 70 miljarder parametrar.

Med tanke på att det är en öppen källkod LLM kan du modifiera den och köra den på vilket sätt du vill, på vilken enhet som helst. Om du vill prova på en Linux-, Mac- eller Windows-maskin kan du enkelt!

Krav

Du behöver följande för att köra Llama 2 lokalt:

  • En av bästa Nvidia GPU: er (du kan använda AMD på Linux)
  • En internetuppkoppling

Hur man kör Llama 2 på en Mac eller Linux med Ollama

Om du har en Mac kan du använda Ollama för att köra Llama 2. Det är överlägset det enklaste sättet att göra det av alla plattformar, eftersom det kräver minimalt med arbete för att göra det. Allt du behöver är en Mac och tid att ladda ner LLM, eftersom det är en stor fil.

Steg 1: Ladda ner Ollama

Det första du behöver göra är ladda ner Ollama. Den körs på Mac och Linux och gör det enkelt att ladda ner och köra flera modeller, inklusive Llama 2. Du kan till och med köra det i en Docker-behållare om du vill med GPU-acceleration om du vill ha det enkelt att konfigurera.

När Ollama har laddats ner, extrahera den till en mapp efter eget val och kör det.

Steg 2: Ladda ner Llama 2-modellen

När Ollama är installerad, kör följande kommando att dra 13 miljarder parameter Llama 2-modellen.

ollama pull llama2:13b

Detta kan ta ett tag, så ge det tid att köra. Det är en 7,4 GB fil och kan vara långsam på vissa anslutningar.

Steg 3: Kör Llama 2 och interagera med den

Nästa, kör följande kommando att lansera och interagera med modellen.

ollama run llama2

Detta kommer sedan att starta modellen och du kan interagera med den. Du är klar!

Hur man kör Llama 2 på Windows med ett webbgränssnitt

Om du använder en Windows-maskin behöver du inte oroa dig eftersom den är lika enkel att installera, men med fler steg! Du kommer att kunna klona ett GitHub-förråd och köra det lokalt, och det är allt du behöver göra.

Steg 1: Ladda ner och kör Llama 2 Web GUI

Om du är bekant med Stabil diffusion och köra det lokalt genom ett webbgränssnitt, det är vad det i grunden är. oobaboogas textgenereringswebbgränssnitt GitHub-förråd är inspirerad av det och fungerar på väldigt samma sätt.

  1. Ladda ner arkivet länkat ovan
  2. Springa start_windows.bat, start_linux.sh, eller start_macos.sh beroende på vilken plattform du använder
  3. Välj din GPU och låt den installera allt den behöver

Steg 2: Få åtkomst till Llama 2 Web GUI

Från ovanstående kan du se att det ger dig en lokal IP-adress för att ansluta till webbgränssnittet. Anslut till den i din webbläsare och du bör se webbgränssnittet. Klicka runt och bekanta dig med användargränssnittet. Du har först laddat ett chattfönster, men det fungerar inte förrän du laddar en modell.

Steg 3: Ladda en Llama 2-modell

Nu måste du ladda en modell. Detta kommer att ta lite tid eftersom det kommer att behöva laddas ner det, men du kan göra det från insidan av webbgränssnittet.

  1. Klicka på Modell fliken överst
  2. Till höger, gå in TheBloke/Llama-2-13B-chat-GPTQ och klicka Ladda ner
  3. Om det håller på att laddas ner bör du se en förloppsindikator i din kommandotolk när den laddar ner de relevanta filerna.
  4. När det är klart, uppdatera modelllistan till vänster och klicka på den nedladdade modellen.
  5. Klick Ladda, se till att modelllastaren säger GPTQ-för-LLaMa

Det kan ta en stund för den att ladda, eftersom dessa modeller kräver mycket vRAM.

Steg 4: Interagera med Llama 2!

Allt går bra, du bör nu ha Llama 2 igång på din PC! Du kan interagera med den via din webbläsare i en miljö utan internet, så länge du har den hårdvara som krävs för att köra den. På min RTX 4080 med 16 GB vRAM kan den generera med nästan 20 tokens per sekund, vilket är betydligt snabbare än du hittar på de flesta gratisplaner för alla LLMs som ChatGPT eller annat.