Hoe u Llama 2 lokaal op uw Mac of pc kunt uitvoeren

Als je van Llama 2 hebt gehoord en het op je pc wilt gebruiken, kun je dat eenvoudig doen met een paar gratis programma's.

Snelle koppelingen

Vereisten

Hoe Llama 2 op een Mac of Linux te draaien met Ollama

Hoe Llama 2 op Windows te draaien met behulp van een web-GUI

Als je het idee leuk vindt ChatGPT, Google Bard, Bing-chat, of een van de andere AI-assistenten, dan heb je misschien wat zorgen over bijvoorbeeld privacy, kosten of meer. Dat is waar Lama 2 in beeld komt. Llama 2 is een open-source groottaalmodel ontwikkeld door Meta, en er zijn varianten variërend van 7 miljard tot 70 miljard parameters.

Aangezien het een open-source LLM is, kunt u het aanpassen en op elke gewenste manier en op elk apparaat uitvoeren. Als je het eens wilt proberen op een Linux-, Mac- of Windows-machine, dan kan dat eenvoudig!

Vereisten

Je hebt het volgende nodig om Llama 2 lokaal uit te voeren:

Een van de beste Nvidia GPU's (je kunt AMD op Linux gebruiken)
Een internetverbinding

Hoe Llama 2 op een Mac of Linux te draaien met Ollama

Als je een Mac hebt, kun je Ollama gebruiken om Llama 2 uit te voeren. Het is veruit de gemakkelijkste manier van alle platforms, omdat er minimaal werk voor nodig is. Het enige wat je nodig hebt is een Mac en tijd om de LLM te downloaden, aangezien het een groot bestand is.

Stap 1: Ollama downloaden

Het eerste dat u hoeft te doen is downloaden Ollama. Het draait op Mac en Linux en maakt het eenvoudig om meerdere modellen te downloaden en uit te voeren, waaronder Llama 2. Je kunt het zelfs in een Docker-container uitvoeren als je dat wilt, met GPU-versnelling als je het eenvoudig wilt laten configureren.

Zodra Ollama is gedownload, pak het uit naar een map naar keuze en voer het uit.

Stap 2: Download het Llama 2-model

Zodra Ollama is geïnstalleerd, voer de volgende opdracht uit om het Llama 2-model met 13 miljard parameters te trekken.

ollama pull llama2:13b

Dit kan even duren, dus geef het de tijd om uit te voeren. Het is een bestand van 7,4 GB en kan bij sommige verbindingen traag zijn.

Stap 3: Voer Llama 2 uit en communiceer ermee

Volgende, voer de volgende opdracht uit om het model te starten en er interactie mee te hebben.

ollama run llama2

Hierdoor wordt het model gestart en kunt u ermee communiceren. Je bent klaar!

Hoe Llama 2 op Windows te draaien met behulp van een web-GUI

Als u een Windows-machine gebruikt, hoeft u zich geen zorgen te maken, want het is net zo eenvoudig in te stellen, maar met meer stappen! Je kunt een GitHub-repository klonen en deze lokaal uitvoeren, en dat is alles wat je hoeft te doen.

Stap 1: Download en voer de Llama 2 Web GUI uit

Als je bekend bent met Stabiele diffusie en het lokaal via een web-GUI uitvoeren, dat is wat dit in feite is. oobabooga's tekstgeneratie Web UI GitHub-repository is daardoor geïnspireerd en werkt grotendeels op dezelfde manier.

Downloaden de hierboven gelinkte repository
Loop start_windows.bat, start_linux.sh, of start_macos.sh afhankelijk van welk platform u gebruikt
Selecteer uw GPU en laat het alles installeren wat het nodig heeft

Stap 2: Toegang tot de Llama 2 Web GUI

Uit het bovenstaande kunt u zien dat het u een lokaal IP-adres geeft om verbinding te maken met de web-GUI. Maak er verbinding mee in uw browser en u zou de web-GUI moeten zien. Klik rond en maak uzelf vertrouwd met de gebruikersinterface. U heeft eerst een chatvenster geladen, maar dit werkt pas nadat u een model hebt geladen.

Stap 3: Laad een Llama 2-model

Nu moet je een model laden. Dit zal enige tijd duren omdat het moet worden gedownload, maar u kunt dat doen vanuit de web-GUI.

Klik op de Model tabblad bovenaan
Aan de rechterkant, ga naar binnen TheBloke/Llama-2-13B-chat-GPTQ en klik Downloaden
Als het aan het downloaden is, zou u een voortgangsbalk in uw opdrachtprompt moeten zien terwijl de relevante bestanden worden gedownload.
Als het klaar is, vernieuwt u de modellenlijst aan de linkerkant en klikt u op het gedownloade model.
Klik Laden, en zorg ervoor dat de modellader zegt GPTQ-voor-LLaMa

Het kan even duren voordat het is geladen, omdat deze modellen veel vRAM vereisen.

Stap 4: Communiceer met Lama 2!

Als alles goed gaat, zou Llama 2 nu op je pc moeten staan! U kunt er via uw browser mee communiceren in een omgeving zonder internet, zolang u over de hardware beschikt die nodig is om het uit te voeren. Op mijn RTX 4080 met 16 GB vRAM kan het bijna 20 tokens per seconde genereren, wat aanzienlijk sneller is dan je zult vinden bij de meeste gratis abonnementen voor LLM's zoals ChatGPT of iets anders.