So führen Sie Llama 2 lokal auf Ihrem Mac oder PC aus

Wenn Sie von Llama 2 gehört haben und es auf Ihrem PC ausführen möchten, können Sie dies problemlos mit einigen kostenlosen Programmen tun.

Quicklinks

Anforderungen

So führen Sie Llama 2 mit Ollama auf einem Mac oder Linux aus

So führen Sie Llama 2 unter Windows über eine Web-GUI aus

Wenn Ihnen die Idee gefällt ChatGPT, Google Bard, Bing-Chat, oder einen der anderen KI-Assistenten, dann haben Sie möglicherweise Bedenken in Bezug auf Datenschutz, Kosten oder mehr. Hier kommt Llama 2 ins Spiel. Llama 2 ist ein von Meta entwickeltes Open-Source-Modell für große Sprachen. Es gibt Varianten mit 7 bis 70 Milliarden Parametern.

Da es sich um ein Open-Source-LLM handelt, können Sie es modifizieren und beliebig auf jedem Gerät ausführen. Wenn Sie es auf einem Linux-, Mac- oder Windows-Rechner ausprobieren möchten, können Sie das ganz einfach tun!

Anforderungen

Sie benötigen Folgendes, um Llama 2 lokal auszuführen:

Einer der beste Nvidia-GPUs (Sie können AMD unter Linux verwenden)
Eine Internetverbindung

So führen Sie Llama 2 mit Ollama auf einem Mac oder Linux aus

Wenn Sie einen Mac haben, können Sie Ollama verwenden, um Llama 2 auszuführen. Dies ist von allen Plattformen bei weitem die einfachste Möglichkeit, da hierfür nur minimaler Aufwand erforderlich ist. Sie benötigen lediglich einen Mac und Zeit zum Herunterladen des LLM, da es sich um eine große Datei handelt.

Schritt 1: Laden Sie Ollama herunter

Das erste, was Sie tun müssen, ist herunterladen Ollama. Es läuft auf Mac und Linux und erleichtert das Herunterladen und Ausführen mehrerer Modelle, einschließlich Llama 2. Sie können es sogar in einem Docker-Container ausführen, wenn Sie möchten, mit GPU-Beschleunigung, wenn Sie es einfach konfigurieren möchten.

Sobald Ollama heruntergeladen ist, Extrahieren Sie es in einen Ordner Ihrer Wahl und starte es.

Schritt 2: Laden Sie das Llama 2-Modell herunter

Sobald Ollama installiert ist, Führen Sie den folgenden Befehl aus um das 13-Milliarden-Parameter-Llama-2-Modell abzurufen.

ollama pull llama2:13b

Dies kann eine Weile dauern, also geben Sie ihm Zeit zum Ausführen. Es handelt sich um eine 7,4-GB-Datei, die bei einigen Verbindungen möglicherweise langsam ist.

Schritt 3: Führen Sie Llama 2 aus und interagieren Sie damit

Nächste, Führen Sie den folgenden Befehl aus um das Modell zu starten und mit ihm zu interagieren.

ollama run llama2

Dadurch wird das Modell gestartet und Sie können mit ihm interagieren. Du bist fertig!

So führen Sie Llama 2 unter Windows über eine Web-GUI aus

Wenn Sie einen Windows-Rechner verwenden, brauchen Sie sich keine Sorgen zu machen, denn die Einrichtung ist genauso einfach, allerdings mit mehr Schritten! Sie können ein GitHub-Repository klonen und lokal ausführen, und das ist alles, was Sie tun müssen.

Schritt 1: Laden Sie die Llama 2-Web-GUI herunter und führen Sie sie aus

Wenn Sie damit vertraut sind Stabile Verbreitung und es lokal über eine Web-GUI auszuführen, das ist es im Grunde. oobaboogas Web-UI-GitHub-Repository zur Textgenerierung ist davon inspiriert und funktioniert ganz ähnlich.

Herunterladen das oben verlinkte Repository
Laufen start_windows.bat, start_linux.sh, oder start_macos.sh abhängig davon, welche Plattform Sie verwenden
Wählen Sie Ihre GPU aus und erlauben Sie ihm, alles zu installieren, was es benötigt

Schritt 2: Greifen Sie auf die Web-GUI von Llama 2 zu

Wie Sie oben sehen können, erhalten Sie eine lokale IP-Adresse für die Verbindung mit der Web-GUI. Stellen Sie in Ihrem Browser eine Verbindung her und Sie sollten die Web-GUI sehen. Klicken Sie sich um und machen Sie sich mit der Benutzeroberfläche vertraut. Sie haben zunächst ein Chat-Fenster geladen, aber es funktioniert erst, wenn Sie ein Modell laden.

Schritt 3: Laden Sie ein Llama 2-Modell

Jetzt müssen Sie ein Modell laden. Dies wird einige Zeit in Anspruch nehmen, da das Herunterladen erforderlich ist. Sie können dies jedoch über die Web-GUI tun.

Drücke den Modell Registerkarte oben
Geben Sie rechts ein TheBloke/Llama-2-13B-chat-GPTQ und klicken Herunterladen
Während des Downloads sollte in Ihrer Eingabeaufforderung ein Fortschrittsbalken angezeigt werden, während die relevanten Dateien heruntergeladen werden.
Wenn der Vorgang abgeschlossen ist, aktualisieren Sie die Modellliste auf der linken Seite und klicken Sie auf das heruntergeladene Modell.
Klicken Belastung, stellen Sie sicher, dass der Modelllader sagt GPTQ-für-LLaMa

Das Laden kann einen Moment dauern, da diese Modelle viel vRAM benötigen.

Schritt 4: Interagiere mit Lama 2!

Alles läuft gut, jetzt sollte Llama 2 auf Ihrem PC laufen! Sie können damit über Ihren Browser in einer Umgebung ohne Internet interagieren, sofern Sie über die für die Ausführung erforderliche Hardware verfügen. Auf meiner RTX 4080 mit 16 GB vRAM kann es fast 20 Token pro Sekunde generieren, was deutlich schneller ist als bei den meisten kostenlosen Plänen für LLMs wie ChatGPT oder andere.