Πώς να εκτελέσετε το Llama 2 τοπικά στο Mac ή τον υπολογιστή σας

Εάν έχετε ακούσει για το Llama 2 και θέλετε να το εκτελέσετε στον υπολογιστή σας, μπορείτε να το κάνετε εύκολα με μερικά προγράμματα δωρεάν.

Γρήγοροι Σύνδεσμοι

  • Απαιτήσεις
  • Πώς να εκτελέσετε το Llama 2 σε Mac ή Linux χρησιμοποιώντας το Ollama
  • Πώς να εκτελέσετε το Llama 2 σε Windows χρησιμοποιώντας ένα web GUI

Αν σας αρέσει η ιδέα του ChatGPT, Google Bard, Bing Chat, ή οποιονδήποτε από τους άλλους βοηθούς τεχνητής νοημοσύνης, τότε μπορεί να έχετε κάποιες ανησυχίες σχετικά με το απόρρητο, το κόστος ή περισσότερα. Εκεί μπαίνει το Llama 2. Το Llama 2 είναι ένα μοντέλο μεγάλης γλώσσας ανοιχτού κώδικα που αναπτύχθηκε από τη Meta και υπάρχουν παραλλαγές που κυμαίνονται από 7 δισεκατομμύρια έως 70 δισεκατομμύρια παραμέτρους.

Δεδομένου ότι είναι ένα LLM ανοιχτού κώδικα, μπορείτε να το τροποποιήσετε και να το εκτελέσετε με όποιον τρόπο θέλετε, σε οποιαδήποτε συσκευή. Αν θέλετε να το δοκιμάσετε σε μηχανή Linux, Mac ή Windows, μπορείτε εύκολα!

Απαιτήσεις

Θα χρειαστείτε τα ακόλουθα για να εκτελέσετε το Llama 2 τοπικά:

  • Ενα από τις καλύτερες GPU της Nvidia (μπορείτε να χρησιμοποιήσετε την AMD σε Linux)
  • Μια σύνδεση στο διαδίκτυο

Πώς να εκτελέσετε το Llama 2 σε Mac ή Linux χρησιμοποιώντας το Ollama

Εάν έχετε Mac, μπορείτε να χρησιμοποιήσετε το Olama για να εκτελέσετε το Llama 2. Είναι μακράν ο ευκολότερος τρόπος για να το κάνετε από όλες τις πλατφόρμες, καθώς απαιτεί ελάχιστη δουλειά για να γίνει αυτό. Το μόνο που χρειάζεστε είναι ένα Mac και χρόνος για να κατεβάσετε το LLM, καθώς είναι ένα μεγάλο αρχείο.

Βήμα 1: Κατεβάστε το Olama

Το πρώτο πράγμα που θα χρειαστεί να κάνετε είναι Κατεβάστε Ολάμα. Λειτουργεί σε Mac και Linux και διευκολύνει τη λήψη και την εκτέλεση πολλών μοντέλων, συμπεριλαμβανομένου του Llama 2. Μπορείτε ακόμη και να το εκτελέσετε σε ένα κοντέινερ Docker, εάν θέλετε με επιτάχυνση GPU, εάν θέλετε να το ρυθμίσετε εύκολα.

Μόλις γίνει λήψη του Ollama, εξαγάγετε το σε ένα φάκελο της επιλογής σας και Τρέξε το.

Βήμα 2: Κατεβάστε το μοντέλο Llama 2

Μόλις εγκατασταθεί το Ollama, εκτελέστε την παρακάτω εντολή να τραβήξει την παράμετρο 13 δισεκατομμυρίων μοντέλου Llama 2.

ollama pull llama2:13b

Αυτό μπορεί να διαρκέσει λίγο, οπότε δώστε του χρόνο να τρέξει. Είναι ένα αρχείο 7,4 GB και ενδέχεται να είναι αργό σε ορισμένες συνδέσεις.

Βήμα 3: Εκτελέστε το Llama 2 και αλληλεπιδράστε μαζί του

Επόμενο, εκτελέστε την παρακάτω εντολή για εκκίνηση και αλληλεπίδραση με το μοντέλο.

ollama run llama2

Αυτό θα ξεκινήσει στη συνέχεια το μοντέλο και μπορείτε να αλληλεπιδράσετε μαζί του. Τελείωσες!

Πώς να εκτελέσετε το Llama 2 σε Windows χρησιμοποιώντας ένα web GUI

Εάν χρησιμοποιείτε μηχάνημα Windows, τότε δεν χρειάζεται να ανησυχείτε, καθώς είναι εξίσου εύκολο να το ρυθμίσετε, αν και με περισσότερα βήματα! Θα μπορείτε να κλωνοποιήσετε ένα αποθετήριο GitHub και να το εκτελέσετε τοπικά, και αυτό είναι το μόνο που χρειάζεται να κάνετε.

Βήμα 1: Κατεβάστε και εκτελέστε το Llama 2 Web GUI

Εάν είστε εξοικειωμένοι με Σταθερή Διάχυση και να το εκτελείτε τοπικά μέσω ενός Web GUI, αυτό είναι βασικά. Αποθετήριο GitHub Web UI δημιουργίας κειμένου της oobabooga εμπνέεται από αυτό και λειτουργεί με τον ίδιο τρόπο.

  1. Κατεβάστε το αποθετήριο που συνδέεται παραπάνω
  2. Τρέξιμο start_windows.bat, start_linux.sh, ή start_macos.sh ανάλογα με την πλατφόρμα που χρησιμοποιείτε
  3. Επιλέξτε την GPU σας και αφήστε του να εγκαταστήσει όλα όσα χρειάζεται

Βήμα 2: Πρόσβαση στο Llama 2 Web GUI

Από τα παραπάνω, μπορείτε να δείτε ότι θα σας δώσει μια τοπική διεύθυνση IP για να συνδεθείτε στο web GUI. Συνδεθείτε σε αυτό στο πρόγραμμα περιήγησής σας και θα πρέπει να δείτε το web GUI. Κάντε κλικ γύρω και εξοικειωθείτε με τη διεπαφή χρήστη. Θα έχετε πρώτα φορτώσει ένα παράθυρο συνομιλίας, αλλά δεν θα λειτουργήσει μέχρι να φορτώσετε ένα μοντέλο.

Βήμα 3: Τοποθετήστε ένα μοντέλο Llama 2

Τώρα θα χρειαστεί να φορτώσετε ένα μοντέλο. Αυτό θα πάρει κάποιο χρόνο, καθώς θα χρειαστεί να το κατεβάσει, αλλά μπορείτε να το κάνετε από το εσωτερικό του γραφικού περιβάλλοντος Web.

  1. Κάντε κλικ στο Μοντέλο καρτέλα στο επάνω μέρος
  2. Στα δεξιά, μπείτε TheBloke/Llama-2-13B-chat-GPTQ και κάντε κλικ Κατεβάστε
  3. Εάν γίνεται λήψη, θα πρέπει να δείτε μια γραμμή προόδου στη γραμμή εντολών καθώς κατεβάζει τα σχετικά αρχεία.
  4. Όταν τελειώσει, ανανεώστε τη λίστα μοντέλων στα αριστερά και κάντε κλικ στο μοντέλο που έχετε λάβει.
  5. Κάντε κλικ Φορτώνω, φροντίζοντας να λέει ο φορτωτής μοντέλου GPTQ-για-LLaMa

Μπορεί να χρειαστεί λίγος χρόνος για να φορτώσει, καθώς αυτά τα μοντέλα απαιτούν πολλή vRAM.

Βήμα 4: Αλληλεπιδράστε με το Llama 2!

Όλα πάνε καλά, τώρα θα πρέπει να έχετε το Llama 2 να τρέχει στον υπολογιστή σας! Μπορείτε να αλληλεπιδράσετε μαζί του μέσω του προγράμματος περιήγησής σας σε περιβάλλον χωρίς internet, εφόσον διαθέτετε το απαραίτητο υλικό για να το εκτελέσετε. Στο δικό μου RTX 4080 με 16 GB vRAM μπορεί να δημιουργήσει με σχεδόν 20 μάρκες ανά δευτερόλεπτο, το οποίο είναι πολύ πιο γρήγορο από ό, τι θα βρείτε στα περισσότερα δωρεάν προγράμματα για οποιοδήποτε LLM όπως το ChatGPT ή άλλο.