Come eseguire Llama 2 localmente sul tuo Mac o PC

Se hai sentito parlare di Llama 2 e vuoi eseguirlo sul tuo PC, puoi farlo facilmente con alcuni programmi gratuiti.

Link veloci

Requisiti

Come eseguire Llama 2 su un Mac o Linux utilizzando Ollama

Come eseguire Llama 2 su Windows utilizzando una GUI Web

Se ti piace l'idea di ChatGPT, Google Bardo, BingChato uno qualsiasi degli altri assistenti IA, potresti avere alcune preoccupazioni relative a privacy, costi o altro. È qui che entra in gioco Llama 2. Llama 2 è un modello linguistico di grandi dimensioni open source sviluppato da Meta e esistono varianti che vanno da 7 miliardi a 70 miliardi di parametri.

Dato che si tratta di un LLM open source, puoi modificarlo ed eseguirlo nel modo che preferisci, su qualsiasi dispositivo. Se vuoi provarlo su una macchina Linux, Mac o Windows, puoi farlo facilmente!

Requisiti

Avrai bisogno di quanto segue per eseguire Llama 2 localmente:

Uno di le migliori GPU Nvidia (puoi usare AMD su Linux)
Una connessione Internet

Come eseguire Llama 2 su un Mac o Linux utilizzando Ollama

Se hai un Mac, puoi utilizzare Ollama per eseguire Llama 2. È di gran lunga il modo più semplice per farlo tra tutte le piattaforme, poiché richiede un lavoro minimo per farlo. Tutto ciò di cui hai bisogno è un Mac e tempo per scaricare LLM, poiché è un file di grandi dimensioni.

Passaggio 1: scarica Ollama

La prima cosa che dovrai fare è scaricamento Ollama. Funziona su Mac e Linux e semplifica il download e l'esecuzione di più modelli, incluso Llama 2. Puoi anche eseguirlo in un contenitore Docker se lo desideri con l'accelerazione GPU se desideri configurarlo facilmente.

Una volta scaricato Ollama, estrarlo in una cartella di tua scelta e eseguirlo.

Passaggio 2: scarica il modello Llama 2

Una volta installato Ollama, eseguire il seguente comando per estrarre il modello Llama 2 da 13 miliardi di parametri.

ollama pull llama2:13b

L'operazione potrebbe richiedere del tempo, quindi dagli il tempo di eseguire. È un file da 7,4 GB e potrebbe essere lento su alcune connessioni.

Passaggio 3: esegui Llama 2 e interagisci con esso

Prossimo, eseguire il seguente comando per avviare e interagire con il modello.

ollama run llama2

Questo avvierà quindi il modello e potrai interagire con esso. Hai finito!

Come eseguire Llama 2 su Windows utilizzando una GUI Web

Se utilizzi un computer Windows, non devi preoccuparti perché è altrettanto semplice da configurare, anche se richiede più passaggi! Potrai clonare un repository GitHub ed eseguirlo localmente, e questo è tutto ciò che devi fare.

Passaggio 1: scarica ed esegui la GUI Web di Llama 2

Se hai familiarità con Diffusione stabile ed eseguirlo localmente tramite una GUI Web, ecco di cosa si tratta fondamentalmente. Repository GitHub dell'interfaccia utente Web per la generazione di testo di oobabooga si ispira a questo e funziona più o meno allo stesso modo.

Scaricamento il repository linkato sopra
Correre start_windows.bat, start_linux.sh, O start_macos.sh a seconda della piattaforma che stai utilizzando
Seleziona la tua GPU e consentirgli di installare tutto ciò di cui ha bisogno

Passaggio 2: accedi alla GUI Web di Llama 2

Da quanto sopra, puoi vedere che ti fornirà un indirizzo IP locale per connetterti alla GUI web. Collegati ad esso nel tuo browser e dovresti vedere la GUI web. Fai clic e acquisisci familiarità con l'interfaccia utente. Avrai prima caricato una finestra di chat, ma non funzionerà finché non caricherai un modello.

Passaggio 3: carica un modello di Llama 2

Ora dovrai caricare un modello. Questa operazione richiederà del tempo poiché sarà necessario scaricarlo, ma puoi farlo dall'interno della GUI Web.

Clicca il Modello scheda in alto
A destra, entra TheBloke/Llama-2-13B-chat-GPTQ e fare clic Scaricamento
Se è in fase di download, dovresti vedere una barra di avanzamento nel prompt dei comandi mentre scarica i file rilevanti.
Al termine, aggiorna l'elenco dei modelli a sinistra e fai clic sul modello scaricato.
Clic Carico, assicurandosi che il caricatore del modello indichi GPTQ-per-LLaMa

Il caricamento potrebbe richiedere un po' di tempo, poiché questi modelli richiedono molta vRAM.

Passaggio 4: interagisci con Lama 2!

Tutto sta andando bene, ora dovresti avere Llama 2 in esecuzione sul tuo PC! Puoi interagire con esso tramite il tuo browser in un ambiente senza Internet, purché tu abbia l'hardware necessario per eseguirlo. Sulla mia RTX 4080 con 16 GB di vRAM può generare quasi 20 token al secondo, che è significativamente più veloce di quanto troverai sulla maggior parte dei piani gratuiti per qualsiasi LLM come ChatGPT o altro.