Comment exécuter Llama 2 localement sur votre Mac ou PC

Si vous avez entendu parler de Llama 2 et souhaitez l'exécuter sur votre PC, vous pouvez le faire facilement avec quelques programmes gratuits.

Liens rapides

Exigences

Comment exécuter Llama 2 sur un Mac ou Linux en utilisant Ollama

Comment exécuter Llama 2 sur Windows à l'aide d'une interface graphique Web

Si vous aimez l'idée de ChatGPT, Google Barde, Chat Bing, ou l'un des autres assistants IA, vous pourriez alors avoir des inquiétudes concernant la confidentialité, les coûts, etc. C'est là qu'intervient Llama 2. Llama 2 est un grand modèle de langage open source développé par Meta, et il existe des variantes allant de 7 milliards à 70 milliards de paramètres.

Étant donné qu'il s'agit d'un LLM open source, vous pouvez le modifier et l'exécuter comme vous le souhaitez, sur n'importe quel appareil. Si vous souhaitez l'essayer sur une machine Linux, Mac ou Windows, vous pouvez facilement le faire !

Exigences

Vous aurez besoin des éléments suivants pour exécuter Llama 2 localement :

L'un des meilleurs GPU Nvidia (vous pouvez utiliser AMD sous Linux)
Une connexion internet

Comment exécuter Llama 2 sur un Mac ou Linux en utilisant Ollama

Si vous possédez un Mac, vous pouvez utiliser Ollama pour exécuter Llama 2. C'est de loin le moyen le plus simple de le faire parmi toutes les plates-formes, car cela nécessite un minimum de travail. Tout ce dont vous avez besoin est un Mac et du temps pour télécharger le LLM, car il s'agit d'un fichier volumineux.

Étape 1: Téléchargez Ollama

La première chose que vous devrez faire est télécharger Ollama. Il fonctionne sur Mac et Linux et facilite le téléchargement et l'exécution de plusieurs modèles, dont Llama 2. Vous pouvez même l'exécuter dans un conteneur Docker si vous le souhaitez avec l'accélération GPU si vous souhaitez le configurer facilement.

Une fois Ollama téléchargé, extrayez-le dans un dossier de votre choix et exécuter.

Étape 2: Téléchargez le modèle Llama 2

Une fois Ollama installé, exécutez la commande suivante pour extraire le modèle Llama 2 à 13 milliards de paramètres.

ollama pull llama2:13b

Cela peut prendre un certain temps, alors laissez-lui le temps de s'exécuter. Il s'agit d'un fichier de 7,4 Go et peut être lent sur certaines connexions.

Étape 3: Exécutez Llama 2 et interagissez avec lui

Suivant, exécutez la commande suivante pour lancer et interagir avec le modèle.

ollama run llama2

Cela lancera alors le modèle et vous pourrez interagir avec lui. Vous avez terminé!

Comment exécuter Llama 2 sur Windows à l'aide d'une interface graphique Web

Si vous utilisez une machine Windows, vous n'avez pas à vous inquiéter car il est tout aussi simple à configurer, mais avec plus d'étapes! Vous pourrez cloner un référentiel GitHub et l'exécuter localement, et c'est tout ce que vous avez à faire.

Étape 1: Téléchargez et exécutez l'interface graphique Web de Llama 2

Si vous connaissez Diffusion stable et l'exécuter localement via une interface graphique Web, c'est essentiellement ce que c'est. Dépôt GitHub de l'interface utilisateur Web de génération de texte d'oobabooga s'en inspire et fonctionne à peu près de la même manière.

Télécharger le référentiel lié ci-dessus
Courir start_windows.bat, start_linux.sh, ou start_macos.sh selon la plateforme que vous utilisez
Sélectionnez votre GPU et lui permettre d'installer tout ce dont il a besoin

Étape 2: Accédez à l'interface graphique Web de Llama 2

D’après ce qui précède, vous pouvez voir qu’il vous donnera une adresse IP locale pour vous connecter à l’interface graphique Web. Connectez-vous-y dans votre navigateur et vous devriez voir l'interface graphique Web. Cliquez et familiarisez-vous avec l’interface utilisateur. Vous aurez d'abord chargé une fenêtre de discussion, mais elle ne fonctionnera pas tant que vous n'aurez pas chargé un modèle.

Étape 3: Charger un modèle Llama 2

Vous devrez maintenant charger un modèle. Cela prendra un certain temps car il faudra le télécharger, mais vous pouvez le faire depuis l'interface graphique Web.

Clique le Modèle onglet en haut
À droite, entrez TheBloke/Llama-2-13B-chat-GPTQ et cliquez Télécharger
S'il s'agit d'un téléchargement, vous devriez voir une barre de progression dans votre invite de commande lors du téléchargement des fichiers concernés.
Une fois terminé, actualisez la liste des modèles sur la gauche et cliquez sur le modèle téléchargé.
Cliquez sur Charger, en vous assurant que le chargeur de modèle indique GPTQ-pour-LLaMa

Le chargement peut prendre un moment, car ces modèles nécessitent beaucoup de vRAM.

Étape 4: Interagissez avec Llama 2 !

Tout se passe bien, vous devriez maintenant avoir Llama 2 en cours d'exécution sur votre PC! Vous pouvez interagir avec lui via votre navigateur dans un environnement sans Internet, à condition que vous disposiez du matériel nécessaire pour l'exécuter. Sur mon RTX 4080 avec 16 Go de vRAM, il peut générer près de 20 jetons par seconde, ce qui est nettement plus rapide que ce que vous trouverez sur la plupart des forfaits gratuits pour tous les LLM comme ChatGPT ou autre.