Cómo ejecutar Llama 2 localmente en tu Mac o PC

Si has oído hablar de Llama 2 y quieres ejecutarlo en tu PC, puedes hacerlo fácilmente con algunos programas de forma gratuita.

enlaces rápidos

Requisitos

Cómo ejecutar Llama 2 en una Mac o Linux usando Ollama

Cómo ejecutar Llama 2 en Windows usando una GUI web

Si te gusta la idea de ChatGPT, bardo de google, Chat de Bing, o cualquiera de los otros asistentes de IA, es posible que tenga algunas inquietudes relacionadas con la privacidad, los costos o más. Ahí es donde entra Llama 2. Llama 2 es un modelo de lenguaje grande de código abierto desarrollado por Meta, y existen variantes que van desde 7 mil millones a 70 mil millones de parámetros.

Dado que es un LLM de código abierto, puedes modificarlo y ejecutarlo de la forma que quieras, en cualquier dispositivo. Si quieres probarlo en una máquina Linux, Mac o Windows, ¡puedes hacerlo fácilmente!

Requisitos

Necesitará lo siguiente para ejecutar Llama 2 localmente:

Uno de los mejores GPU Nvidia (puedes usar AMD en Linux)
Una conexión a internet

Cómo ejecutar Llama 2 en una Mac o Linux usando Ollama

Si tienes una Mac, puedes usar Ollama para ejecutar Llama 2. Es, con diferencia, la forma más sencilla de hacerlo de todas las plataformas, ya que requiere un trabajo mínimo para hacerlo. Todo lo que necesitas es una Mac y tiempo para descargar el LLM, ya que es un archivo grande.

Paso 1: Descarga Ollama

Lo primero que tendrás que hacer es descargar Ollama. Se ejecuta en Mac y Linux y facilita la descarga y ejecución de múltiples modelos, incluido Llama 2. Incluso puede ejecutarlo en un contenedor Docker si lo desea con aceleración de GPU si desea configurarlo fácilmente.

Una vez descargado Ollama, extraerlo a una carpeta de tu elección y ejecutarlo.

Paso 2: Descarga el modelo Llama 2

Una vez instalado Ollama, ejecuta el siguiente comando para sacar el modelo Llama 2 de 13 mil millones de parámetros.

ollama pull llama2:13b

Esto puede tardar un poco, así que dale tiempo para que se ejecute. Es un archivo de 7,4 GB y puede resultar lento en algunas conexiones.

Paso 3: ejecuta Llama 2 e interactúa con él

Próximo, ejecuta el siguiente comando para lanzar e interactuar con el modelo.

ollama run llama2

Esto iniciará el modelo y podrá interactuar con él. ¡Ya terminaste!

Cómo ejecutar Llama 2 en Windows usando una GUI web

Si está utilizando una máquina con Windows, no debe preocuparse, ya que es igual de fácil de configurar, ¡aunque con más pasos! Podrás clonar un repositorio de GitHub y ejecutarlo localmente, y eso es todo lo que necesitas hacer.

Paso 1: descargue y ejecute la GUI web de Llama 2

Si estás familiarizado con Difusión estable y ejecutarlo localmente a través de una GUI web, eso es básicamente lo que es. Repositorio GitHub de la interfaz de usuario web de generación de texto de oobabooga se inspira en eso y funciona de manera muy similar.

Descargar el repositorio vinculado arriba
Correr inicio_windows.bat, inicio_linux.sh, o inicio_macos.sh dependiendo de la plataforma que estés usando
Selecciona tu GPU y permitirle instalar todo lo que necesita

Paso 2: acceda a la GUI web de Llama 2

De lo anterior, puede ver que le dará una dirección IP local para conectarse a la GUI web. Conéctese a él en su navegador y debería ver la GUI web. Haga clic y familiarícese con la interfaz de usuario. Primero habrás cargado una ventana de chat, pero no funcionará hasta que cargues un modelo.

Paso 3: carga un modelo Llama 2

Ahora necesitarás cargar un modelo. Esto llevará algún tiempo ya que será necesario descargarlo, pero puede hacerlo desde la GUI web.

Haga clic en el Modelo pestaña en la parte superior
A la derecha, ingresa TheBloke/Llama-2-13B-chat-GPTQ y haga clic Descargar
Si se está descargando, debería ver una barra de progreso en el símbolo del sistema mientras descarga los archivos relevantes.
Cuando termine, actualice la lista de modelos a la izquierda y haga clic en el modelo descargado.
Hacer clic Carga, asegurándose de que el cargador de modelos diga GPTQ-para-LLaMa

Es posible que tarde un poco en cargarse, ya que estos modelos requieren mucha vRAM.

Paso 4: ¡Interactúa con Llama 2!

Todo va bien, ¡ahora deberías tener Llama 2 ejecutándose en tu PC! Puede interactuar con él a través de su navegador en un entorno sin Internet, siempre que tenga el hardware necesario para ejecutarlo. En mi RTX 4080 con 16 GB de vRAM, puede generar casi 20 tokens por segundo, lo cual es significativamente más rápido de lo que encontrará en la mayoría de los planes gratuitos para cualquier LLM como ChatGPT o cualquier otro.