Como executar o Llama 2 localmente em seu Mac ou PC

Se você já ouviu falar do Llama 2 e deseja executá-lo em seu PC, você pode fazer isso facilmente com alguns programas gratuitos.

Links Rápidos

Requisitos

Como executar o Llama 2 em um Mac ou Linux usando Ollama

Como executar o Llama 2 no Windows usando uma GUI da web

Se você gosta da ideia de Bate-papoGPT, Google Bardo, Bate-papo do Bing, ou qualquer um dos outros assistentes de IA, então você pode ter algumas preocupações relacionadas a privacidade, custos ou muito mais. É aí que entra o Lhama 2. Llama 2 é um grande modelo de linguagem de código aberto desenvolvido pela Meta, e existem variantes que variam de 7 bilhões a 70 bilhões de parâmetros.

Por ser um LLM de código aberto, você pode modificá-lo e executá-lo da maneira que desejar, em qualquer dispositivo. Se quiser experimentar em uma máquina Linux, Mac ou Windows, você pode facilmente!

Requisitos

Você precisará do seguinte para executar o Llama 2 localmente:

Um dos melhores GPUs Nvidia (você pode usar AMD no Linux)
Uma conexão com a internet

Como executar o Llama 2 em um Mac ou Linux usando Ollama

Se você possui um Mac, pode usar o Ollama para executar o Llama 2. É de longe a maneira mais fácil de fazer isso de todas as plataformas, pois requer um trabalho mínimo para fazer isso. Tudo que você precisa é de um Mac e tempo para baixar o LLM, pois é um arquivo grande.

Etapa 1: Baixe o Ollama

A primeira coisa que você precisa fazer é download Ollama. Ele roda em Mac e Linux e facilita o download e a execução de vários modelos, incluindo o Llama 2. Você pode até executá-lo em um contêiner Docker, se desejar, com aceleração de GPU, se desejar configurá-lo facilmente.

Depois que o Ollama for baixado, extraia-o para uma pasta de sua escolha e executá-lo.

Passo 2: Baixe o modelo Llama 2

Depois que o Ollama estiver instalado, execute o seguinte comando para extrair o modelo Llama 2 de 13 bilhões de parâmetros.

ollama pull llama2:13b

Isso pode demorar um pouco, então reserve um tempo para ser executado. É um arquivo de 7,4 GB e pode ser lento em algumas conexões.

Etapa 3: execute o Llama 2 e interaja com ele

Próximo, execute o seguinte comando para lançar e interagir com o modelo.

ollama run llama2

Isso iniciará o modelo e você poderá interagir com ele. Você Terminou!

Como executar o Llama 2 no Windows usando uma GUI da web

Se você estiver usando uma máquina Windows, não se preocupe, pois é igualmente fácil de configurar, embora com mais etapas! Você poderá clonar um repositório GitHub e executá-lo localmente, e isso é tudo que você precisa fazer.

Etapa 1: Baixe e execute a GUI da Web do Llama 2

Se você estiver familiarizado com Difusão Estável e executá-lo localmente através de uma GUI da Web, basicamente é isso. Repositório GitHub de geração de texto da Web UI do oobabooga é inspirado nisso e funciona da mesma maneira.

Download o repositório vinculado acima
Correr start_windows.bat, start_linux.sh, ou start_macos.sh dependendo da plataforma que você está usando
Selecione sua GPU e permitir que ele instale tudo o que precisa

Etapa 2: acesse a GUI da Web do Llama 2

Pelo exposto acima, você pode ver que ele fornecerá um endereço IP local para se conectar à GUI da web. Conecte-se a ele em seu navegador e você verá a GUI da web. Clique e familiarize-se com a IU. Você primeiro terá carregado uma janela de bate-papo, mas ela não funcionará até que você carregue um modelo.

Etapa 3: carregar um modelo Llama 2

Agora você precisará carregar um modelo. Isso levará algum tempo, pois será necessário fazer o download, mas você pode fazer isso de dentro da GUI da Web.

Clique no Modelo guia na parte superior
À direita, entre TheBloke/Llama-2-13B-chat-GPTQ e clique Download
Se estiver baixando, você verá uma barra de progresso no prompt de comando enquanto baixa os arquivos relevantes.
Quando terminar, atualize a lista de modelos à esquerda e clique no modelo baixado.
Clique Carregar, certificando-se de que o carregador do modelo diga GPTQ para LLaMa

Pode demorar um pouco para carregar, pois esses modelos requerem muita vRAM.

Passo 4: Interaja com o Llama 2!

Tudo indo bem, agora você deve ter o Llama 2 rodando no seu PC! Você pode interagir com ele através do seu navegador em um ambiente sem internet, desde que tenha o hardware necessário para executá-lo. No meu RTX 4080 com 16 GB de vRAM, ele pode gerar quase 20 tokens por segundo, o que é significativamente mais rápido do que você encontrará na maioria dos planos gratuitos para qualquer LLM como ChatGPT ou outro.