Se você já ouviu falar do Llama 2 e deseja executá-lo em seu PC, você pode fazer isso facilmente com alguns programas gratuitos.
Links Rápidos
- Requisitos
- Como executar o Llama 2 em um Mac ou Linux usando Ollama
- Como executar o Llama 2 no Windows usando uma GUI da web
Se você gosta da ideia de Bate-papoGPT, Google Bardo, Bate-papo do Bing, ou qualquer um dos outros assistentes de IA, então você pode ter algumas preocupações relacionadas a privacidade, custos ou muito mais. É aí que entra o Lhama 2. Llama 2 é um grande modelo de linguagem de código aberto desenvolvido pela Meta, e existem variantes que variam de 7 bilhões a 70 bilhões de parâmetros.
Por ser um LLM de código aberto, você pode modificá-lo e executá-lo da maneira que desejar, em qualquer dispositivo. Se quiser experimentar em uma máquina Linux, Mac ou Windows, você pode facilmente!
Requisitos
Você precisará do seguinte para executar o Llama 2 localmente:
- Um dos melhores GPUs Nvidia (você pode usar AMD no Linux)
- Uma conexão com a internet
Como executar o Llama 2 em um Mac ou Linux usando Ollama
Se você possui um Mac, pode usar o Ollama para executar o Llama 2. É de longe a maneira mais fácil de fazer isso de todas as plataformas, pois requer um trabalho mínimo para fazer isso. Tudo que você precisa é de um Mac e tempo para baixar o LLM, pois é um arquivo grande.
Etapa 1: Baixe o Ollama
A primeira coisa que você precisa fazer é download Ollama. Ele roda em Mac e Linux e facilita o download e a execução de vários modelos, incluindo o Llama 2. Você pode até executá-lo em um contêiner Docker, se desejar, com aceleração de GPU, se desejar configurá-lo facilmente.
Depois que o Ollama for baixado, extraia-o para uma pasta de sua escolha e executá-lo.
Passo 2: Baixe o modelo Llama 2
Depois que o Ollama estiver instalado, execute o seguinte comando para extrair o modelo Llama 2 de 13 bilhões de parâmetros.
ollama pull llama2:13b
Isso pode demorar um pouco, então reserve um tempo para ser executado. É um arquivo de 7,4 GB e pode ser lento em algumas conexões.
Etapa 3: execute o Llama 2 e interaja com ele
Próximo, execute o seguinte comando para lançar e interagir com o modelo.
ollama run llama2
Isso iniciará o modelo e você poderá interagir com ele. Você Terminou!
Como executar o Llama 2 no Windows usando uma GUI da web
Se você estiver usando uma máquina Windows, não se preocupe, pois é igualmente fácil de configurar, embora com mais etapas! Você poderá clonar um repositório GitHub e executá-lo localmente, e isso é tudo que você precisa fazer.
Etapa 1: Baixe e execute a GUI da Web do Llama 2
Se você estiver familiarizado com Difusão Estável e executá-lo localmente através de uma GUI da Web, basicamente é isso. Repositório GitHub de geração de texto da Web UI do oobabooga é inspirado nisso e funciona da mesma maneira.
- Download o repositório vinculado acima
- Correr start_windows.bat, start_linux.sh, ou start_macos.sh dependendo da plataforma que você está usando
- Selecione sua GPU e permitir que ele instale tudo o que precisa
Etapa 2: acesse a GUI da Web do Llama 2
Pelo exposto acima, você pode ver que ele fornecerá um endereço IP local para se conectar à GUI da web. Conecte-se a ele em seu navegador e você verá a GUI da web. Clique e familiarize-se com a IU. Você primeiro terá carregado uma janela de bate-papo, mas ela não funcionará até que você carregue um modelo.
Etapa 3: carregar um modelo Llama 2
Agora você precisará carregar um modelo. Isso levará algum tempo, pois será necessário fazer o download, mas você pode fazer isso de dentro da GUI da Web.
- Clique no Modelo guia na parte superior
- À direita, entre TheBloke/Llama-2-13B-chat-GPTQ e clique Download
- Se estiver baixando, você verá uma barra de progresso no prompt de comando enquanto baixa os arquivos relevantes.
- Quando terminar, atualize a lista de modelos à esquerda e clique no modelo baixado.
- Clique Carregar, certificando-se de que o carregador do modelo diga GPTQ para LLaMa
Pode demorar um pouco para carregar, pois esses modelos requerem muita vRAM.
Passo 4: Interaja com o Llama 2!
Tudo indo bem, agora você deve ter o Llama 2 rodando no seu PC! Você pode interagir com ele através do seu navegador em um ambiente sem internet, desde que tenha o hardware necessário para executá-lo. No meu RTX 4080 com 16 GB de vRAM, ele pode gerar quase 20 tokens por segundo, o que é significativamente mais rápido do que você encontrará na maioria dos planos gratuitos para qualquer LLM como ChatGPT ou outro.