Как запустить Llama 2 локально на Mac или ПК

Если вы слышали о Llama 2 и хотите запустить ее на своем ПК, вы можете легко сделать это с помощью нескольких бесплатных программ.

Быстрые ссылки

  • Требования
  • Как запустить Llama 2 на Mac или Linux с помощью Ollama
  • Как запустить Llama 2 в Windows с помощью веб-интерфейса

Если вам нравится идея ЧатGPT, Гугл Бард, Чат Bing, или любого другого помощника искусственного интеллекта, то у вас могут возникнуть некоторые проблемы, связанные с конфиденциальностью, расходами и т. д. Вот здесь и появляется Лама 2. Llama 2 — это модель большого языка с открытым исходным кодом, разработанная Meta, и существуют варианты с диапазоном от 7 до 70 миллиардов параметров.

Учитывая, что это LLM с открытым исходным кодом, вы можете модифицировать его и запускать любым способом на любом устройстве. Если вы хотите попробовать его на компьютере с Linux, Mac или Windows, вы можете легко!

Требования

Для локального запуска Llama 2 вам понадобится следующее:

  • Один из лучшие графические процессоры Nvidia (вы можете использовать AMD в Linux)
  • Подключение к Интернету

Как запустить Llama 2 на Mac или Linux с помощью Ollama

Если у вас Mac, вы можете использовать Ollama для запуска Llama 2. Это, безусловно, самый простой способ сделать это из всех платформ, поскольку для этого требуется минимум усилий. Все, что вам нужно, это Mac и время для загрузки LLM, поскольку это большой файл.

Шаг 1. Загрузите Олламу

Первое, что вам нужно сделать, это скачать Оллама. Он работает на Mac и Linux и позволяет легко загружать и запускать несколько моделей, включая Llama 2. Вы даже можете запустить его в контейнере Docker, если хотите, с ускорением графического процессора, если хотите, чтобы его было легко настроить.

После загрузки Олламы извлеките его в папку по вашему выбору и запустить его.

Шаг 2. Загрузите модель Llama 2.

После установки Олламы выполните следующую команду чтобы вытащить модель Llama 2 с 13 миллиардами параметров.

ollama pull llama2:13b

Это может занять некоторое время, поэтому дайте ему время поработать. Размер файла составляет 7,4 ГБ, и при некоторых соединениях он может работать медленно.

Шаг 3. Запустите Llama 2 и взаимодействуйте с ней.

Следующий, выполните следующую команду для запуска и взаимодействия с моделью.

ollama run llama2

После этого модель запустится, и вы сможете с ней взаимодействовать. Все готово!

Как запустить Llama 2 в Windows с помощью веб-интерфейса

Если вы используете компьютер с Windows, вам не о чем беспокоиться, поскольку его так же легко настроить, хотя и требует большего количества шагов! Вы сможете клонировать репозиторий GitHub и запускать его локально, и это все, что вам нужно сделать.

Шаг 1. Загрузите и запустите веб-интерфейс Llama 2.

Если вы знакомы с Стабильная диффузия и запускать его локально через веб-интерфейс, вот что это такое. Репозиторий веб-интерфейса пользователя oobabooga на GitHub вдохновлен этим и работает во многом таким же образом.

  1. Скачать репозиторий, указанный выше
  2. Бегать start_windows.bat, start_linux.sh, или start_macos.sh в зависимости от того, какую платформу вы используете
  3. Выберите свой графический процессор и позвольте ему установить все, что ему нужно

Шаг 2. Доступ к веб-интерфейсу Llama 2.

Из вышеизложенного вы можете видеть, что вам будет предоставлен локальный IP-адрес для подключения к веб-интерфейсу. Подключитесь к нему в браузере, и вы увидите веб-интерфейс. Щелкните вокруг и ознакомьтесь с пользовательским интерфейсом. Сначала вы загрузите окно чата, но оно не будет работать, пока вы не загрузите модель.

Шаг 3. Загрузите модель Llama 2.

Теперь вам нужно загрузить модель. Это займет некоторое время, поскольку его необходимо будет загрузить, но вы можете сделать это из веб-интерфейса.

  1. Нажмите кнопку Модель вкладка вверху
  2. Справа введите TheBloke/Llama-2-13B-chat-GPTQ и нажмите Скачать
  3. Если идет загрузка, вы должны увидеть индикатор выполнения в командной строке по мере загрузки соответствующих файлов.
  4. По завершении обновите список моделей слева и щелкните загруженную модель.
  5. Нажмите Нагрузка, убедившись, что загрузчик модели говорит GPTQ-для-LLaMa

Загрузка может занять некоторое время, поскольку этим моделям требуется много видеопамяти.

Шаг 4: Взаимодействуйте с Ламой 2!

Все идет хорошо, теперь на вашем компьютере должна быть запущена Llama 2! Вы можете взаимодействовать с ним через браузер в среде без Интернета, если у вас есть оборудование, необходимое для его выполнения. На моем RTX 4080 с 16 ГБ видеопамяти он может генерировать почти 20 токенов в секунду, что значительно быстрее, чем вы найдете в большинстве бесплатных планов для любых LLM, таких как ChatGPT или других.