Як запустити Llama 2 локально на вашому Mac або ПК

Якщо ви чули про Llama 2 і хочете запустити її на своєму ПК, ви можете легко зробити це за допомогою кількох безкоштовних програм.

Швидкі посилання

  • Вимоги
  • Як запустити Llama 2 на Mac або Linux за допомогою Ollama
  • Як запустити Llama 2 у Windows за допомогою веб-графічного інтерфейсу користувача

Якщо вам подобається ідея ChatGPT, Google Bard, Чат Bing, чи будь-який інший помічник ШІ, то у вас можуть виникнути певні занепокоєння щодо конфіденційності, вартості тощо. Ось тут і з’являється Лама 2. Llama 2 — це велика мовна модель із відкритим вихідним кодом, розроблена Meta, і є варіанти від 7 до 70 мільярдів параметрів.

З огляду на те, що це LLM з відкритим кодом, ви можете змінювати його та запускати будь-яким способом на будь-якому пристрої. Якщо ви хочете спробувати це на машині Linux, Mac або Windows, ви можете легко!

Вимоги

Щоб запустити Llama 2 локально, вам знадобиться наступне:

  • Один з найкращі графічні процесори Nvidia (ви можете використовувати AMD на Linux)
  • Підключення до Інтернету

Як запустити Llama 2 на Mac або Linux за допомогою Ollama

Якщо у вас Mac, ви можете використовувати Ollama для запуску Llama 2. Це найпростіший спосіб зробити це з усіх платформ, оскільки для цього потрібно мінімум роботи. Все, що вам потрібно, це Mac і час, щоб завантажити LLM, оскільки це великий файл.

Крок 1. Завантажте Ollama

Перше, що вам потрібно зробити, це завантажити Оллама. Він працює на Mac і Linux і дозволяє легко завантажувати та запускати кілька моделей, включаючи Llama 2. Ви навіть можете запустити його в контейнері Docker, якщо хочете, з прискоренням GPU, якщо хочете, щоб його було легко налаштувати.

Після завантаження Ollama витягніть його в папку на ваш вибір і запустіть його.

Крок 2. Завантажте модель Llama 2

Після встановлення Ollama запустіть наступну команду витягнути модель Llama 2 із 13 мільярдами параметрів.

ollama pull llama2:13b

Це може зайняти деякий час, тому дайте йому час запуститися. Це файл розміром 7,4 ГБ, який може працювати повільно під час деяких з’єднань.

Крок 3. Запустіть Llama 2 і взаємодійте з ним

далі, запустіть наступну команду для запуску моделі та взаємодії з нею.

ollama run llama2

Це запустить модель, і ви зможете з нею взаємодіяти. Ви готові!

Як запустити Llama 2 у Windows за допомогою веб-графічного інтерфейсу користувача

Якщо ви користуєтеся комп’ютером Windows, не варто хвилюватися, оскільки його так само легко налаштувати, хоча й з більшою кількістю кроків! Ви зможете клонувати репозиторій GitHub і запускати його локально, і це все, що вам потрібно зробити.

Крок 1. Завантажте та запустіть Llama 2 Web GUI

Якщо ви знайомі Стабільна дифузія і запускати його локально через графічний веб-інтерфейс, ось що це в основному. Репозиторій GitHub для веб-інтерфейсу користувача oobabooga натхненний цим і працює майже так само.

  1. Завантажити репозиторій, на який посилається вище
  2. бігти start_windows.bat, start_linux.sh, або start_macos.sh залежно від того, яку платформу ви використовуєте
  3. Виберіть графічний процесор і дозволити йому встановити все, що йому потрібно

Крок 2. Отримайте доступ до веб-інтерфейсу Llama 2

З наведеного вище ви бачите, що він надасть вам локальну IP-адресу для підключення до веб-графічного інтерфейсу користувача. Підключіться до нього у своєму браузері, і ви повинні побачити веб-графічний інтерфейс. Натисніть і ознайомтеся з інтерфейсом користувача. Спочатку ви завантажите вікно чату, але воно не працюватиме, доки ви не завантажите модель.

Крок 3. Завантажте модель Llama 2

Тепер вам потрібно буде завантажити модель. Це займе деякий час, оскільки його потрібно буде завантажити, але це можна зробити з веб-графічного інтерфейсу користувача.

  1. Натисніть на Модель вкладку вгорі
  2. Праворуч увійдіть TheBloke/Llama-2-13B-chat-GPTQ і натисніть Завантажити
  3. Якщо воно завантажується, у командному рядку має відображатися індикатор прогресу під час завантаження відповідних файлів.
  4. Після завершення оновіть список моделей ліворуч і натисніть завантажену модель.
  5. Натисніть навантаження, переконавшись, що завантажувач моделі говорить GPTQ-для-LLaMa

Його завантаження може зайняти деякий час, оскільки ці моделі вимагають багато vRAM.

Крок 4: взаємодійте з Llama 2!

Все йде добре, тепер Llama 2 має запуститися на вашому ПК! Ви можете взаємодіяти з ним через свій браузер у середовищі без Інтернету, якщо у вас є апаратне забезпечення, необхідне для його виконання. На моїй RTX 4080 із 16 ГБ відеопам’яті він може генерувати майже 20 токенів за секунду, що значно швидше, ніж у більшості безкоштовних планів для будь-яких LLM, як-от ChatGPT чи інших.