Jak uruchomić Llamę 2 lokalnie na komputerze Mac lub PC

Jeśli słyszałeś o Llama 2 i chcesz uruchomić ją na swoim komputerze, możesz to łatwo zrobić za pomocą kilku bezpłatnych programów.

Szybkie linki

Wymagania

Jak uruchomić Llamę 2 na komputerze Mac lub Linux przy użyciu Ollama

Jak uruchomić Llamę 2 w systemie Windows za pomocą internetowego interfejsu GUI

Jeśli podoba Ci się pomysł CzatGPT, Google Bard, Czat Bingalub któregokolwiek z innych asystentów AI, możesz mieć pewne obawy związane np. z prywatnością, kosztami i innymi kwestiami. I tu z pomocą przychodzi Lama 2. Llama 2 to wielkojęzykowy model o otwartym kodzie źródłowym opracowany przez firmę Meta, dostępny w wariantach obejmujących od 7 miliardów do 70 miliardów parametrów.

Biorąc pod uwagę, że jest to LLM typu open source, możesz go modyfikować i uruchamiać w dowolny sposób, na dowolnym urządzeniu. Jeśli chcesz spróbować na komputerze z systemem Linux, Mac lub Windows, możesz to łatwo!

Wymagania

Aby uruchomić Llamę 2 lokalnie, będziesz potrzebować:

Jeden z najlepsze procesory graficzne Nvidii (możesz używać AMD w systemie Linux)
Połączenie internetowe

Jak uruchomić Llamę 2 na komputerze Mac lub Linux przy użyciu Ollama

Jeśli masz komputer Mac, możesz użyć Ollama do uruchomienia Llama 2. Jest to zdecydowanie najłatwiejszy sposób ze wszystkich platform, ponieważ wymaga minimalnego nakładu pracy. Wszystko czego potrzebujesz to komputer Mac i czas na pobranie LLM, ponieważ jest to duży plik.

Krok 1: Pobierz Ollamę

Pierwszą rzeczą, którą musisz zrobić, to pobierać Ollama. Działa na komputerach Mac i Linux i ułatwia pobieranie i uruchamianie wielu modeli, w tym Llama 2. Możesz nawet uruchomić go w kontenerze Docker, jeśli chcesz z akceleracją GPU i chcesz, aby była łatwa w konfiguracji.

Po pobraniu Ollama wypakuj go do folderu według własnego wyboru i Uruchom.

Krok 2: Pobierz model Lamy 2

Po zainstalowaniu Ollama uruchom następujące polecenie wyciągnąć model Lamy 2 o parametrach 13 miliardów.

ollama pull llama2:13b

Może to chwilę potrwać, więc daj mu czas na uruchomienie. Jest to plik o rozmiarze 7,4 GB i w przypadku niektórych połączeń może działać wolno.

Krok 3: Uruchom Lamę 2 i wejdź z nią w interakcję

Następny, uruchom następujące polecenie aby uruchomić model i wejść z nim w interakcję.

ollama run llama2

Spowoduje to uruchomienie modelu i będziesz mógł z nim wchodzić w interakcję. Jesteś skończony!

Jak uruchomić Llamę 2 w systemie Windows za pomocą internetowego interfejsu GUI

Jeśli używasz komputera z systemem Windows, nie musisz się martwić, ponieważ konfiguracja jest równie łatwa, choć wymaga większej liczby kroków! Będziesz mógł sklonować repozytorium GitHub i uruchomić je lokalnie, i to wszystko, co musisz zrobić.

Krok 1: Pobierz i uruchom internetowy interfejs graficzny Llama 2

Jeśli znasz Stabilna dyfuzja i uruchamianie go lokalnie za pomocą internetowego interfejsu GUI, na tym właśnie polega. Repozytorium GitHub z interfejsem WWW do generowania tekstu oobabooga jest tym zainspirowany i działa w bardzo podobny sposób.

Pobierać repozytorium, do którego link znajduje się powyżej
Uruchomić start_windows.bat, start_linux.sh, Lub start_macos.sh w zależności od platformy, z której korzystasz
Wybierz swój procesor graficzny i pozwól mu zainstalować wszystko, czego potrzebuje

Krok 2: Uzyskaj dostęp do graficznego interfejsu użytkownika Lamy 2

Z powyższego widać, że otrzymasz lokalny adres IP umożliwiający połączenie z internetowym interfejsem GUI. Połącz się z nim w przeglądarce i powinieneś zobaczyć internetowy interfejs GUI. Kliknij i zapoznaj się z interfejsem użytkownika. Najpierw załadujesz okno czatu, ale nie będzie ono działać, dopóki nie załadujesz modelu.

Krok 3: Załaduj model Lamy 2

Teraz musisz załadować model. Zajmie to trochę czasu, ponieważ konieczne będzie jego pobranie, ale możesz to zrobić z poziomu internetowego interfejsu GUI.

Kliknij Model zakładka u góry
Po prawej stronie wejdź TheBloke/Llama-2-13B-chat-GPTQ i kliknij Pobierać
Jeśli trwa pobieranie, w wierszu poleceń powinien pojawić się pasek postępu podczas pobierania odpowiednich plików.
Po zakończeniu odśwież listę modeli po lewej stronie i kliknij pobrany model.
Kliknij Obciążenie, upewniając się, że moduł ładujący model mówi GPTQ-dla-LLaMa

Załadowanie może chwilę potrwać, ponieważ te modele wymagają dużej ilości pamięci VRAM.

Krok 4: Wejdź w interakcję z Lamą 2!

Wszystko idzie dobrze, powinieneś mieć teraz uruchomioną Llamę 2 na swoim komputerze! Możesz wchodzić w interakcję z nim za pośrednictwem przeglądarki w środowisku bez Internetu, o ile masz sprzęt niezbędny do jego uruchomienia. Na moim RTX 4080 z 16 GB pamięci VRAM może generować prawie 20 tokenów na sekundę, czyli znacznie szybciej niż w większości bezpłatnych planów dla dowolnych LLM, takich jak ChatGPT lub innych.