Mac 또는 PC에서 로컬로 Llama 2를 실행하는 방법

Llama 2에 대해 들어본 적이 있고 이를 PC에서 실행하고 싶다면 몇 가지 무료 프로그램을 사용하여 쉽게 실행할 수 있습니다.

빠른 링크

요구사항

Ollama를 사용하여 Mac 또는 Linux에서 Llama 2를 실행하는 방법

웹 GUI를 사용하여 Windows에서 Llama 2를 실행하는 방법

당신이 아이디어를 좋아한다면 채팅GPT, 구글 바드, 빙 채팅, 또는 다른 AI 비서 중 하나인 경우 개인 정보 보호, 비용 등과 관련된 몇 가지 우려가 있을 수 있습니다. 이것이 Llama 2가 등장하는 곳입니다. Llama 2는 Meta가 개발한 오픈소스 대형 언어 모델로, 70억에서 700억 개의 매개변수에 이르는 변형이 있습니다.

오픈 소스 LLM이므로 모든 장치에서 원하는 방식으로 수정하고 실행할 수 있습니다. Linux, Mac 또는 Windows 시스템에서 시험해보고 싶다면 쉽게 할 수 있습니다!

요구사항

Llama 2를 로컬에서 실행하려면 다음이 필요합니다.

중 하나 최고의 Nvidia GPU (Linux에서는 AMD를 사용할 수 있습니다)
인터넷 연결

Ollama를 사용하여 Mac 또는 Linux에서 Llama 2를 실행하는 방법

Mac이 있는 경우 Ollama를 사용하여 Llama 2를 실행할 수 있습니다. 최소한의 작업만 필요하므로 모든 플랫폼 중에서 가장 쉬운 방법입니다. LLM은 대용량 파일이므로 Mac과 시간만 있으면 LLM을 다운로드할 수 있습니다.

1단계: 올라마 다운로드

가장 먼저 해야 할 일은 다운로드 올라마. Mac과 Linux에서 실행되며 Llama 2를 포함한 여러 모델을 쉽게 다운로드하고 실행할 수 있습니다. 쉽게 구성하려는 경우 GPU 가속을 사용하려는 경우 Docker 컨테이너에서 실행할 수도 있습니다.

Ollama가 다운로드되면, 폴더에 추출하세요 당신의 선택과 실행해.

2단계: Llama 2 모델 다운로드

Ollama가 설치되면, 다음 명령을 실행하십시오 130억 개의 매개변수가 있는 Llama 2 모델을 가져옵니다.

ollama pull llama2:13b

시간이 좀 걸릴 수 있으므로 실행하는 데 시간을 투자하세요. 7.4GB 파일이며 일부 연결에서는 속도가 느릴 수 있습니다.

3단계: Llama 2 실행 및 상호작용

다음, 다음 명령을 실행하십시오 모델을 실행하고 상호 작용합니다.

ollama run llama2

그러면 모델이 실행되고 상호 작용할 수 있습니다. 이제 끝났습니다!

웹 GUI를 사용하여 Windows에서 Llama 2를 실행하는 방법

Windows 컴퓨터를 사용하는 경우 설정이 쉽고 더 많은 단계가 필요하므로 걱정할 필요가 없습니다! GitHub 리포지토리를 복제하고 로컬로 실행할 수 있으며, 이것이 여러분이 해야 할 전부입니다.

1단계: Llama 2 웹 GUI 다운로드 및 실행

당신이 익숙하다면 안정적인 확산 웹 GUI를 통해 로컬로 실행하는 것이 기본입니다. oobabooga의 텍스트 생성 웹 UI GitHub 저장소 그것에서 영감을 얻었고 거의 같은 방식으로 작동합니다.

다운로드 위에 링크된 저장소
달리다 start_windows.bat, start_linux.sh, 또는 start_macos.sh 어떤 플랫폼을 사용하고 있는지에 따라
GPU를 선택하세요 필요한 모든 것을 설치하도록 허용합니다.

2단계: Llama 2 웹 GUI에 액세스

위에서 보면 웹 GUI에 연결하기 위한 로컬 IP 주소가 제공되는 것을 볼 수 있습니다. 브라우저에서 연결하면 웹 GUI가 표시됩니다. 여기저기 클릭하면서 UI에 익숙해지세요. 먼저 채팅 창을 로드했지만 모델을 로드할 때까지는 작동하지 않습니다.

3단계: Llama 2 모델 로드

이제 모델을 로드해야 합니다. 다운로드해야 하므로 시간이 좀 걸리지만 웹 GUI 내에서 다운로드할 수 있습니다.

다음을 클릭하세요. 모델 상단 탭
오른쪽에 다음을 입력하세요. TheBloke/Llama-2-13B-채팅-GPTQ 그리고 클릭 다운로드
다운로드 중인 경우 관련 파일을 다운로드하는 동안 명령 프롬프트에 진행률 표시줄이 표시됩니다.
완료되면 왼쪽의 모델 목록을 새로고침하고 다운로드한 모델을 클릭하세요.
딸깍 하는 소리 짐, 모델 로더가 다음과 같이 말하는지 확인하세요. LLaMa용 GPTQ

이러한 모델에는 많은 vRAM이 필요하므로 로드하는 데 시간이 걸릴 수 있습니다.

4단계: Llama 2와 상호작용하세요!

모든 것이 순조롭게 진행되고 있습니다. 이제 PC에서 Llama 2가 실행될 것입니다! 이를 실행하는 데 필요한 하드웨어가 있는 한, 인터넷이 없는 환경에서도 브라우저를 통해 상호 작용할 수 있습니다. 16GB vRAM을 갖춘 RTX 4080에서는 초당 거의 20개의 토큰을 생성할 수 있는데, 이는 ChatGPT 등의 LLM에 대한 대부분의 무료 플랜에서 찾을 수 있는 것보다 훨씬 빠릅니다.