Mac 또는 PC에서 로컬로 Llama 2를 실행하는 방법

Llama 2에 대해 들어본 적이 있고 이를 PC에서 실행하고 싶다면 몇 가지 무료 프로그램을 사용하여 쉽게 실행할 수 있습니다.

빠른 링크

  • 요구사항
  • Ollama를 사용하여 Mac 또는 Linux에서 Llama 2를 실행하는 방법
  • 웹 GUI를 사용하여 Windows에서 Llama 2를 실행하는 방법

당신이 아이디어를 좋아한다면 채팅GPT, 구글 바드, 빙 채팅, 또는 다른 AI 비서 중 하나인 경우 개인 정보 보호, 비용 등과 관련된 몇 가지 우려가 있을 수 있습니다. 이것이 Llama 2가 등장하는 곳입니다. Llama 2는 Meta가 개발한 오픈소스 대형 언어 모델로, 70억에서 700억 개의 매개변수에 이르는 변형이 있습니다.

오픈 소스 LLM이므로 모든 장치에서 원하는 방식으로 수정하고 실행할 수 있습니다. Linux, Mac 또는 Windows 시스템에서 시험해보고 싶다면 쉽게 할 수 있습니다!

요구사항

Llama 2를 로컬에서 실행하려면 다음이 필요합니다.

  • 중 하나 최고의 Nvidia GPU (Linux에서는 AMD를 사용할 수 있습니다)
  • 인터넷 연결

Ollama를 사용하여 Mac 또는 Linux에서 Llama 2를 실행하는 방법

Mac이 있는 경우 Ollama를 사용하여 Llama 2를 실행할 수 있습니다. 최소한의 작업만 필요하므로 모든 플랫폼 중에서 가장 쉬운 방법입니다. LLM은 대용량 파일이므로 Mac과 시간만 있으면 LLM을 다운로드할 수 있습니다.

1단계: 올라마 다운로드

가장 먼저 해야 할 일은 다운로드 올라마. Mac과 Linux에서 실행되며 Llama 2를 포함한 여러 모델을 쉽게 다운로드하고 실행할 수 있습니다. 쉽게 구성하려는 경우 GPU 가속을 사용하려는 경우 Docker 컨테이너에서 실행할 수도 있습니다.

Ollama가 다운로드되면, 폴더에 추출하세요 당신의 선택과 실행해.

2단계: Llama 2 모델 다운로드

Ollama가 설치되면, 다음 명령을 실행하십시오 130억 개의 매개변수가 있는 Llama 2 모델을 가져옵니다.

ollama pull llama2:13b

시간이 좀 걸릴 수 있으므로 실행하는 데 시간을 투자하세요. 7.4GB 파일이며 일부 연결에서는 속도가 느릴 수 있습니다.

3단계: Llama 2 실행 및 상호작용

다음, 다음 명령을 실행하십시오 모델을 실행하고 상호 작용합니다.

ollama run llama2

그러면 모델이 실행되고 상호 작용할 수 있습니다. 이제 끝났습니다!

웹 GUI를 사용하여 Windows에서 Llama 2를 실행하는 방법

Windows 컴퓨터를 사용하는 경우 설정이 쉽고 더 많은 단계가 필요하므로 걱정할 필요가 없습니다! GitHub 리포지토리를 복제하고 로컬로 실행할 수 있으며, 이것이 여러분이 해야 할 전부입니다.

1단계: Llama 2 웹 GUI 다운로드 및 실행

당신이 익숙하다면 안정적인 확산 웹 GUI를 통해 로컬로 실행하는 것이 기본입니다. oobabooga의 텍스트 생성 웹 UI GitHub 저장소 그것에서 영감을 얻었고 거의 같은 방식으로 작동합니다.

  1. 다운로드 위에 링크된 저장소
  2. 달리다 start_windows.bat, start_linux.sh, 또는 start_macos.sh 어떤 플랫폼을 사용하고 있는지에 따라
  3. GPU를 선택하세요 필요한 모든 것을 설치하도록 허용합니다.

2단계: Llama 2 웹 GUI에 액세스

위에서 보면 웹 GUI에 연결하기 위한 로컬 IP 주소가 제공되는 것을 볼 수 있습니다. 브라우저에서 연결하면 웹 GUI가 표시됩니다. 여기저기 클릭하면서 UI에 익숙해지세요. 먼저 채팅 창을 로드했지만 모델을 로드할 때까지는 작동하지 않습니다.

3단계: Llama 2 모델 로드

이제 모델을 로드해야 합니다. 다운로드해야 하므로 시간이 좀 걸리지만 웹 GUI 내에서 다운로드할 수 있습니다.

  1. 다음을 클릭하세요. 모델 상단 탭
  2. 오른쪽에 다음을 입력하세요. TheBloke/Llama-2-13B-채팅-GPTQ 그리고 클릭 다운로드
  3. 다운로드 중인 경우 관련 파일을 다운로드하는 동안 명령 프롬프트에 진행률 표시줄이 표시됩니다.
  4. 완료되면 왼쪽의 모델 목록을 새로고침하고 다운로드한 모델을 클릭하세요.
  5. 딸깍 하는 소리 , 모델 로더가 다음과 같이 말하는지 확인하세요. LLaMa용 GPTQ

이러한 모델에는 많은 vRAM이 필요하므로 로드하는 데 시간이 걸릴 수 있습니다.

4단계: Llama 2와 상호작용하세요!

모든 것이 순조롭게 진행되고 있습니다. 이제 PC에서 Llama 2가 실행될 것입니다! 이를 실행하는 데 필요한 하드웨어가 있는 한, 인터넷이 없는 환경에서도 브라우저를 통해 상호 작용할 수 있습니다. 16GB vRAM을 갖춘 RTX 4080에서는 초당 거의 20개의 토큰을 생성할 수 있는데, 이는 ChatGPT 등의 LLM에 대한 대부분의 무료 플랜에서 찾을 수 있는 것보다 훨씬 빠릅니다.