วิธีเรียกใช้ Llama 2 ภายในเครื่องบน Mac หรือ PC ของคุณ

หากคุณเคยได้ยินเกี่ยวกับ Llama 2 และต้องการใช้งานบนพีซีของคุณ คุณสามารถทำได้ง่ายๆ ด้วยโปรแกรมไม่กี่โปรแกรมฟรี

ลิงค์ด่วน

ความต้องการ

วิธีรัน Llama 2 บน Mac หรือ Linux โดยใช้ Ollama

วิธีรัน Llama 2 บน Windows โดยใช้เว็บ GUI

หากคุณชอบไอเดียของ ChatGPT, กูเกิล เบิร์ด, บิงแชทหรือผู้ช่วย AI อื่นๆ คุณอาจมีข้อกังวลเกี่ยวกับความเป็นส่วนตัว ค่าใช้จ่าย และอื่นๆ นั่นคือสิ่งที่ Llama 2 เข้ามา Llama 2 เป็นโมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ที่พัฒนาโดย Meta และมีตัวแปรให้เลือกตั้งแต่ 7 พันล้านถึง 70 พันล้านพารามิเตอร์

เนื่องจากเป็น LLM แบบโอเพ่นซอร์ส คุณสามารถแก้ไขและรันมันในลักษณะใดก็ได้ที่คุณต้องการ บนอุปกรณ์ใดก็ได้ หากคุณต้องการทดลองใช้งานบนเครื่อง Linux, Mac หรือ Windows คุณก็ทำได้อย่างง่ายดาย!

ความต้องการ

คุณจะต้องมีสิ่งต่อไปนี้เพื่อรัน Llama 2 ในเครื่อง:

หนึ่งใน GPU Nvidia ที่ดีที่สุด (คุณสามารถใช้ AMD บน Linux)
การเชื่อมต่ออินเทอร์เน็ต

วิธีรัน Llama 2 บน Mac หรือ Linux โดยใช้ Ollama

หากคุณมี Mac คุณสามารถใช้ Ollama เพื่อรัน Llama 2 ได้ นี่เป็นวิธีที่ง่ายที่สุดในบรรดาแพลตฟอร์มทั้งหมด เนื่องจากต้องใช้ความพยายามเพียงเล็กน้อยในการทำเช่นนั้น สิ่งที่คุณต้องมีคือ Mac และเวลาในการดาวน์โหลด LLM เนื่องจากเป็นไฟล์ขนาดใหญ่

ขั้นตอนที่ 1: ดาวน์โหลด Ollama

สิ่งแรกที่คุณต้องทำคือ ดาวน์โหลด โอลามา. มันทำงานบน Mac และ Linux และทำให้ง่ายต่อการดาวน์โหลดและรันหลายรุ่น รวมถึง Llama 2 คุณสามารถรันมันในคอนเทนเนอร์ Docker ได้หากต้องการด้วยการเร่งความเร็ว GPU หากคุณต้องการกำหนดค่าอย่างง่ายดาย

เมื่อดาวน์โหลด Ollama แล้ว แยกมันไปที่โฟลเดอร์ ที่คุณเลือกและ เรียกใช้มัน.

ขั้นตอนที่ 2: ดาวน์โหลดโมเดล Llama 2

เมื่อติดตั้ง Ollama แล้ว รันคำสั่งต่อไปนี้ เพื่อดึงพารามิเตอร์ 13 พันล้านรุ่น Llama 2

ollama pull llama2:13b

การดำเนินการนี้อาจใช้เวลาสักครู่ ดังนั้น ให้เวลาดำเนินการก่อน เป็นไฟล์ขนาด 7.4GB และอาจจะช้าในการเชื่อมต่อบางอย่าง

ขั้นตอนที่ 3: เรียกใช้ Llama 2 และโต้ตอบกับมัน

ต่อไป, รันคำสั่งต่อไปนี้ เพื่อเปิดใช้และโต้ตอบกับโมเดล

ollama run llama2

จากนั้นจะเป็นการเปิดตัวโมเดล และคุณสามารถโต้ตอบกับโมเดลได้ คุณทำเสร็จแล้ว!

วิธีรัน Llama 2 บน Windows โดยใช้เว็บ GUI

หากคุณใช้เครื่อง Windows ก็ไม่ต้องกังวล เนื่องจากตั้งค่าได้ง่ายพอๆ กัน แต่มีขั้นตอนมากกว่านี้! คุณจะสามารถโคลนพื้นที่เก็บข้อมูล GitHub และเรียกใช้ภายในเครื่องได้ เพียงเท่านี้คุณก็ต้องทำ

ขั้นตอนที่ 1: ดาวน์โหลดและเรียกใช้ Llama 2 Web GUI

หากคุณคุ้นเคย. การแพร่กระจายที่เสถียร และรันมันในเครื่องผ่านเว็บ GUI นั่นคือสิ่งที่เป็นโดยพื้นฐาน พื้นที่เก็บข้อมูล Web UI GitHub ของ oobabooga ได้รับแรงบันดาลใจจากสิ่งนั้นและทำงานในลักษณะเดียวกันมาก

ดาวน์โหลด พื้นที่เก็บข้อมูลที่ลิงก์ด้านบน
วิ่ง start_windows.bat, start_linux.sh, หรือ start_macos.sh ขึ้นอยู่กับแพลตฟอร์มที่คุณใช้
เลือก GPU ของคุณ และอนุญาตให้ติดตั้งทุกสิ่งที่ต้องการ

ขั้นตอนที่ 2: เข้าถึง Llama 2 Web GUI

จากด้านบน คุณจะเห็นได้ว่าจะให้ที่อยู่ IP ในเครื่องแก่คุณเพื่อเชื่อมต่อกับเว็บ GUI เชื่อมต่อกับเบราว์เซอร์ของคุณและคุณจะเห็นเว็บ GUI คลิกไปรอบๆ และทำความคุ้นเคยกับ UI คุณจะต้องโหลดหน้าต่างแชทก่อน แต่จะใช้งานไม่ได้จนกว่าคุณจะโหลดโมเดล

ขั้นตอนที่ 3: โหลดโมเดล Llama 2

ตอนนี้คุณจะต้องโหลดโมเดล การดำเนินการนี้จะใช้เวลาสักครู่เนื่องจากจะต้องดาวน์โหลด แต่คุณสามารถทำได้จากภายใน Web GUI

คลิก แบบอย่าง แท็บที่ด้านบน
ทางด้านขวาให้เข้าไป TheBloke/Llama-2-13B-chat-GPTQ และคลิก ดาวน์โหลด
หากกำลังดาวน์โหลด คุณจะเห็นแถบความคืบหน้าในพร้อมท์คำสั่งขณะดาวน์โหลดไฟล์ที่เกี่ยวข้อง
เมื่อเสร็จสิ้น ให้รีเฟรชรายการรุ่นทางด้านซ้ายแล้วคลิกรุ่นที่ดาวน์โหลด
คลิก โหลดตรวจสอบให้แน่ใจว่าตัวโหลดโมเดลนั้นบอกว่า GPTQ สำหรับ LLaMa

อาจใช้เวลาสักครู่ในการโหลด เนื่องจากโมเดลเหล่านี้ต้องใช้ vRAM จำนวนมาก

ขั้นตอนที่ 4: โต้ตอบกับลามะ 2!

ทุกอย่างเป็นไปด้วยดี ตอนนี้คุณควรให้ Llama 2 ทำงานบนพีซีของคุณแล้ว! คุณสามารถโต้ตอบกับมันผ่านเบราว์เซอร์ของคุณในสภาพแวดล้อมที่ไม่มีอินเทอร์เน็ต ตราบใดที่คุณมีฮาร์ดแวร์ที่จำเป็นในการดำเนินการ บน RTX 4080 ของฉันที่มี vRAM ขนาด 16GB นั้นสามารถสร้างได้ที่เกือบ 20 โทเค็นต่อวินาที ซึ่งเร็วกว่าที่คุณจะพบในแผนฟรีส่วนใหญ่สำหรับ LLM เช่น ChatGPT หรืออื่นๆ อย่างมาก