หากคุณเคยได้ยินเกี่ยวกับ Llama 2 และต้องการใช้งานบนพีซีของคุณ คุณสามารถทำได้ง่ายๆ ด้วยโปรแกรมไม่กี่โปรแกรมฟรี
ลิงค์ด่วน
- ความต้องการ
- วิธีรัน Llama 2 บน Mac หรือ Linux โดยใช้ Ollama
- วิธีรัน Llama 2 บน Windows โดยใช้เว็บ GUI
หากคุณชอบไอเดียของ ChatGPT, กูเกิล เบิร์ด, บิงแชทหรือผู้ช่วย AI อื่นๆ คุณอาจมีข้อกังวลเกี่ยวกับความเป็นส่วนตัว ค่าใช้จ่าย และอื่นๆ นั่นคือสิ่งที่ Llama 2 เข้ามา Llama 2 เป็นโมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ที่พัฒนาโดย Meta และมีตัวแปรให้เลือกตั้งแต่ 7 พันล้านถึง 70 พันล้านพารามิเตอร์
เนื่องจากเป็น LLM แบบโอเพ่นซอร์ส คุณสามารถแก้ไขและรันมันในลักษณะใดก็ได้ที่คุณต้องการ บนอุปกรณ์ใดก็ได้ หากคุณต้องการทดลองใช้งานบนเครื่อง Linux, Mac หรือ Windows คุณก็ทำได้อย่างง่ายดาย!
ความต้องการ
คุณจะต้องมีสิ่งต่อไปนี้เพื่อรัน Llama 2 ในเครื่อง:
- หนึ่งใน GPU Nvidia ที่ดีที่สุด (คุณสามารถใช้ AMD บน Linux)
- การเชื่อมต่ออินเทอร์เน็ต
วิธีรัน Llama 2 บน Mac หรือ Linux โดยใช้ Ollama
หากคุณมี Mac คุณสามารถใช้ Ollama เพื่อรัน Llama 2 ได้ นี่เป็นวิธีที่ง่ายที่สุดในบรรดาแพลตฟอร์มทั้งหมด เนื่องจากต้องใช้ความพยายามเพียงเล็กน้อยในการทำเช่นนั้น สิ่งที่คุณต้องมีคือ Mac และเวลาในการดาวน์โหลด LLM เนื่องจากเป็นไฟล์ขนาดใหญ่
ขั้นตอนที่ 1: ดาวน์โหลด Ollama
สิ่งแรกที่คุณต้องทำคือ ดาวน์โหลด โอลามา. มันทำงานบน Mac และ Linux และทำให้ง่ายต่อการดาวน์โหลดและรันหลายรุ่น รวมถึง Llama 2 คุณสามารถรันมันในคอนเทนเนอร์ Docker ได้หากต้องการด้วยการเร่งความเร็ว GPU หากคุณต้องการกำหนดค่าอย่างง่ายดาย
เมื่อดาวน์โหลด Ollama แล้ว แยกมันไปที่โฟลเดอร์ ที่คุณเลือกและ เรียกใช้มัน.
ขั้นตอนที่ 2: ดาวน์โหลดโมเดล Llama 2
เมื่อติดตั้ง Ollama แล้ว รันคำสั่งต่อไปนี้ เพื่อดึงพารามิเตอร์ 13 พันล้านรุ่น Llama 2
ollama pull llama2:13b
การดำเนินการนี้อาจใช้เวลาสักครู่ ดังนั้น ให้เวลาดำเนินการก่อน เป็นไฟล์ขนาด 7.4GB และอาจจะช้าในการเชื่อมต่อบางอย่าง
ขั้นตอนที่ 3: เรียกใช้ Llama 2 และโต้ตอบกับมัน
ต่อไป, รันคำสั่งต่อไปนี้ เพื่อเปิดใช้และโต้ตอบกับโมเดล
ollama run llama2
จากนั้นจะเป็นการเปิดตัวโมเดล และคุณสามารถโต้ตอบกับโมเดลได้ คุณทำเสร็จแล้ว!
วิธีรัน Llama 2 บน Windows โดยใช้เว็บ GUI
หากคุณใช้เครื่อง Windows ก็ไม่ต้องกังวล เนื่องจากตั้งค่าได้ง่ายพอๆ กัน แต่มีขั้นตอนมากกว่านี้! คุณจะสามารถโคลนพื้นที่เก็บข้อมูล GitHub และเรียกใช้ภายในเครื่องได้ เพียงเท่านี้คุณก็ต้องทำ
ขั้นตอนที่ 1: ดาวน์โหลดและเรียกใช้ Llama 2 Web GUI
หากคุณคุ้นเคย. การแพร่กระจายที่เสถียร และรันมันในเครื่องผ่านเว็บ GUI นั่นคือสิ่งที่เป็นโดยพื้นฐาน พื้นที่เก็บข้อมูล Web UI GitHub ของ oobabooga ได้รับแรงบันดาลใจจากสิ่งนั้นและทำงานในลักษณะเดียวกันมาก
- ดาวน์โหลด พื้นที่เก็บข้อมูลที่ลิงก์ด้านบน
- วิ่ง start_windows.bat, start_linux.sh, หรือ start_macos.sh ขึ้นอยู่กับแพลตฟอร์มที่คุณใช้
- เลือก GPU ของคุณ และอนุญาตให้ติดตั้งทุกสิ่งที่ต้องการ
ขั้นตอนที่ 2: เข้าถึง Llama 2 Web GUI
จากด้านบน คุณจะเห็นได้ว่าจะให้ที่อยู่ IP ในเครื่องแก่คุณเพื่อเชื่อมต่อกับเว็บ GUI เชื่อมต่อกับเบราว์เซอร์ของคุณและคุณจะเห็นเว็บ GUI คลิกไปรอบๆ และทำความคุ้นเคยกับ UI คุณจะต้องโหลดหน้าต่างแชทก่อน แต่จะใช้งานไม่ได้จนกว่าคุณจะโหลดโมเดล
ขั้นตอนที่ 3: โหลดโมเดล Llama 2
ตอนนี้คุณจะต้องโหลดโมเดล การดำเนินการนี้จะใช้เวลาสักครู่เนื่องจากจะต้องดาวน์โหลด แต่คุณสามารถทำได้จากภายใน Web GUI
- คลิก แบบอย่าง แท็บที่ด้านบน
- ทางด้านขวาให้เข้าไป TheBloke/Llama-2-13B-chat-GPTQ และคลิก ดาวน์โหลด
- หากกำลังดาวน์โหลด คุณจะเห็นแถบความคืบหน้าในพร้อมท์คำสั่งขณะดาวน์โหลดไฟล์ที่เกี่ยวข้อง
- เมื่อเสร็จสิ้น ให้รีเฟรชรายการรุ่นทางด้านซ้ายแล้วคลิกรุ่นที่ดาวน์โหลด
- คลิก โหลดตรวจสอบให้แน่ใจว่าตัวโหลดโมเดลนั้นบอกว่า GPTQ สำหรับ LLaMa
อาจใช้เวลาสักครู่ในการโหลด เนื่องจากโมเดลเหล่านี้ต้องใช้ vRAM จำนวนมาก
ขั้นตอนที่ 4: โต้ตอบกับลามะ 2!
ทุกอย่างเป็นไปด้วยดี ตอนนี้คุณควรให้ Llama 2 ทำงานบนพีซีของคุณแล้ว! คุณสามารถโต้ตอบกับมันผ่านเบราว์เซอร์ของคุณในสภาพแวดล้อมที่ไม่มีอินเทอร์เน็ต ตราบใดที่คุณมีฮาร์ดแวร์ที่จำเป็นในการดำเนินการ บน RTX 4080 ของฉันที่มี vRAM ขนาด 16GB นั้นสามารถสร้างได้ที่เกือบ 20 โทเค็นต่อวินาที ซึ่งเร็วกว่าที่คุณจะพบในแผนฟรีส่วนใหญ่สำหรับ LLM เช่น ChatGPT หรืออื่นๆ อย่างมาก