Cara menjalankan Llama 2 secara lokal di Mac atau PC Anda

Jika Anda pernah mendengar tentang Llama 2 dan ingin menjalankannya di PC, Anda dapat melakukannya dengan mudah menggunakan beberapa program gratis.

tautan langsung

Persyaratan

Cara menjalankan Llama 2 di Mac atau Linux menggunakan Ollama

Cara menjalankan Llama 2 di Windows menggunakan GUI web

Jika Anda menyukai gagasan itu ObrolanGPT, Google Penyair, Obrolan Bing, atau asisten AI lainnya, maka Anda mungkin memiliki beberapa kekhawatiran terkait privasi, biaya, atau lainnya. Di situlah Llama 2 berperan. Llama 2 adalah model bahasa besar sumber terbuka yang dikembangkan oleh Meta, dan terdapat varian mulai dari 7 miliar hingga 70 miliar parameter.

Mengingat ini adalah LLM sumber terbuka, Anda dapat memodifikasinya dan menjalankannya dengan cara apa pun yang Anda inginkan, di perangkat apa pun. Jika Anda ingin mencobanya di mesin Linux, Mac, atau Windows, Anda bisa melakukannya dengan mudah!

Persyaratan

Anda memerlukan yang berikut ini untuk menjalankan Llama 2 secara lokal:

Salah satu dari GPU Nvidia terbaik (Anda dapat menggunakan AMD di Linux)
Koneksi internet

Cara menjalankan Llama 2 di Mac atau Linux menggunakan Ollama

Jika Anda memiliki Mac, Anda dapat menggunakan Ollama untuk menjalankan Llama 2. Sejauh ini, ini adalah cara termudah untuk melakukannya dibandingkan semua platform, karena memerlukan sedikit usaha untuk melakukannya. Yang Anda butuhkan hanyalah Mac dan waktu untuk mengunduh LLM, karena filenya besar.

Langkah 1: Unduh Ollama

Hal pertama yang perlu Anda lakukan adalah unduh Ollama. Ini berjalan di Mac dan Linux dan memudahkan untuk mengunduh dan menjalankan berbagai model, termasuk Llama 2. Anda bahkan dapat menjalankannya dalam wadah Docker jika Anda ingin dengan akselerasi GPU jika Anda ingin mengonfigurasinya dengan mudah.

Setelah Ollama diunduh, ekstrak ke dalam folder pilihan Anda dan menjalankannya.

Langkah 2: Unduh model Llama 2

Setelah Ollama diinstal, jalankan perintah berikut untuk menarik 13 miliar parameter model Llama 2.

ollama pull llama2:13b

Ini mungkin memakan waktu cukup lama, jadi berikan waktu untuk menjalankannya. Ini adalah file 7,4 GB dan mungkin lambat pada beberapa koneksi.

Langkah 3: Jalankan Llama 2 dan berinteraksi dengannya

Berikutnya, jalankan perintah berikut untuk meluncurkan dan berinteraksi dengan model.

ollama run llama2

Ini kemudian akan meluncurkan model, dan Anda dapat berinteraksi dengannya. Kamu sudah selesai!

Cara menjalankan Llama 2 di Windows menggunakan GUI web

Jika Anda menggunakan mesin Windows, maka tidak perlu khawatir karena pengaturannya mudah, meskipun dengan langkah yang lebih banyak! Anda akan dapat mengkloning repositori GitHub dan menjalankannya secara lokal, dan hanya itu yang perlu Anda lakukan.

Langkah 1: Unduh dan jalankan GUI Web Llama 2

Jika Anda sudah familiar dengan Difusi Stabil dan menjalankannya secara lokal melalui GUI Web, pada dasarnya itulah yang terjadi. repositori GitHub UI Web pembuatan teks oobabooga terinspirasi oleh hal itu dan bekerja dengan cara yang hampir sama.

Unduh repositori yang ditautkan di atas
Berlari mulai_windows.bat, start_linux.sh, atau mulai_macos.sh tergantung pada platform apa yang Anda gunakan
Pilih GPU Anda dan izinkan untuk menginstal semua yang diperlukan

Langkah 2: Akses GUI Web Llama 2

Dari penjelasan di atas, Anda dapat melihat bahwa ini akan memberi Anda alamat IP lokal untuk terhubung ke GUI web. Hubungkan ke sana di browser Anda dan Anda akan melihat GUI web. Klik di sekitar dan biasakan diri Anda dengan UI. Anda akan memuat jendela obrolan terlebih dahulu, namun jendela tersebut tidak akan berfungsi sampai Anda memuat model.

Langkah 3: Muat model Llama 2

Sekarang Anda harus memuat model. Ini akan memakan waktu karena perlu mengunduhnya, tetapi Anda dapat melakukannya dari dalam Web GUI.

Klik Model tab di bagian atas
Di sebelah kanan, masuk TheBloke/Llama-2-13B-obrolan-GPTQ dan klik Unduh
Jika sedang mengunduh, Anda akan melihat bilah kemajuan di prompt perintah saat mengunduh file yang relevan.
Jika sudah selesai, segarkan daftar model di sebelah kiri dan klik model yang diunduh.
Klik Memuat, pastikan pemuat model menyatakan GPTQ-untuk-LLaMa

Mungkin perlu beberapa saat untuk memuatnya, karena model ini memerlukan banyak vRAM.

Langkah 4: Berinteraksi dengan Llama 2!

Semua berjalan dengan baik, Anda sekarang seharusnya sudah menjalankan Llama 2 di PC Anda! Anda dapat berinteraksi dengannya melalui browser Anda di lingkungan tanpa internet, selama Anda memiliki perangkat keras yang diperlukan untuk menjalankannya. Di RTX 4080 saya dengan vRAM 16GB, ia dapat menghasilkan hampir 20 token per detik, yang jauh lebih cepat daripada yang Anda temukan di sebagian besar paket gratis untuk LLM apa pun seperti ChatGPT atau lainnya.