Kā lokāli palaist Llama 2 savā Mac vai personālajā datorā

Ja esat dzirdējis par Llama 2 un vēlaties to palaist datorā, varat to viegli izdarīt, izmantojot dažas programmas bez maksas.

Ātrās saites

Prasības

Kā palaist Llama 2 operētājsistēmā Mac vai Linux, izmantojot Ollama

Kā palaist Llama 2 operētājsistēmā Windows, izmantojot tīmekļa GUI

Ja jums patīk ideja par ChatGPT, Google Bard, Bing tērzēšana, vai kādu citu AI palīgu, tad jums var rasties bažas par privātumu, izmaksām vai daudz ko citu. Šeit parādās Lama 2. Llama 2 ir atvērtā pirmkoda lielas valodas modelis, ko izstrādājis Meta, un tam ir varianti no 7 līdz 70 miljardiem parametru.

Tā kā tas ir atvērtā pirmkoda LLM, varat to modificēt un palaist jebkurā veidā jebkurā ierīcē. Ja vēlaties to izmēģināt Linux, Mac vai Windows datorā, varat to izdarīt vienkārši!

Prasības

Lai lietotu Llama 2 lokāli, jums būs nepieciešams:

Viens no labākie Nvidia GPU (Jūs varat izmantot AMD operētājsistēmā Linux)
Interneta pieslēgums

Kā palaist Llama 2 operētājsistēmā Mac vai Linux, izmantojot Ollama

Ja jums ir Mac, varat izmantot Ollama, lai palaistu Llama 2. Tas ir vienkāršākais veids, kā to izdarīt no visām platformām, jo tas prasa minimālu darbu. Viss, kas jums nepieciešams, ir Mac un laiks, lai lejupielādētu LLM, jo tas ir liels fails.

1. darbība: lejupielādējiet Ollama

Pirmā lieta, kas jums jādara, ir lejupielādēt Ollama. Tas darbojas operētājsistēmās Mac un Linux, un tas ļauj ērti lejupielādēt un palaist vairākus modeļus, tostarp Llama 2. Varat pat to palaist Docker konteinerā, ja vēlaties ar GPU paātrinājumu, ja vēlaties to viegli konfigurēt.

Kad Ollama ir lejupielādēta, izvelciet to mapē pēc jūsu izvēles un palaist to.

2. darbība. Lejupielādējiet Llama 2 modeli

Kad Ollama ir instalēta, palaidiet šādu komandu lai izvilktu 13 miljardu parametru Llama 2 modeli.

ollama pull llama2:13b

Tas var aizņemt kādu laiku, tāpēc dodiet tam laiku darboties. Tas ir 7,4 GB fails, un dažos savienojumos tas var darboties lēni.

3. darbība. Palaidiet Llama 2 un mijiedarbojieties ar to

Nākamais, palaidiet šādu komandu lai palaistu un mijiedarbotos ar modeli.

ollama run llama2

Pēc tam modelis tiks palaists, un jūs varat ar to mijiedarboties. Jūs esat pabeidzis!

Kā palaist Llama 2 operētājsistēmā Windows, izmantojot tīmekļa GUI

Ja izmantojat Windows datoru, jums nav jāuztraucas, jo to ir tikpat vienkārši iestatīt, lai gan ar vairāk darbību! Jūs varēsiet klonēt GitHub repozitoriju un palaist to lokāli, un tas ir viss, kas jums jādara.

1. darbība. Lejupielādējiet un palaidiet Llama 2 tīmekļa GUI

Ja esat iepazinies ar Stabila difūzija un palaist to lokāli, izmantojot tīmekļa GUI, tas būtībā ir tas. oobabooga teksta ģenerēšanas tīmekļa lietotāja interfeisa GitHub repozitorijs ir no tā iedvesmots un darbojas ļoti līdzīgi.

Lejupielādēt krātuve, kas ir saistīta iepriekš
Skrien start_windows.bat, start_linux.sh, vai start_macos.sh atkarībā no izmantotās platformas
Izvēlieties savu GPU un ļauj tai instalēt visu nepieciešamo

2. darbība. Piekļūstiet Llama 2 tīmekļa GUI

No iepriekš minētā jūs varat redzēt, ka tas piešķirs jums vietējo IP adresi, lai izveidotu savienojumu ar tīmekļa GUI. Izveidojiet savienojumu ar to savā pārlūkprogrammā, un jums vajadzētu redzēt tīmekļa GUI. Noklikšķiniet un iepazīstieties ar lietotāja interfeisu. Vispirms būsiet ielādējis tērzēšanas logu, taču tas nedarbosies, kamēr nebūsiet ielādējis modeli.

3. darbība: ielādējiet Llama 2 modeli

Tagad jums būs jāielādē modelis. Tas prasīs kādu laiku, jo tas būs jālejupielādē, taču to var izdarīt tīmekļa GUI iekšpusē.

Noklikšķiniet uz Modelis cilne augšpusē
Labajā pusē ievadiet TheBloke/Llama-2-13B-chat-GPTQ un noklikšķiniet Lejupielādēt
Ja notiek lejupielāde, komandu uzvednē, lejupielādējot attiecīgos failus, vajadzētu redzēt norises joslu.
Kad tas ir pabeigts, atsvaidziniet modeļu sarakstu kreisajā pusē un noklikšķiniet uz lejupielādētā modeļa.
Klikšķis Ielādēt, pārliecinoties, ka modeļa ielādētājs saka GPTQ for-LLaMa

Var paiet kāds brīdis, līdz tas tiks ielādēts, jo šiem modeļiem ir nepieciešams daudz vRAM.

4. darbība. Sadarbojieties ar Lamu 2!

Viss norit labi, tagad datorā vajadzētu darboties programmai Llama 2! Varat ar to mijiedarboties, izmantojot pārlūkprogrammu vidē, kurā nav interneta, ja vien jums ir tā izpildei nepieciešamā aparatūra. Manā RTX 4080 ar 16 GB vRAM tas var ģenerēt ar gandrīz 20 marķieriem sekundē, kas ir ievērojami ātrāk nekā lielākajā daļā bezmaksas plānu jebkuram LLM, piemēram, ChatGPT vai citam.