Jei girdėjote apie „Llama 2“ ir norite paleisti ją savo kompiuteryje, galite tai padaryti lengvai naudodami kelias nemokamas programas.
Greitos nuorodos
- Reikalavimai
- Kaip paleisti „Llama 2“ „Mac“ arba „Linux“ naudojant „Ollama“.
- Kaip paleisti „Llama 2“ sistemoje „Windows“ naudojant žiniatinklio GUI
Jei jums patinka idėja ChatGPT, Google Bard, Bing Chat, ar bet kurį kitą AI padėjėją, tuomet jums gali kilti klausimų dėl privatumo, išlaidų ir kt. Štai čia pasirodo „Llama 2“. „Llama 2“ yra atviro kodo didelės kalbos modelis, kurį sukūrė „Meta“, o jo variantai svyruoja nuo 7 iki 70 milijardų parametrų.
Atsižvelgiant į tai, kad tai atvirojo kodo LLM, galite jį modifikuoti ir paleisti bet kokiu būdu bet kuriame įrenginyje. Jei norite tai išbandyti „Linux“, „Mac“ ar „Windows“ kompiuteryje, galite lengvai!
Reikalavimai
Norėdami paleisti „Llama 2“ vietoje, jums reikės šių dalykų:
- Vienas iš geriausi Nvidia GPU (galite naudoti AMD sistemoje „Linux“)
- Interneto ryšys
Kaip paleisti „Llama 2“ „Mac“ arba „Linux“ naudojant „Ollama“.
Jei turite „Mac“, galite naudoti „Ollama“, kad paleistumėte „Llama 2“. Tai pats lengviausias būdas tai padaryti iš visų platformų, nes tam reikia minimalaus darbo. Viskas, ko jums reikia, yra „Mac“ ir laikas atsisiųsti LLM, nes tai didelis failas.
1 veiksmas: atsisiųskite „Ollama“.
Pirmas dalykas, kurį turėsite padaryti, yra parsisiųsti Ollama. Jis veikia „Mac“ ir „Linux“, todėl jį lengva atsisiųsti ir paleisti kelis modelius, įskaitant „Llama 2“. Netgi galite jį paleisti „Docker“ konteineryje, jei norite su GPU pagreitinimu, jei norite, kad jis būtų lengvai konfigūruojamas.
Atsisiuntus „Ollama“, ištraukite jį į aplanką jūsų pasirinkimu ir paleisti jį.
2 veiksmas: atsisiųskite „Llama 2“ modelį
Kai Ollama bus įdiegta, paleiskite šią komandą traukti 13 milijardų parametrų Llama 2 modelį.
ollama pull llama2:13b
Tai gali užtrukti, todėl duokite laiko paleisti. Tai 7,4 GB failas ir kai kuriais ryšiais gali veikti lėtai.
3 veiksmas: paleiskite „Llama 2“ ir bendraukite su ja
Kitas, paleiskite šią komandą paleisti ir sąveikauti su modeliu.
ollama run llama2
Tada modelis bus paleistas ir galėsite su juo bendrauti. Jūs baigėte!
Kaip paleisti „Llama 2“ sistemoje „Windows“ naudojant žiniatinklio GUI
Jei naudojate „Windows“ įrenginį, nereikia jaudintis, nes jį nustatyti taip pat paprasta, tačiau reikia atlikti daugiau veiksmų! Galėsite klonuoti „GitHub“ saugyklą ir paleisti ją vietoje, ir tai viskas, ką jums reikia padaryti.
1 veiksmas: atsisiųskite ir paleiskite „Llama 2 Web GUI“.
Jei esate susipažinę su Stabili difuzija ir paleisti jį vietoje per žiniatinklio GUI, tai iš esmės ir yra. „Oobabooga“ teksto generavimo žiniatinklio sąsajos „GitHub“ saugykla yra to įkvėptas ir veikia labai panašiai.
- parsisiųsti saugyklą, susietą aukščiau
- Bėk start_windows.bat, start_linux.sh, arba start_macos.sh priklausomai nuo to, kokią platformą naudojate
- Pasirinkite savo GPU ir leisti įdiegti viską, ko reikia
2 veiksmas: pasiekite „Llama 2“ žiniatinklio GUI
Iš to, kas išdėstyta aukščiau, matote, kad jis suteiks jums vietinį IP adresą, kad galėtumėte prisijungti prie žiniatinklio GUI. Prisijunkite prie jo savo naršyklėje ir turėtumėte pamatyti žiniatinklio GUI. Spustelėkite ir susipažinkite su vartotojo sąsaja. Pirmiausia turėsite įkelti pokalbių langą, bet jis neveiks, kol neįkelsite modelio.
3 veiksmas: įkelkite „Llama 2“ modelį
Dabar turėsite įkelti modelį. Tai užtruks šiek tiek laiko, nes jį reikės atsisiųsti, tačiau tai galite padaryti naudodami žiniatinklio GUI.
- Spustelėkite Modelis skirtukas viršuje
- Dešinėje įveskite TheBloke/Llama-2-13B-chat-GPTQ ir spustelėkite parsisiųsti
- Jei atsisiunčiama, komandų eilutėje turėtumėte matyti eigos juostą, kai atsisiunčiami atitinkami failai.
- Kai baigsite, atnaujinkite modelių sąrašą kairėje ir spustelėkite atsisiųstą modelį.
- Spustelėkite Įkelti, įsitikinkite, kad modelio krautuvas sako GPTQ-for-LLaMa
Gali užtrukti, kol jis bus įkeltas, nes šiems modeliams reikia daug vRAM.
4 veiksmas: bendraukite su Llama 2!
Viskas klostosi gerai, dabar jūsų kompiuteryje turėtų veikti Llama 2! Galite sąveikauti su juo naudodami savo naršyklę aplinkoje, kurioje nėra interneto, jei turite aparatinę įrangą, reikalingą jai vykdyti. Mano RTX 4080 su 16 GB vRAM jis gali generuoti beveik 20 žetonų per sekundę, o tai yra daug greičiau, nei rasite daugumoje nemokamų bet kokių LLM, pvz., „ChatGPT“ ar kitų planų.