Llama 2:n käyttäminen paikallisesti Macissa tai PC: ssä

Jos olet kuullut Llama 2:sta ja haluat käyttää sitä tietokoneellasi, voit tehdä sen helposti muutamilla ohjelmilla ilmaiseksi.

Pikalinkit

Vaatimukset

Llama 2:n käyttäminen Macissa tai Linuxissa Ollaman avulla

Llama 2:n käyttäminen Windowsissa verkkokäyttöliittymän avulla

Jos pidät ajatuksesta ChatGPT, Google Bard, Bing Chat, tai jokin muu AI-avustaja, saatat olla huolissaan esimerkiksi yksityisyydestä, kustannuksista tai muusta. Siellä Llama 2 tulee sisään. Llama 2 on Metan kehittämä avoimen lähdekoodin suuri kielimalli, jonka muunnelmia on 7 miljardista 70 miljardiin parametriin.

Koska se on avoimen lähdekoodin LLM, voit muokata sitä ja käyttää sitä haluamallasi tavalla millä tahansa laitteella. Jos haluat kokeilla sitä Linux-, Mac- tai Windows-koneella, voit helposti!

Vaatimukset

Tarvitset seuraavat, jotta voit suorittaa Llama 2:n paikallisesti:

Yksi parhaat Nvidia GPU: t (voit käyttää AMD: tä Linuxissa)
Internet-yhteys

Llama 2:n käyttäminen Macissa tai Linuxissa Ollaman avulla

Jos sinulla on Mac, voit käyttää Ollamaa Llama 2:n suorittamiseen. Se on ylivoimaisesti helpoin tapa tehdä se kaikista alustoista, koska se vaatii vain vähän työtä. Tarvitset vain Macin ja aikaa ladata LLM, koska se on suuri tiedosto.

Vaihe 1: Lataa Ollama

Ensimmäinen asia, joka sinun on tehtävä, on ladata Ollama. Se toimii Macissa ja Linuxissa, ja sen avulla on helppo ladata ja käyttää useita malleja, mukaan lukien Llama 2. Voit jopa käyttää sitä Docker-säiliössä, jos haluat GPU-kiihdytyksen, jos haluat, että se on helppo määrittää.

Kun Ollama on ladattu, pura se kansioon valintasi mukaan ja ajaa sitä.

Vaihe 2: Lataa Llama 2 -malli

Kun Ollama on asennettu, suorita seuraava komento vetää 13 miljardin parametrin Llama 2 -malli.

ollama pull llama2:13b

Tämä voi kestää hetken, joten anna sille aikaa ajaa. Se on 7,4 Gt: n tiedosto ja saattaa olla hidas joillakin yhteyksillä.

Vaihe 3: Suorita Llama 2 ja ole vuorovaikutuksessa sen kanssa

Seuraava, suorita seuraava komento käynnistääksesi mallin ja olla vuorovaikutuksessa sen kanssa.

ollama run llama2

Tämä käynnistää sitten mallin, ja voit olla vuorovaikutuksessa sen kanssa. Olet valmis!

Llama 2:n käyttäminen Windowsissa verkkokäyttöliittymän avulla

Jos käytät Windows-konetta, sinun ei tarvitse murehtia, sillä sen käyttöönotto on yhtä helppoa, vaikkakin vaiheita on enemmän! Voit kloonata GitHub-arkiston ja käyttää sitä paikallisesti, ja se on kaikki mitä sinun tarvitsee tehdä.

Vaihe 1: Lataa ja suorita Llama 2 Web GUI

Jos olet perehtynyt Vakaa diffuusio ja sen käyttäminen paikallisesti verkkokäyttöliittymän kautta, sitä tämä periaatteessa on. oobaboogan tekstin sukupolven verkkokäyttöliittymän GitHub-arkisto on siitä inspiroitunut ja toimii hyvin pitkälti samalla tavalla.

ladata yllä linkitetty arkisto
Juosta start_windows.bat, start_linux.sh, tai start_macos.sh riippuen siitä, mitä alustaa käytät
Valitse GPU ja anna sen asentaa kaikki tarvitsemansa

Vaihe 2: Avaa Llama 2 -verkkokäyttöliittymä

Yllä olevasta voit nähdä, että se antaa sinulle paikallisen IP-osoitteen muodostaaksesi yhteyden verkkokäyttöliittymään. Yhdistä siihen selaimessasi ja sinun pitäisi nähdä verkkokäyttöliittymä. Napsauta ja tutustu käyttöliittymään. Olet ensin ladannut keskusteluikkunan, mutta se ei toimi ennen kuin lataat mallin.

Vaihe 3: Lataa Llama 2 -malli

Nyt sinun on ladattava malli. Tämä kestää jonkin aikaa, koska sen lataaminen vaatii, mutta voit tehdä sen Web-käyttöliittymän sisältä.

Klikkaa Malli välilehti yläreunassa
Syötä oikealla TheBloke/Llama-2-13B-chat-GPTQ ja napsauta ladata
Jos se latautuu, sinun pitäisi nähdä edistymispalkki komentokehotteessa, kun se lataa asiaankuuluvat tiedostot.
Kun se on valmis, päivitä vasemmalla oleva malliluettelo ja napsauta ladattua mallia.
Klikkaus Ladata, varmista, että mallilataaja sanoo GPTQ-for-LLaMa

Sen latautuminen voi kestää hetken, koska nämä mallit vaativat paljon vRAM-muistia.

Vaihe 4: Ole vuorovaikutuksessa Llama 2:n kanssa!

Kaikki menee hyvin, Llama 2:n pitäisi nyt olla käynnissä tietokoneellasi! Voit olla vuorovaikutuksessa sen kanssa selaimesi kautta ei-internet-ympäristössä, kunhan sinulla on sen suorittamiseen tarvittava laitteisto. RTX 4080:llani, jossa on 16 Gt vRAM-muistia, se voi tuottaa lähes 20 merkkiä sekunnissa, mikä on huomattavasti nopeampaa kuin mitä löydät useimmista LLM-palveluista, kuten ChatGPT: stä tai muista, ilmaisista suunnitelmista.