24 GB RAM v smartfóne? Nie je to také šialené, ako si možno myslíte.

Uvažovať o tom, že 24 GB RAM bude v budúcnosti štandardom pre smartfóny, nie je príliš pritiahnuté za vlasy, a to vďaka AI.

Už nejaký čas sa hovorí, že v priebehu budúceho roka prídu smartfóny, ktoré budú mať neuveriteľných 24 GB RAM. To je obrovské množstvo podľa akejkoľvek metriky, pričom najbežnejšia konfigurácia RAM na herných počítačoch je skromných 16 GB v čase písania. 24 GB RAM znie ako smiešne množstvo, ale, nie, pokiaľ ide o AI.

AI je hladná po RAM

Ak chcete spustiť akýkoľvek model AI na smartfóne, prvá vec, ktorú potrebujete vedieť, je, že na spustenie v podstate akéhokoľvek modelu potrebujete veľa RAM. Táto filozofia je dôvod, prečo potrebujete veľa VRAM pri práci s aplikáciami, ako je Stable Diffusion, a vzťahuje sa aj na textové modely. V zásade sa tieto modely zvyčajne načítajú do pamäte RAM počas trvania pracovného zaťaženia a je to tak aveľa rýchlejšie ako spustenie z úložiska.

RAM je rýchlejšia z niekoľkých dôvodov, ale dva najdôležitejšie sú, že má nižšiu latenciu, pretože je bližšie k CPU a má vyššiu šírku pásma. Kvôli týmto vlastnostiam je potrebné načítať veľké jazykové modely (LLM) do RAM, ale ďalšia otázka, ktorá zvyčajne nasleduje, je presne

koľko Tieto modely používajú RAM.

Ak by Vicuna-7B poháňala Asistenta Google na zariadeniach ľudí s pomocou cloudových služieb, v teória, majú všetky výhody LLM bežiaceho na zariadení s ďalšou výhodou zhromažďovania údajov z cloudu.

Je toho veľa, čo stojí za to preskúmať, pokiaľ ide o niektoré LLM, ktoré sú v súčasnosti nasadené, a jeden, s ktorým som sa nedávno pohrával, bol Vicuna-7B. Je to LLM vyškolený na súbore údajov 7 miliárd parametrov, ktoré je možné nasadiť na smartfóne so systémom Android prostredníctvom MLC LLM, čo je univerzálna aplikácia, ktorá pomáha pri nasadzovaní LLM. Na interakciu s ním na smartfóne so systémom Android je potrebných približne 6 GB pamäte RAM. Je zrejmé, že nie je tak pokročilý ako niektoré iné LLM na trhu práve teraz, ale tiež beží úplne lokálne bez potreby internetového pripojenia. Pre kontext sa hovorí, že GPT-4 má 1,76 bilióna parametre a GPT-3 má 175 mld.

Qualcomm a AI na zariadení

Zatiaľ čo tony spoločností sa pretekajú vo vytváraní vlastných veľkých jazykových modelov (a rozhraní na interakciu s nimi), Qualcomm sa zameriava na jednu kľúčovú oblasť: nasadenie. Cloudové služby, ktoré spoločnosti využívajú nákladov miliónov na spustenie tých najvýkonnejších chatbotov a ChatGPT od OpenAI vraj poháňa spoločnosť až 700 000 dolárov ročne deň. Akékoľvek nasadenie na zariadení, ktoré využíva zdroje používateľa, môže ušetriť veľa peňazí, najmä ak je rozšírené.

Qualcomm to označuje ako „hybridná AI“ a kombinuje zdroje cloudu a zariadenia na rozdelenie výpočtu tam, kde je to najvhodnejšie. Nebude to fungovať pre všetko, ale ak by Vicuna-7B poháňala Asistenta Google na zariadeniach ľudí s pomocou cloudu služieb, teoreticky by ste mali všetky výhody LLM bežiaceho na zariadení s ďalšou výhodou zhromažďovania cloudové dáta. Týmto spôsobom funguje za rovnakú cenu pre Google ako Asistent, ale bez akýchkoľvek ďalších režijných nákladov.

To je len jeden spôsob, ako AI na zariadení obísť problém s nákladmi, ktorým spoločnosti v súčasnosti čelia, no práve tu prichádza na rad ďalší hardvér. V prípade smartfónov Qualcomm predviedol Stable Diffusion na smartfóne s Androidom poháňanom Snapdragonom 8 Gen 2, s čím by veľa súčasných počítačov skutočne bojovalo. Odvtedy spoločnosť ukázala, že ControlNet beží aj na zariadení so systémom Android. Je zrejmé, že už nejaký čas pripravuje hardvér schopný intenzívneho pracovného zaťaženia AI a MLC LLM je spôsob, ktorý môžete otestovať práve teraz.

Z vyššie uvedenej snímky obrazovky si všimnite, že som v režime v lietadle s vypnutým Wi-Fi a stále to funguje veľmi dobre. generuje približne päť tokenov za sekundu, pričom token je asi polovica slova. Preto generuje asi 2,5 slova za sekundu, čo je na niečo také dosť rýchle. V súčasnom stave neinteraguje s internetom, ale vzhľadom na to, že je to všetko spoločnosť s otvoreným zdrojom mohli vziať prácu MLC LLM a tím stojaci za modelom Vicuna-7B a implementovať ju do iného užitočného kontext.

Aplikácie generatívnej AI na zariadení

Hovoril som s Karlom Whealtonom, senior riaditeľom produktového manažmentu v Qualcomm, ktorý je zodpovedný za CPU, DSP, benchmarking a hardvér AI. Povedal mi všetko o rôznych aplikáciách modelov AI bežiacich na čipsetoch Snapdragon a dal mi predstavu o tom, čo je dnes možné na čipových súpravách Snapdragon. Hovorí mi, že odvodenie mikrodlaždíc Snapdragon 8 Gen 2 je neuveriteľne dobré s transformátormi, kde transformátor je model, ktorý dokáže sledovať vzťahy v sekvenčných údajoch (napríklad slová vo vete), ktoré sa môžu tiež učiť kontext.

Za týmto účelom som sa ho spýtal na požiadavky RAM, o ktorých sa v súčasnosti hovorí, a povedal mi, že s jazykovým modelom akéhokoľvek druhu alebo rozsahu potrebu načítať ho do RAM. Pokračoval, že by očakával, že ak by OEM implementoval niečo také v obmedzenejšom prostredí RAM, je pravdepodobnejšie, že použili by menší, možno špecializovanejší jazykový model v menšom segmente pamäte RAM, než by ju jednoducho stiahli z úložného priestoru zariadenie. Inak by bol brutálne pomalý a nebol by to dobrý používateľský zážitok.

Príkladom špecializovaného prípadu použitia je prípad, o ktorom Qualcomm hovoril nedávno na výročnom Computer Konferencia Vision and Pattern Recognition — že generatívna AI môže pôsobiť ako kondičný tréner používateľov. Vizuálne založená LLM môže napríklad analyzovať video kanál, aby potom videla, čo používateľ robí, analyzovala, či to robí zle, výsledkom je jazykový model, ktorý dokáže slovami vyjadriť, čo používateľ robí zle, a potom použiť rečový model na prenos týchto informácií užívateľ.

Teoreticky by OnePlus mohol poskytnúť 16 GB pamäte RAM na všeobecné použitie, ale navyše ďalších 8 GB pamäte RAM iba používané pre AI.

Samozrejme, ďalším dôležitým faktorom v AI na zariadení je súkromie. S týmito modelmi je veľmi pravdepodobné, že by ste s nimi pri kladení otázok zdieľali časti svojho osobného života, alebo dokonca len ak by ste ľuďom poskytli prístup AI k smartfónu. Whealton mi povedal, že všetko, čo vstúpi do SoC, je vysoko bezpečné a že toto je „jeden z dôvodov“, prečo je to na zariadení pre Qualcomm také dôležité.

Za týmto účelom Qualcomm tiež oznámil, že spolupracuje s Meta na aktivácii open-source spoločnosti Llama 2 LLM bude bežať na zariadeniach Qualcomm, pričom je naplánované, že bude k dispozícii pre zariadenia začínajúce v 2024.

Ako možno 24 GB RAM začleniť do smartfónu

Zdroj: Smartprix

S nedávnymi únikmi, ktoré poukazujú na nadchádzajúce OnePlus 12 obsahuje až 16 GB RAMMožno sa čudujete, čo sa stalo s tými 24GB RAM fámami. Ide o to, že to nebráni OnePlus v zahrnutí AI na zariadení a má to svoj dôvod.

Ako mi poznamenal Whealton, keď ovládate DRAM, nič vám nebráni v segmentovaní pamäte RAM tak, aby k nej systém nemal prístup. Teoreticky by OnePlus mohol poskytnúť 16 GB pamäte RAM na všeobecné použitie, ale navyše ďalších 8 GB pamäte RAM iba používané pre AI. V tomto prípade by nemalo zmysel inzerovať ho ako súčasť celkového počtu RAM, keďže je pre zvyšok systému nedostupný. Okrem toho je veľmi pravdepodobné, že toto množstvo pamäte RAM zostane statické aj v konfiguráciách s 8 GB alebo 12 GB RAM, pretože potreby AI sa nezmenia.

Inými slovami, nie je vylúčené, že OnePlus 12 bude mať stále 24 GB RAM; len 8GB nemusí byť tradične prístupných. Takéto netesnosti, ktoré sú už pri ich vzniku, sa zvyčajne objavujú od ľudí, ktorí sa môžu podieľať na skutočnej výrobe zariadenia, takže sa môže stať, že pracovali s 24 GB RAM a nevedeli, že 8 GB môže byť rezervovaných na veľmi špecifické účely. Z mojej strany sú to však len dohady a ide o pokus pochopiť úniky informácií, ktoré môžu využívať Digital Chat Station aj OnLeaks. oboje mať pravdu.

Napriek tomu je 24 GB RAM v smartfóne šialené množstvo a keďže sú predstavené funkcie, ako sú tieto, nikdy nebolo jasnejšie, že smartphony sú len super výkonné počítače, ktoré môžu byť ešte viac mocný.