Det er ikke for langt ude at overveje, at 24 GB RAM vil være normen for smartphones i fremtiden, og det er takket være AI.
Rygterne har svirret i et stykke tid nu om, at der vil komme smartphones i løbet af det næste år, som vil have hele 24 GB RAM. Det er en enorm mængde af enhver metrik, med den mest almindelige RAM-konfiguration på spil-pc'er er en ydmyg 16 GB i skrivende stund. 24 GB RAM lyder som en latterlig mængde, men, ikke når det kommer til AI.
AI er RAM-hungrende
Hvis du ønsker at køre en hvilken som helst AI-model på en smartphone, er den første ting, du skal vide, at for at udføre stort set enhver model, har du brug for en masse af RAM. Den filosofi er grunden til, at du har brug for en masse VRAM når du arbejder med applikationer som Stable Diffusion, og det gælder også for tekstbaserede modeller. Grundlæggende vil disse modeller typisk blive indlæst på RAM i hele arbejdsbyrden, og det er -enmasse hurtigere end at udføre fra lager.
RAM er hurtigere af et par grunde, men de to vigtigste er, at det er lavere latency, da det er tættere på CPU'en, og det har højere båndbredde. Det er nødvendigt at indlæse store sprogmodeller (LLM) på RAM på grund af disse egenskaber, men det næste spørgsmål, der typisk følger, er præcis
hvor meget RAM bruges af disse modeller.Hvis Vicuna-7B skulle forsyne Google Assistant på folks enheder med hjælp fra skytjenester, ville du i teori, har alle fordelene ved en LLM, der kører på en enhed med den ekstra fordel at indsamle cloud-baserede data.
Der er meget, der er værd at se nærmere på, når det kommer til nogle LLM'er, der i øjeblikket er i drift, og en, som jeg har leget med for nylig, har været Vicuna-7B. Det er en LLM trænet på et datasæt med 7 milliarder parametre, der kan implementeres på en Android-smartphone via MLC LLM, som er en universel app, der hjælper med LLM-implementering. Det tager omkring 6 GB RAM at interagere med det på en Android-smartphone. Det er åbenbart ikke så avanceret som nogle andre LLM'er på markedet lige nu, men det kører også helt lokalt uden behov for en internetforbindelse. For kontekst rygtes det, at GPT-4 har 1,76 billioner parametre, og GPT-3 har 175 mia.
Qualcomm og AI på enheden
Mens tonsvis af virksomheder ræser om at skabe deres egne store sprogmodeller (og grænseflader til at interagere med dem), har Qualcomm fokuseret på ét nøgleområde: implementering. Cloud-tjenester, som virksomheder gør brug af koster millioner at køre de mest kraftfulde chatbots, og OpenAI's ChatGPT siges at køre virksomheden op til $700.000 pr. dag. Enhver implementering på enheden, der udnytter brugerens ressourcer, kan spare mange penge, især hvis den er udbredt.
Qualcomm omtaler dette som "hybrid AI", og det kombinerer skyens og enhedens ressourcer for at opdele beregninger, hvor det er mest passende. Det virker ikke til alt, men hvis Vicuna-7B skulle drive Google Assistant på folks enheder med hjælp fra skyen tjenester, ville du i teorien have alle fordelene ved en LLM, der kører på en enhed med den ekstra fordel at indsamle cloud-baserede data. På den måde kører det til samme pris for Google som assistent, men uden nogen af de ekstra omkostninger.
Det er kun én måde på enhedens AI omgås det omkostningsproblem, som virksomheder står over for i øjeblikket, men det er her, ekstra hardware kommer ind. I tilfælde af smartphones, Qualcomm viste stabil diffusion frem på en Android-smartphone drevet af Snapdragon 8 Gen 2, hvilket er noget, som mange nuværende computere faktisk ville kæmpe med. Siden da har virksomheden vist, at ControlNet også kører på en Android-enhed. Det har tydeligvis forberedt hardware, der er i stand til intense AI-arbejdsbelastninger i et stykke tid, og MLC LLM er en måde, hvorpå du kan teste det lige nu.
Fra ovenstående skærmbillede skal du bemærke, at jeg er i flytilstand med Wi-Fi slukket, og det fungerer stadig meget godt. den genererer omkring fem tokens i sekundet, hvor en token er omkring et halvt ord. Derfor genererer den omkring 2,5 ord i sekundet, hvilket er meget hurtigt til sådan noget. Det interagerer ikke med internettet i sin nuværende tilstand, men i betragtning af, at det hele er open source, en virksomhed kunne tage arbejdet udført af MLC LLM og holdet bag Vicuna-7B-modellen og implementere det i en anden nyttig sammenhæng.
Anvendelser af generativ AI på enheden
Jeg talte med Karl Whealton, seniordirektør for produktstyring hos Qualcomm, som er ansvarlig for CPU, DSP, benchmarking og AI-hardware. Han fortalte mig alt om de forskellige applikationer af AI-modeller, der kører på Snapdragon-chipsæt, og han gav mig en idé om, hvad der kan være muligt på Snapdragon-chipsæt i dag. Han fortæller mig, at Snapdragon 8 Gen 2's mikroflise-inferencing er utrolig god med transformere, hvor en transformer er en model, der kan spore relationer i sekventielle data (som ord i en sætning), der også kan lære konteksten.
Til det formål spurgte jeg ham om de RAM-krav, der rygtes i øjeblikket, og han fortalte mig, at med en sprogmodel af enhver art eller skala, brug for for at indlæse det i RAM. Han fortsatte med at sige, at han ville forvente, at hvis en OEM skulle implementere noget som dette i et mere begrænset RAM-miljø, er det mere sandsynligt, at de ville bruge en mindre, måske mere specialiseret sprogmodel i et mindre segment af RAM end blot at køre det væk fra lageret i enhed. Det ville ellers være brutalt langsomt og ville ikke være en god brugeroplevelse.
Et eksempel på en specialiseret use case er en, som Qualcomm talte om for nylig ved den årlige computer Vision and Pattern Recognition Conference - at generativ AI kan fungere som en fitnesstræner til ende brugere. For eksempel kan en visuelt jordet LLM analysere et videofeed for derefter at se, hvad en bruger gør, analysere, om de gør det forkert, fodre resultat til en sprogmodel, der kan sætte ord på, hvad brugeren gør forkert, og derefter bruge en talemodel til at videresende denne information til bruger.
I teorien kunne OnePlus levere 16 GB RAM til almindelig brug, men yderligere 8 GB RAM oven i det kun bruges til AI.
Selvfølgelig er den anden vigtige faktor i on-device AI privatliv. Med disse modeller er det meget sandsynligt, at du vil dele dele af dit personlige liv med dem, når du stiller spørgsmål, eller endda bare at give AI-adgang til din smartphone kan bekymre folk. Whealton fortæller mig, at alt, der kommer ind i SoC, er meget sikkert, og at dette er "en af grundene til" at gøre det på enheden er så vigtigt for Qualcomm.
Til det formål annoncerede Qualcomm også, at det arbejdede sammen med Meta for at aktivere virksomhedens open source Llama 2 LLM skal køre på Qualcomm-enheder, og den skal efter planen gøres tilgængelig for enheder fra kl. 2024.
Hvordan 24 GB RAM kan indbygges i en smartphone
Kilde: Smartprix
Med de seneste lækager, der peger på det kommende OnePlus 12 med op til 16 GB RAM, kan du undre dig over, hvad der skete med disse rygter om 24 GB RAM. Sagen er, at det ikke udelukker OnePlus fra at inkludere on-device AI, og det er der en grund til.
Som Whealton bemærkede for mig, når du styrer DRAM, er der intet, der forhindrer dig i at segmentere RAM'en, så systemet ikke kan få adgang til det hele. I teorien kunne OnePlus levere 16 GB RAM til almindelig brug, men yderligere 8 GB RAM oven i det kun bruges til AI. I dette tilfælde ville det ikke give mening at annoncere det som en del af det samlede RAM-nummer, da det er utilgængeligt for resten af systemet. Desuden er det meget sandsynligt, at denne RAM-mængde vil forblive statisk selv i 8GB eller 12GB RAM-konfigurationer, da behovene for AI ikke ændres.
Det er med andre ord ikke udelukket, at OnePlus 12 stadig vil have 24 GB RAM; det er bare, at 8 GB måske ikke er traditionelt tilgængeligt. Lækager som disse, der er så tidlige som de kommer, dukker typisk op fra personer, der kan være involveret i selve produktionen af enheden, så det kan være tilfældet, at de har arbejdet med 24GB RAM og ikke været klar over, at 8GB kunne reserveres til meget specifikke formål. Det er dog fuldstændig gætværk fra min side, og det er et forsøg på at skabe mening om de lækager, hvor både Digital Chat Station og OnLeaks kan begge have ret.
Ikke desto mindre er 24 GB RAM vanvittigt meget i en smartphone, og efterhånden som funktioner som disse introduceres, det har aldrig været mere klart, at smartphones bare er superkraftige computere, der kun kan blive mere magtfulde.