Det er ikke så langt å tenke på at 24 GB RAM vil være normen for smarttelefoner i fremtiden, og det er takket være AI.
Ryktene har svirret en stund nå om at det vil komme smarttelefoner i løpet av det neste året som vil ha hele 24 GB RAM. Det er en enorm mengde av alle beregninger, med den vanligste RAM-konfigurasjonen på spill-PCer er en ydmyk 16 GB i skrivende stund. 24 GB RAM høres ut som en latterlig mengde, men, ikke når det kommer til AI.
AI er RAM-hungrig
Hvis du ønsker å kjøre en hvilken som helst AI-modell på en smarttelefon, er det første du trenger å vite at for å utføre praktisk talt hvilken som helst modell, trenger du en mye av RAM. Den filosofien er grunnen til at du trenger mye VRAM når du arbeider med applikasjoner som Stable Diffusion, og det gjelder også for tekstbaserte modeller. I utgangspunktet vil disse modellene vanligvis lastes inn på RAM under varigheten av arbeidsbelastningen, og det er enmye raskere enn å kjøre fra lagring.
RAM er raskere av et par grunner, men de to viktigste er at den har lavere ventetid, siden den er nærmere CPUen, og den har høyere båndbredde. Det er nødvendig å laste store språkmodeller (LLM) på RAM på grunn av disse egenskapene, men det neste spørsmålet som vanligvis følger er nøyaktig
hvor mye RAM brukes av disse modellene.Hvis Vicuna-7B skulle drive Google Assistant på folks enheter med litt hjelp fra skytjenester, ville du i teori, har alle fordelene med en LLM som kjører på en enhet med den ekstra fordelen av å samle skybaserte data.
Det er mye som er verdt å se nærmere på når det kommer til noen LLM-er som for tiden er i distribusjon, og en som jeg har lekt med nylig har vært Vicuna-7B. Det er en LLM trent på et datasett med 7 milliarder parametere som kan distribueres på en Android-smarttelefon via MLC LLM, som er en universell app som hjelper til med LLM-distribusjon. Det tar omtrent 6 GB RAM for å samhandle med den på en Android-smarttelefon. Det er åpenbart ikke så avansert som noen andre LLM-er på markedet akkurat nå, men det kjører også helt lokalt uten behov for en internettforbindelse. For kontekst ryktes det at GPT-4 har 1,76 billioner parametere, og GPT-3 har 175 milliarder.
Qualcomm og AI på enheten
Mens tonnevis av selskaper kjemper for å lage sine egne store språkmodeller (og grensesnitt for å samhandle med dem), har Qualcomm fokusert på ett nøkkelområde: distribusjon. Skytjenester som bedrifter benytter seg av koster millioner å kjøre de kraftigste chatbotene, og OpenAIs ChatGPT sies å drive selskapet opp til $700 000 pr. dag. Enhver distribusjon på enheten som utnytter brukerens ressurser kan spare mye penger, spesielt hvis den er utbredt.
Qualcomm refererer til dette som "hybrid AI", og det kombinerer ressursene til skyen og enheten for å dele beregninger der det er mest hensiktsmessig. Det vil ikke fungere for alt, men hvis Vicuna-7B skulle drive Google Assistant på folks enheter med litt hjelp fra skyen tjenester, vil du i teorien ha alle fordelene med en LLM som kjører på en enhet med den ekstra fordelen av å samle skybaserte data. På den måten kjører den til samme kostnad for Google som assistent, men uten noen av de ekstra kostnadene.
Det er bare én måte on-device AI kommer rundt kostnadsproblemet som selskaper står overfor for tiden, men det er her ekstra maskinvare kommer inn. Når det gjelder smarttelefoner, Qualcomm viste frem stabil diffusjon på en Android-smarttelefon drevet av Snapdragon 8 Gen 2, noe som mange nåværende datamaskiner faktisk ville slitt med. Siden den gang har selskapet vist at ControlNet også kjører på en Android-enhet. Det har tydeligvis forberedt maskinvare som er i stand til intense AI-arbeidsbelastninger en stund, og MLC LLM er en måte du kan teste det akkurat nå.
Fra skjermbildet ovenfor, merk at jeg er i flymodus med Wi-Fi slått av, og det fungerer fortsatt veldig bra. den genererer med omtrent fem tokens per sekund, der en token er omtrent et halvt ord. Derfor genererer den omtrent 2,5 ord per sekund, noe som er ganske raskt for noe slikt. Det samhandler ikke med internett i sin nåværende tilstand, men gitt at dette er åpen kildekode, et selskap kunne ta arbeidet utført av MLC LLM og teamet bak Vicuna-7B-modellen og implementere det i en annen nyttig kontekst.
Applikasjoner av generativ AI på enheten
Jeg snakket med Karl Whealton, seniordirektør for produktledelse i Qualcomm, som er ansvarlig for CPU, DSP, benchmarking og AI-maskinvare. Han fortalte meg alt om de forskjellige applikasjonene til AI-modeller som kjører på Snapdragon-brikkesett, og han ga meg en idé om hva som kan være mulig på Snapdragon-brikkesett i dag. Han forteller meg at Snapdragon 8 Gen 2s mikrofliseslutning er utrolig bra med transformatorer, der en transformator er en modell som kan spore relasjoner i sekvensielle data (som ord i en setning) som også kan lære sammenhengen.
For det formål spurte jeg ham om de RAM-kravene som ryktes for øyeblikket, og han fortalte meg at med en språkmodell av noe slag eller skala, trenge for å laste den inn i RAM. Han fortsatte med å si at han ville forvente at hvis en OEM skulle implementere noe slikt i et mer begrenset RAM-miljø, er det mer sannsynlig at de ville bruke en mindre, kanskje mer spesialisert språkmodell i et mindre segment av RAM enn bare å kjøre den bort fra lagringen til enhet. Det ville være brutalt tregt ellers og ville ikke være en god brukeropplevelse.
Et eksempel på en spesialisert brukssak er en som Qualcomm snakket om nylig på den årlige Computer Konferanse for visjon og mønstergjenkjenning — at generativ kunstig intelligens kan fungere som treningstrener for slutten brukere. For eksempel kan en visuelt jordet LLM analysere en videostrøm for deretter å se hva en bruker gjør, analysere om de gjør det feil, mate resultat til en språkmodell som kan sette ord på hva brukeren gjør feil, og deretter bruke en talemodell for å videresende informasjonen til bruker.
I teorien kan OnePlus gi 16 GB RAM for generell bruk, men ytterligere 8 GB RAM på toppen av det bare brukes til AI.
Selvfølgelig er den andre viktige faktoren i AI på enheten personvern. Med disse modellene er det svært sannsynlig at du vil dele deler av ditt personlige liv med dem når du stiller spørsmål, eller til og med bare gi AI-tilgang til smarttelefonen din kan bekymre folk. Whealton forteller meg at alt som kommer inn i SoC er svært sikkert, og at dette er "en av grunnene" til å gjøre det på enheten er så viktig for Qualcomm.
For det formål kunngjorde Qualcomm også at de samarbeider med Meta for å aktivere selskapets åpen kildekode Llama 2 LLM skal kjøres på Qualcomm-enheter, og den skal etter planen gjøres tilgjengelig for enheter som starter i 2024.
Hvordan 24 GB RAM kan integreres i en smarttelefon
Kilde: Smartprix
Med nylige lekkasjer som peker på det forestående OnePlus 12 pakker opptil 16 GB RAM, lurer du kanskje på hva som skjedde med ryktene om 24 GB RAM. Saken er at det ikke utelukker OnePlus fra å inkludere AI på enheten, og det er en grunn til det.
Som Whealton bemerket for meg, når du kontrollerer DRAM, er det ingenting som hindrer deg i å segmentere RAM-en slik at systemet ikke får tilgang til alt. I teorien kan OnePlus gi 16 GB RAM for generell bruk, men ytterligere 8 GB RAM på toppen av det bare brukes til AI. I dette tilfellet vil det ikke være fornuftig å annonsere det som en del av det totale RAM-nummeret, siden det er utilgjengelig for resten av systemet. Videre er det svært sannsynlig at denne RAM-mengden vil forbli statisk selv i 8GB eller 12GB RAM-konfigurasjoner siden behovene til AI ikke vil endre seg.
Det er med andre ord ikke utelukket at OnePlus 12 fortsatt vil ha 24 GB RAM; det er bare det at 8 GB kanskje ikke er tradisjonelt tilgjengelig. Lekkasjer som disse som er så tidlige som de kommer, dukker vanligvis opp fra personer som kan være involvert i selve produksjonen av enheten, så det kan være tilfelle at de har jobbet med 24 GB RAM og ikke vært klar over at 8 GB kan reserveres til veldig spesifikke formål. Det er imidlertid helt gjetting fra min side, og det er et forsøk på å forstå lekkasjene der både Digital Chat Station og OnLeaks kan både ha rett.
Likevel er 24 GB RAM vanvittig mye i en smarttelefon, og etter hvert som funksjoner som disse introduseres, det har aldri vært mer klart at smarttelefoner bare er superkraftige datamaskiner som bare kan bli flere kraftig.