24 GB RAM i en smartphone? Det är inte så tokigt som man kan tro.

Det är inte så långsökt att anse att 24 GB RAM kommer att vara normen för smartphones i framtiden, och det är tack vare AI.

Ryktena har snurrat ett tag nu om att det kommer att komma smartphones under nästa år som kommer att ha hela 24 GB RAM. Det är en enorm mängd oavsett mätvärde, med den vanligaste RAM-konfigurationen på speldatorer är en ödmjuk 16 GB i skrivande stund. 24 GB RAM låter som en löjlig mängd, men, inte när det kommer till AI.

AI är RAM-hungrig

Om du funderar på att köra vilken AI-modell som helst på en smartphone, är det första du behöver veta att för att köra i princip vilken modell som helst behöver du en massa av RAM. Den filosofin är varför du behöver mycket VRAM när du arbetar med applikationer som Stable Diffusion, och det gäller även textbaserade modeller. I grund och botten kommer dessa modeller vanligtvis att laddas på RAM under hela arbetsbelastningen, och det är amassa snabbare än att köra från lagring.

RAM är snabbare av ett par anledningar, men de två viktigaste är att det har lägre latens, eftersom det är närmare CPU: n och det har högre bandbredd. Det är nödvändigt att ladda stora språkmodeller (LLM) på RAM på grund av dessa egenskaper, men nästa fråga som vanligtvis följer är exakt

hur mycket RAM används av dessa modeller.

Om Vicuna-7B skulle driva Google Assistant på människors enheter med hjälp av molntjänster, skulle du i teorin, har alla fördelarna med en LLM som körs på en enhet med den extra fördelen att samla in molnbaserad data.

Det finns mycket som är värt att titta närmare på när det kommer till vissa LLM: er som för närvarande är i drift, och en som jag har lekt med nyligen har varit Vicuna-7B. Det är en LLM tränad på en datauppsättning med 7 miljarder parametrar som kan distribueras på en Android-smarttelefon via MLC LLM, som är en universell app som hjälper till med LLM-distribution. Det tar cirka 6 GB RAM för att interagera med den på en Android-smarttelefon. Det är uppenbarligen inte lika avancerat som vissa andra LLM på marknaden just nu, men det körs också helt lokalt utan behov av en internetanslutning. För sammanhanget ryktas det att GPT-4 har 1,76 biljon parametrar, och GPT-3 har 175 miljarder.

Qualcomm och AI på enheten

Medan massor av företag tävlar om att skapa sina egna stora språkmodeller (och gränssnitt för att interagera med dem), har Qualcomm fokuserat på ett nyckelområde: implementering. Molntjänster som företag använder sig av kostar miljoner att köra de mest kraftfulla chatbotarna, och OpenAI: s ChatGPT sägs driva företaget upp till $700 000 per dag. All driftsättning på enheten som utnyttjar användarens resurser kan spara mycket pengar, särskilt om den är utbredd.

Qualcomm hänvisar till detta som "hybrid AI", och det kombinerar resurserna från molnet och enheten för att dela upp beräkningar där det är mest lämpligt. Det fungerar inte för allt, men om Vicuna-7B skulle driva Google Assistant på människors enheter med hjälp från molnet tjänster, skulle du i teorin ha alla fördelarna med en LLM som körs på en enhet med den extra fördelen att samla in molnbaserad data. På så sätt kör den till samma kostnad för Google som assistent men utan några extra omkostnader.

Det är bara ett sätt på enhetens AI att komma runt kostnadsproblemet som företag står inför för närvarande, men det är där ytterligare hårdvara kommer in. När det gäller smartphones, Qualcomm visade upp Stable Diffusion på en Android-smartphone som drivs av Snapdragon 8 Gen 2, vilket är något som många nuvarande datorer faktiskt skulle kämpa med. Sedan dess har företaget visat att ControlNet också körs på en Android-enhet. Det har helt klart förberett hårdvara som klarar intensiva AI-arbetsbelastningar ett tag, och MLC LLM är ett sätt att testa det just nu.

Från ovanstående skärmdump, notera att jag är i flygplansläge med Wi-Fi avstängt, och det fungerar fortfarande mycket bra. den genereras med ungefär fem tokens per sekund, där en token är ungefär ett halvt ord. Därför genererar den cirka 2,5 ord per sekund, vilket är mycket snabbt för något sådant här. Det interagerar inte med internet i dess nuvarande tillstånd, men med tanke på att allt är öppen källkod, ett företag skulle kunna ta det arbete som gjorts av MLC LLM och teamet bakom Vicuna-7B-modellen och implementera det i en annan användbar sammanhang.

Tillämpningar av generativ AI på enheten

Jag pratade med Karl Whealton, senior director of product management på Qualcomm, som är ansvarig för CPU, DSP, benchmarking och AI-hårdvara. Han berättade allt om de olika applikationerna av AI-modeller som körs på Snapdragon-chipset, och han gav mig en uppfattning om vad som kan vara möjligt på Snapdragon-chipset idag. Han berättar för mig att Snapdragon 8 Gen 2:s mikroplatta-inferencing är otroligt bra med transformatorer, där en transformator är en modell som kan spåra relationer i sekventiell data (som ord i en mening) som också kan lära sig sammanhanget.

För det ändamålet frågade jag honom om de RAM-krav som ryktas för närvarande, och han berättade för mig att med en språkmodell av något slag eller skala, behöver för att ladda den i RAM. Han fortsatte med att säga att han skulle förvänta sig att om en OEM skulle implementera något liknande i en mer begränsad RAM-miljö, är det mer troligt att de skulle använda en mindre, kanske mer specialiserad språkmodell i ett mindre segment av RAM-minnet än att bara köra bort det från lagringen av enhet. Det skulle vara brutalt långsamt annars och skulle inte vara en bra användarupplevelse.

Ett exempel på ett specialiserat användningsfall är ett som Qualcomm pratade om nyligen på den årliga Computer Vision and Pattern Recognition-konferens — att generativ AI kan fungera som en träningscoach för slutet användare. Till exempel kan en visuellt grundad LLM analysera ett videoflöde för att sedan se vad en användare gör, analysera om de gör det fel, mata resultat till en språkmodell som kan sätta ord på vad användaren gör fel, och sedan använda en talmodell för att vidarebefordra den informationen till användare.

I teorin kan OnePlus tillhandahålla 16 GB RAM för allmän användning, men ytterligare 8 GB RAM utöver det är det endast används för AI.

Naturligtvis är den andra viktiga faktorn i on-device AI integritet. Med dessa modeller är det mycket troligt att du delar delar av ditt personliga liv med dem när du ställer frågor, eller till och med bara ger AI-åtkomst till din smartphone kan oroa människor. Whealton säger till mig att allt som kommer in i SoC är mycket säkert och att detta är "en av anledningarna till" att göra det på enheten är så viktigt för Qualcomm.

För det ändamålet meddelade Qualcomm också att de arbetar med Meta för att möjliggöra företagets öppen källkod Llama 2 LLM kommer att köras på Qualcomm-enheter, och den är planerad att göras tillgänglig för enheter från och med 2024.

Hur 24 GB RAM-minne kan integreras i en smartphone

Källa: Smartprix

Med de senaste läckorna som pekar på det kommande OnePlus 12 packar upp till 16 GB RAM, du kanske undrar vad som hände med ryktena om 24 GB RAM. Saken är den att det inte hindrar OnePlus från att inkludera AI på enheten, och det finns en anledning till det.

Som Whealton noterade för mig, när du styr DRAM, finns det inget som hindrar dig från att segmentera RAM så att systemet inte kan komma åt allt. I teorin kan OnePlus tillhandahålla 16 GB RAM för allmän användning, men ytterligare 8 GB RAM utöver det är det endast används för AI. I det här fallet skulle det inte vara meningsfullt att annonsera det som en del av det totala RAM-numret, eftersom det är otillgängligt för resten av systemet. Dessutom är det mycket troligt att detta RAM-mängd skulle förbli statiskt även i 8GB eller 12GB RAM-konfigurationer eftersom behoven för AI inte kommer att förändras.

Med andra ord är det inte uteslutet att OnePlus 12 fortfarande kommer att ha 24 GB RAM; det är bara det att 8 GB kanske inte är traditionellt tillgängligt. Läckor som dessa som är så tidigt som de kommer dyker vanligtvis upp från personer som kan vara involverade i själva produktionen av enheten, så det kan vara så att de har arbetat med 24 GB RAM och inte varit medvetna om att 8 GB kan reserveras för mycket specifika ändamål. Det är dock helt gissningar från min sida, och det är ett försök att förstå läckorna där både Digital Chat Station och OnLeaks kan både ha rätt.

Ändå är 24 GB RAM galet mycket i en smartphone, och när funktioner som dessa introduceras, det har aldrig varit tydligare att smartphones bara är superkraftiga datorer som bara kan bli fler kraftfull.