Het is niet zo vergezocht om te bedenken dat 24 GB RAM in de toekomst de norm zal zijn voor smartphones, en dat is te danken aan AI.
Er gaan al een tijdje geruchten rond dat er het komende jaar smartphones op de markt zullen komen die maar liefst 24 GB RAM zullen hebben. Dat is in alle opzichten een enorme hoeveelheid, waarbij de meest voorkomende RAM-configuratie op gaming-pc’s een bescheiden 16 GB is op het moment van schrijven. 24 GB RAM klinkt als een belachelijke hoeveelheid, Maar, niet als het om AI gaat.
AI heeft honger naar RAM
Als je een AI-model op een smartphone wilt uitvoeren, is het eerste dat je moet weten dat je, om vrijwel elk model uit te voeren, een kavel van RAM. Die filosofie is waarom je veel nodig hebt VRAM bij het werken met toepassingen als Stable Diffusion, en het geldt ook voor op tekst gebaseerde modellen. Kortom, deze modellen worden doorgaans gedurende de werklast in het RAM geladen, en dat is ook zo Akavel sneller dan uitvoeren vanuit opslag.
RAM is om een aantal redenen sneller, maar de twee belangrijkste zijn dat het een lagere latentie heeft, omdat het dichter bij de CPU zit, en een hogere bandbreedte heeft. Vanwege deze eigenschappen is het noodzakelijk om grote taalmodellen (LLM) in het RAM te laden, maar de volgende vraag die doorgaans volgt is precies
hoe veel RAM wordt door deze modellen gebruikt.Als Vicuna-7B de Google Assistent op de apparaten van mensen zou inschakelen met wat hulp van cloudservices, zou je dat doen theorie, hebben alle voordelen van een LLM die op een apparaat draait, met als extra voordeel het verzamelen van cloudgebaseerde gegevens.
Er is veel de moeite waard om te onderzoeken als het gaat om enkele LLM's die momenteel worden ingezet, en een waarmee ik de laatste tijd heb gespeeld, is Vicuna-7B. Het is een LLM die is getraind op een dataset van 7 miljard parameters die op een Android-smartphone kan worden geïmplementeerd via MLC LLM, een universele app die helpt bij de implementatie van LLM. Er is ongeveer 6 GB RAM nodig om ermee te communiceren op een Android-smartphone. Het is duidelijk niet zo geavanceerd als sommige andere LLM's die momenteel op de markt zijn, maar het werkt ook volledig lokaal zonder dat een internetverbinding nodig is. Ter context: het gerucht gaat dat GPT-4 1,76 heeft biljoen parameters, en GPT-3 heeft 175 miljard.
Qualcomm en AI op het apparaat
Terwijl talloze bedrijven racen om hun eigen grote taalmodellen te creëren (en interfaces om ermee te communiceren), heeft Qualcomm zich geconcentreerd op één belangrijk gebied: implementatie. Clouddiensten waar bedrijven gebruik van maken kosten miljoenen om de krachtigste chatbots te runnen, en ChatGPT van OpenAI zou het bedrijf tot wel $700.000 per jaar kunnen runnen. dag. Elke implementatie op het apparaat die gebruik maakt van de bronnen van de gebruiker kan veel geld besparen, vooral als deze wijdverbreid is.
Qualcomm noemt dit 'hybride AI' en combineert de middelen van de cloud en het apparaat om de berekeningen te splitsen waar dit het meest geschikt is. Het zal niet voor alles werken, maar als Vicuna-7B de Google Assistent op de apparaten van mensen zou inschakelen met wat hulp van de cloud diensten, zou je in theorie alle voordelen hebben van een LLM die op een apparaat draait, met het extra voordeel van verzamelen cloudgebaseerde gegevens. Op die manier kost het voor Google dezelfde kosten als Assistant, maar zonder de extra overheadkosten.
Dat is slechts één manier waarop AI op het apparaat het kostenprobleem kan omzeilen waarmee bedrijven momenteel worden geconfronteerd, maar daar komt extra hardware bij kijken. In het geval van smartphones is Qualcomm toonde Stabiele diffusie op een Android-smartphone aangedreven door de Snapdragon 8 Gen 2, iets waar veel huidige computers echt moeite mee zouden hebben. Sindsdien heeft het bedrijf ControlNet ook op een Android-apparaat laten draaien. Het is duidelijk al een tijdje bezig met het voorbereiden van hardware die in staat is tot intense AI-workloads, en MLC LLM is een manier waarop je dat nu kunt testen.
Merk op uit de bovenstaande schermafbeelding dat ik in de vliegtuigmodus zit met Wi-Fi uitgeschakeld, en dat het nog steeds erg goed werkt. het genereert ongeveer vijf tokens per seconde, waarbij een token ongeveer een half woord bedraagt. Daarom genereert het ongeveer 2,5 woorden per seconde, wat voldoende snel is voor zoiets als dit. Het heeft geen interactie met internet in de huidige staat, maar aangezien dit allemaal open source is, een bedrijf zou het werk van MLC LLM en het team achter het Vicuna-7B-model kunnen gebruiken en dit in een ander bruikbaar model kunnen implementeren context.
Toepassingen van generatieve AI op het apparaat
Ik sprak met Karl Whealton, senior directeur productmanagement bij Qualcomm, die verantwoordelijk is voor CPU, DSP, benchmarking en AI-hardware. Hij vertelde me alles over de verschillende toepassingen van AI-modellen die op Snapdragon-chipsets draaien, en hij gaf me een idee van wat er vandaag de dag mogelijk is met Snapdragon-chipsets. Hij vertelt me dat de microtegel-inferentie van de Snapdragon 8 Gen 2 ongelooflijk goed is met transformatoren, waarbij een transformer is een model dat relaties in sequentiële gegevens (zoals woorden in een zin) kan volgen en ook kan leren de context.
Daarom vroeg ik hem naar de RAM-vereisten waarover momenteel geruchten gaan, en hij vertelde me dat je met een taalmodel van welke soort of schaal dan ook in principe behoefte om het in het RAM te laden. Hij vervolgde met te zeggen dat hij zou verwachten dat als een OEM zoiets als dit zou implementeren in een beperktere RAM-omgeving, het waarschijnlijker is dat ze zouden een kleiner, misschien meer gespecialiseerd taalmodel gebruiken in een kleiner RAM-segment dan het simpelweg uit de opslag van de RAM halen apparaat. Anders zou het brutaal traag zijn en zou het geen goede gebruikerservaring zijn.
Een voorbeeld van een gespecialiseerde use case is er een waar Qualcomm onlangs over sprak tijdens de jaarlijkse Computer Conferentie Visie en Patroonherkenning – dat generatieve AI uiteindelijk als fitnesscoach kan fungeren gebruikers. Een visueel gegronde LLM kan bijvoorbeeld een videofeed analyseren om vervolgens te zien wat een gebruiker doet, analyseren of hij of zij het verkeerd doet, de resultaat van een taalmodel dat onder woorden kan brengen wat de gebruiker verkeerd doet, en vervolgens een spraakmodel kan gebruiken om die informatie door te geven aan de gebruiker. gebruiker.
In theorie zou OnePlus 16 GB RAM kunnen bieden voor algemeen gebruik, maar daarbovenop nog eens 8 GB RAM. alleen gebruikt voor AI.
De andere belangrijke factor bij AI op het apparaat is uiteraard privacy. Met deze modellen is het zeer waarschijnlijk dat u delen van uw persoonlijke leven met hen deelt als u vragen stelt, of dat zelfs het geven van AI-toegang tot uw smartphone mensen zorgen kan baren. Whealton vertelt me dat alles wat de SoC binnenkomt zeer veilig is en dat dit "een van de redenen" is dat het zo belangrijk is voor Qualcomm om het op het apparaat te doen.
Daartoe kondigde Qualcomm ook aan dat het samenwerkte met Meta om de open source van het bedrijf mogelijk te maken Llama 2 LLM draait op Qualcomm-apparaten, en zal naar verwachting beschikbaar worden gemaakt voor apparaten vanaf 2024.
Hoe 24 GB RAM in een smartphone kan worden verwerkt
Bron: Smartprix
Recente lekken wijzen op de toekomst OnePlus 12 met maximaal 16 GB RAM, vraag je je misschien af wat er met die geruchten over 24 GB RAM is gebeurd. Het punt is dat het OnePlus er niet van weerhoudt AI op het apparaat op te nemen, en daar is een reden voor.
Zoals Whealton tegen mij opmerkte: als je DRAM bestuurt, houdt niets je tegen om het RAM-geheugen te segmenteren, zodat het systeem er geen toegang toe heeft. In theorie zou OnePlus 16 GB RAM kunnen bieden voor algemeen gebruik, maar daarbovenop nog eens 8 GB RAM. alleen gebruikt voor AI. In dit geval zou het geen zin hebben om het te adverteren als onderdeel van het totale RAM-nummer, omdat het niet toegankelijk is voor de rest van het systeem. Bovendien is het zeer waarschijnlijk dat deze hoeveelheid RAM statisch blijft, zelfs in configuraties van 8 GB of 12 GB RAM, aangezien de behoeften van AI niet zullen veranderen.
Met andere woorden: het is niet uitgesloten dat de OnePlus 12 nog steeds over 24 GB RAM zal beschikken; het is alleen zo dat 8 GB traditioneel misschien niet toegankelijk is. Dit soort lekken die al zo vroeg ontstaan, komen meestal voor bij mensen die mogelijk betrokken zijn bij de daadwerkelijke productie van het apparaat. het kan dus zijn dat ze met 24 GB RAM hebben gewerkt en zich er niet van bewust waren dat 8 GB gereserveerd kon worden voor zeer specifieke doeleinden. Dat is echter volledig giswerk van mijn kant, en het is een poging om de lekken te begrijpen waar zowel Digital Chat Station als OnLeaks zich in kunnen vinden. beide gelijk hebben.
Niettemin is 24 GB RAM een waanzinnige hoeveelheid in een smartphone, en nu dit soort functies worden geïntroduceerd, het is nog nooit zo duidelijk geweest dat smartphones slechts superkrachtige computers zijn die alleen maar groter kunnen worden krachtig.