Non è così inverosimile pensare che 24 GB di RAM saranno la norma per gli smartphone del futuro, e questo grazie all'intelligenza artificiale.
Già da un po' circolano voci secondo cui nel prossimo anno arriveranno smartphone con ben 24 GB di RAM. Si tratta di una quantità enorme sotto qualsiasi punto di vista, con la configurazione RAM più comune sui PC da gioco pari a 16 GB. al momento in cui scrivo. 24 GB di RAM sembrano una quantità ridicola, Ma, non quando si tratta di intelligenza artificiale.
L’intelligenza artificiale è affamata di RAM
Se stai cercando di eseguire qualsiasi modello di intelligenza artificiale su uno smartphone, la prima cosa che devi sapere è che per eseguire praticamente qualsiasi modello, hai bisogno di un quantità di RAM. Questa filosofia è il motivo per cui ne hai bisogno VRAM quando si lavora con applicazioni come Stable Diffusion e si applica anche ai modelli basati su testo. Fondamentalmente, questi modelli verranno generalmente caricati sulla RAM per la durata del carico di lavoro, e così è UNquantità più veloce dell'esecuzione dallo storage.
La RAM è più veloce per un paio di motivi, ma i due più importanti sono la minore latenza, poiché è più vicina alla CPU, e la larghezza di banda maggiore. È necessario caricare modelli linguistici di grandi dimensioni (LLM) sulla RAM a causa di queste proprietà, ma la domanda successiva che in genere segue è esattamente Quanto La RAM viene utilizzata da questi modelli.
Se Vicuna-7B dovesse potenziare l'Assistente Google sui dispositivi delle persone con l'aiuto dei servizi cloud, lo faresti in teoria, hanno tutti i vantaggi di un LLM in esecuzione su un dispositivo con l'ulteriore vantaggio di raccogliere dati basati su cloud.
C'è molto che vale la pena esaminare quando si tratta di alcuni LLM attualmente in distribuzione e uno con cui ho giocato di recente è stato Vicuna-7B. Si tratta di un LLM addestrato su un set di dati di 7 miliardi di parametri che può essere distribuito su uno smartphone Android tramite MLC LLM, un'app universale che aiuta nella distribuzione LLM. Sono necessari circa 6 GB di RAM per interagire con esso su uno smartphone Android. Ovviamente non è così avanzato come altri LLM sul mercato in questo momento, ma funziona anche interamente a livello locale senza la necessità di una connessione Internet. Per contesto, si dice che GPT-4 abbia 1.76 trilioni parametri e GPT-3 ne ha 175 miliardi.
Qualcomm e l'intelligenza artificiale sul dispositivo
Mentre tantissime aziende si affrettano a creare i propri modelli linguistici di grandi dimensioni (e le interfacce per interagire con essi), Qualcomm si è concentrata su un'area chiave: l'implementazione. I servizi cloud di cui le aziende si avvalgono sono a pagamento milioni per gestire i chatbot più potenti, e si dice che ChatGPT di OpenAI gestisca l'azienda fino a $ 700.000 l'anno giorno. Qualsiasi distribuzione sul dispositivo che sfrutti le risorse dell'utente può far risparmiare molto denaro, soprattutto se è diffusa.
Qualcomm la definisce "AI ibrida" e combina le risorse del cloud e del dispositivo per suddividere il calcolo dove è più appropriato. Non funzionerà per tutto, ma se Vicuna-7B dovesse potenziare l'Assistente Google sui dispositivi delle persone con l'aiuto del cloud servizi, in teoria avresti tutti i vantaggi di un LLM in esecuzione su un dispositivo con l'ulteriore vantaggio della raccolta dati basati su cloud. In questo modo, per Google viene eseguito allo stesso costo dell'Assistente, ma senza spese generali aggiuntive.
Questo è solo uno dei modi in cui l'intelligenza artificiale sul dispositivo aggira il problema dei costi che le aziende si trovano attualmente ad affrontare, ma è qui che entra in gioco l'hardware aggiuntivo. Nel caso degli smartphone, Qualcomm ha mostrato la diffusione stabile su uno smartphone Android alimentato da Snapdragon 8 Gen 2, che è qualcosa con cui molti computer attuali avrebbero effettivamente difficoltà. Da allora, l'azienda ha dimostrato che ControlNet funziona anche su un dispositivo Android. È chiaramente da un po' che sta preparando hardware in grado di sostenere carichi di lavoro intensivi di intelligenza artificiale e MLC LLM è un modo per testarlo subito.
Dallo screenshot sopra, nota che sono in modalità aereo con il Wi-Fi disattivato e funziona ancora molto bene. genera circa cinque token al secondo, dove un token corrisponde a circa mezza parola. Pertanto, genera circa 2,5 parole al secondo, che è abbastanza veloce per qualcosa di simile. Non interagisce con Internet nello stato attuale, ma dato che è tutto open source, è un'azienda potrebbe prendere il lavoro svolto da MLC LLM e dal team dietro il modello Vicuna-7B e implementarlo in un altro modo utile contesto.
Applicazioni dell'intelligenza artificiale generativa su dispositivo
Ho parlato con Karl Whealton, direttore senior della gestione dei prodotti di Qualcomm, responsabile di CPU, DSP, benchmarking e hardware AI. Mi ha raccontato tutto sulle varie applicazioni dei modelli di intelligenza artificiale eseguiti sui chipset Snapdragon e mi ha dato un'idea di ciò che potrebbe essere possibile oggi con i chipset Snapdragon. Mi dice che l'inferenza dei micro-tiles dello Snapdragon 8 Gen 2 è incredibilmente buona con i trasformatori, dove a Il trasformatore è un modello in grado di tracciare le relazioni in dati sequenziali (come le parole in una frase) che possono anche apprendere il contesto.
A tal fine, gli ho chiesto quali requisiti di RAM si dice attualmente, e mi ha detto che con un modello linguistico di qualsiasi tipo e scala, sostanzialmente Bisogno per caricarlo nella RAM. Ha continuato dicendo che se un OEM dovesse implementare qualcosa di simile in un ambiente RAM più limitato, è più probabile che utilizzerebbero un modello linguistico più piccolo, forse più specializzato in un segmento più piccolo di RAM piuttosto che eseguirlo semplicemente dalla memoria del file dispositivo. Altrimenti sarebbe brutalmente lento e non sarebbe una buona esperienza per l'utente.
Un esempio di caso d'uso specializzato è quello di cui Qualcomm ha parlato di recente all'annuale Computer Conferenza Vision and Pattern Recognition: l'intelligenza artificiale generativa può fungere da allenatore di fitness per la fine utenti. Ad esempio, un LLM visivamente basato può analizzare un feed video per vedere cosa sta facendo un utente, analizzare se sta facendo qualcosa di sbagliato, alimentare il risultato in un modello linguistico in grado di esprimere a parole ciò che l'utente sta facendo di sbagliato, e quindi utilizzare un modello vocale per trasmettere tale informazione all'utente. utente.
In teoria, OnePlus potrebbe fornire 16 GB di RAM per un utilizzo generale, ma in aggiunta sono disponibili altri 8 GB di RAM. soltanto utilizzato per l'intelligenza artificiale.
Naturalmente, l’altro fattore importante nell’intelligenza artificiale sul dispositivo è la privacy. Con questi modelli, è molto probabile che condivideresti con loro parti della tua vita personale quando fai domande, o anche solo dare accesso all'intelligenza artificiale al tuo smartphone potrebbe preoccupare le persone. Whealton mi dice che tutto ciò che entra nel SoC è altamente sicuro e che questo è "uno dei motivi" per cui farlo sul dispositivo è così importante per Qualcomm.
A tal fine, Qualcomm ha anche annunciato che sta collaborando con Meta per abilitare l'open source dell'azienda Llama 2 LLM verrà eseguito sui dispositivi Qualcomm e sarà reso disponibile a partire dai dispositivi 2024.
Come si possono incorporare 24 GB di RAM in uno smartphone
Fonte: Smartprix
Con recenti fughe di notizie che puntano al prossimo OnePlus 12 racchiude fino a 16 GB di RAM, potresti chiederti cosa è successo a quelle voci su 24 GB di RAM. Il fatto è che ciò non impedisce a OnePlus di includere l'intelligenza artificiale sul dispositivo, e c'è una ragione per questo.
Come mi ha fatto notare Whealton, quando controlli la DRAM, non c'è nulla che ti impedisca di segmentare la RAM in modo che il sistema non possa accedervi tutta. In teoria, OnePlus potrebbe fornire 16 GB di RAM per un utilizzo generale, ma in aggiunta sono disponibili altri 8 GB di RAM. soltanto utilizzato per l'intelligenza artificiale. In questo caso non avrebbe senso pubblicizzarlo come parte del numero totale di RAM, poiché è inaccessibile al resto del sistema. Inoltre, è molto probabile che questa quantità di RAM rimanga statica anche nelle configurazioni da 8 GB o 12 GB di RAM poiché le esigenze dell'intelligenza artificiale non cambieranno.
In altre parole, non è escluso che OnePlus 12 avrà ancora 24GB di RAM; è solo che 8 GB potrebbero non essere tradizionalmente accessibili. Fughe di notizie come queste, che arrivano fin dall'inizio, in genere provengono da persone che potrebbero essere coinvolte nella produzione effettiva del dispositivo, quindi potrebbe darsi che abbiano lavorato con 24 GB di RAM e non fossero consapevoli del fatto che 8 GB potrebbero essere riservati per scopi molto specifici. Si tratta solo di supposizioni da parte mia, ed è un tentativo di dare un senso alle fughe di notizie in cui sia Digital Chat Station che OnLeaks possono Entrambi avere ragione.
Tuttavia, 24 GB di RAM sono una quantità pazzesca in uno smartphone e, con l'introduzione di funzionalità come queste, non è mai stato così chiaro che gli smartphone sono solo computer super potenti che possono solo diventare di più potente.