Il n’est pas exagéré de penser que 24 Go de RAM seront la norme pour les smartphones du futur, et c’est grâce à l’IA.
Des rumeurs circulent depuis un certain temps déjà selon lesquelles des smartphones seront disponibles l'année prochaine et dotés de 24 Go de RAM. C'est une quantité énorme, quel que soit le paramètre, la configuration de RAM la plus courante sur les PC de jeu étant un modeste 16 Go. au moment de la rédaction. 24 Go de RAM semblent une quantité ridicule, mais, pas quand il s'agit d'IA.
L'IA est gourmande en RAM
Si vous souhaitez exécuter n'importe quel modèle d'IA sur un smartphone, la première chose que vous devez savoir est que pour exécuter pratiquement n'importe quel modèle, vous avez besoin d'un parcelle de RAM. Cette philosophie est la raison pour laquelle vous avez besoin de beaucoup de VRAM lorsque vous travaillez avec des applications telles que Stable Diffusion, et cela s'applique également aux modèles basés sur du texte. Fondamentalement, ces modèles seront généralement chargés sur la RAM pendant toute la durée de la charge de travail, et c'est
unparcelle plus rapide que l’exécution à partir du stockage.La RAM est plus rapide pour plusieurs raisons, mais les deux plus importantes sont sa latence plus faible, car elle est plus proche du processeur, et sa bande passante est plus élevée. Il est nécessaire de charger des modèles de langage étendus (LLM) sur la RAM en raison de ces propriétés, mais la question suivante qui suit généralement est exactement combien La RAM est utilisée par ces modèles.
Si Vicuna-7B devait alimenter Google Assistant sur les appareils des utilisateurs avec l'aide des services cloud, vous le feriez, en En théorie, bénéficiez de tous les avantages d'un LLM exécuté sur un appareil avec l'avantage supplémentaire de collecter des données basées sur le cloud.
Il y a beaucoup de choses qui méritent d'être examinées en ce qui concerne certains LLM actuellement en déploiement, et celui avec lequel j'ai joué récemment est Vicuna-7B. Il s'agit d'un LLM formé sur un ensemble de données de 7 milliards de paramètres qui peut être déployé sur un smartphone Android via MLC LLM, qui est une application universelle qui facilite le déploiement du LLM. Il faut environ 6 Go de RAM pour interagir avec lui sur un smartphone Android. Il n'est évidemment pas aussi avancé que certains autres LLM actuellement sur le marché, mais il fonctionne également entièrement localement sans avoir besoin d'une connexion Internet. Pour le contexte, la rumeur dit que GPT-4 en a 1,76 mille milliards paramètres, et GPT-3 en a 175 milliards.
Qualcomm et l'IA sur l'appareil
Alors que de nombreuses entreprises s'efforcent de créer leurs propres grands modèles de langage (et des interfaces pour interagir avec eux), Qualcomm s'est concentré sur un domaine clé: le déploiement. Services cloud utilisés par les entreprises des millions pour exécuter les chatbots les plus puissants, et ChatGPT d'OpenAI permettrait à l'entreprise de gérer jusqu'à 700 000 $ par an. jour. Tout déploiement sur appareil qui exploite les ressources de l'utilisateur peut permettre d'économiser beaucoup d'argent, surtout s'il est généralisé.
Qualcomm appelle cela « IA hybride » et combine les ressources du cloud et de l'appareil pour diviser le calcul là où cela est le plus approprié. Cela ne fonctionnera pas pour tout, mais si Vicuna-7B pouvait alimenter Google Assistant sur les appareils des gens avec l'aide du cloud services, vous bénéficieriez, en théorie, de tous les avantages d'un LLM exécuté sur un appareil avec l'avantage supplémentaire de collecter données basées sur le cloud. De cette façon, il fonctionne au même coût pour Google que l'Assistant, mais sans aucun frais généraux supplémentaires.
Ce n’est qu’un moyen parmi d’autres pour l’IA intégrée aux appareils de contourner le problème de coût auquel les entreprises sont actuellement confrontées, mais c’est là qu’intervient le matériel supplémentaire. Dans le cas des smartphones, Qualcomm a montré une diffusion stable sur un smartphone Android alimenté par le Snapdragon 8 Gen 2, ce avec lequel de nombreux ordinateurs actuels auraient du mal. Depuis lors, la société a également montré que ControlNet fonctionnait sur un appareil Android. Il prépare clairement du matériel capable de supporter des charges de travail intenses en IA depuis un certain temps, et MLC LLM est un moyen de le tester dès maintenant.
D'après la capture d'écran ci-dessus, notez que je suis en mode avion avec le Wi-Fi désactivé et que cela fonctionne toujours très bien. il génère environ cinq jetons par seconde, un jeton représentant environ un demi-mot. Par conséquent, il génère environ 2,5 mots par seconde, ce qui est très rapide pour quelque chose comme celui-ci. Il n'interagit pas avec Internet dans son état actuel, mais étant donné que tout cela est open source, une entreprise pourrait prendre le travail effectué par MLC LLM et l'équipe derrière le modèle Vicuna-7B et le mettre en œuvre dans un autre contexte.
Applications de l'IA générative sur appareil
J'ai parlé avec Karl Whealton, directeur principal de la gestion des produits chez Qualcomm, responsable du processeur, du DSP, de l'analyse comparative et du matériel IA. Il m'a tout expliqué sur les différentes applications des modèles d'IA fonctionnant sur les chipsets Snapdragon, et il m'a donné une idée de ce qui peut être possible sur les chipsets Snapdragon aujourd'hui. Il me dit que l'inférence des micro-tuiles du Snapdragon 8 Gen 2 est incroyablement bonne avec les transformateurs, où un Transformer est un modèle qui peut suivre les relations dans des données séquentielles (comme des mots dans une phrase) et qui peut également apprendre le contexte.
À cette fin, je lui ai posé des questions sur les besoins en RAM qui courent actuellement, et il m'a dit qu'avec un modèle de langage de quelque nature ou échelle que ce soit, vous besoin pour le charger dans la RAM. Il a ajouté qu'il s'attendrait à ce que si un OEM implémentait quelque chose comme ça dans un environnement RAM plus limité, il serait plus probable que ils utiliseraient un modèle de langage plus petit, peut-être plus spécialisé, dans un segment de RAM plus petit que de simplement l'exécuter à partir du stockage du appareil. Autrement, cela serait extrêmement lent et ne constituerait pas une bonne expérience utilisateur.
Un exemple de cas d'utilisation spécialisé est celui dont Qualcomm a parlé récemment lors de la conférence annuelle Computer Conférence sur la vision et la reconnaissance des formes: l'IA générative peut agir comme un préparateur physique jusqu'à la fin utilisateurs. Par exemple, un LLM visuellement ancré peut analyser un flux vidéo pour ensuite voir ce que fait un utilisateur, analyser s'il le fait mal, alimenter le résultat à un modèle de langage qui peut mettre en mots ce que l'utilisateur fait de mal, puis utiliser un modèle de parole pour relayer ces informations au utilisateur.
En théorie, OnePlus pourrait fournir 16 Go de RAM pour un usage général, mais 8 Go de RAM supplémentaires en plus. seulement utilisé pour l'IA.
Bien entendu, l’autre facteur important de l’IA sur appareil est la confidentialité. Avec ces modèles, il est très probable que vous partagiez une partie de votre vie personnelle avec eux lorsque vous leur posiez des questions, ou même que le simple fait de donner accès à l'IA à votre smartphone puisse inquiéter les gens. Whealton me dit que tout ce qui entre dans le SoC est hautement sécurisé et que c'est « l'une des raisons pour lesquelles » le faire sur l'appareil est si important pour Qualcomm.
À cette fin, Qualcomm a également annoncé qu'il travaillait avec Meta pour permettre au logiciel open source de l'entreprise Llama 2 LLM sera exécuté sur les appareils Qualcomm et devrait être mis à la disposition des appareils à partir de 2024.
Comment 24 Go de RAM peuvent être intégrés dans un smartphone
Source: Smartprix
Avec des fuites récentes pointant vers le prochain OnePlus 12 contenant jusqu'à 16 Go de RAM, vous vous demandez peut-être ce qui est arrivé à ces rumeurs sur les 24 Go de RAM. Le fait est que cela n’empêche pas OnePlus d’inclure l’IA sur l’appareil, et il y a une raison à cela.
Comme Whealton me l'a fait remarquer, lorsque vous contrôlez la DRAM, rien ne vous empêche de segmenter la RAM afin que le système ne puisse pas y accéder en totalité. En théorie, OnePlus pourrait fournir 16 Go de RAM pour un usage général, mais 8 Go de RAM supplémentaires en plus. seulement utilisé pour l'IA. Dans ce cas, cela n’aurait aucun sens de l’annoncer comme faisant partie du nombre total de RAM, car il est inaccessible au reste du système. De plus, il est très probable que cette quantité de RAM reste statique même dans les configurations de 8 Go ou 12 Go de RAM puisque les besoins de l'IA ne changeront pas.
En d’autres termes, il n’est pas exclu que le OnePlus 12 dispose toujours de 24 Go de RAM; c'est juste que 8 Go ne sont peut-être pas traditionnellement accessibles. De telles fuites, qui surviennent dès leur apparition, proviennent généralement de personnes susceptibles d'être impliquées dans la production réelle de l'appareil, il se peut donc qu'ils aient travaillé avec 24 Go de RAM et ne sachent pas que 8 Go pouvaient être réservés à des fins très spécifiques. Cependant, c'est entièrement une conjecture de ma part, et c'est une tentative de donner un sens aux fuites où Digital Chat Station et OnLeaks peuvent le faire. les deux avoir raison.
Néanmoins, 24 Go de RAM représentent une quantité folle dans un smartphone, et à mesure que de telles fonctionnalités sont introduites, il n'a jamais été aussi clair que les smartphones ne sont que des ordinateurs super puissants qui ne peuvent que devenir plus performants. puissant.