Es ist nicht allzu weit hergeholt zu glauben, dass 24 GB RAM in Zukunft die Norm für Smartphones sein werden, und das ist der KI zu verdanken.
Schon seit einiger Zeit kursieren Gerüchte, dass im nächsten Jahr Smartphones auf den Markt kommen werden, die satte 24 GB RAM haben werden. Das ist in jeder Hinsicht eine enorme Menge, wobei die gängigste RAM-Konfiguration auf Gaming-PCs bei bescheidenen 16 GB liegt zum Zeitpunkt des Schreibens. 24 GB RAM klingen nach einer lächerlichen Menge, Aber, nicht, wenn es um KI geht.
KI ist RAM-hungrig
Wenn Sie ein beliebiges KI-Modell auf einem Smartphone ausführen möchten, müssen Sie zunächst wissen, dass Sie zum Ausführen praktisch jedes Modells eine benötigen viel RAM. Diese Philosophie ist der Grund, warum Sie viel davon brauchen VRAM bei der Arbeit mit Anwendungen wie Stable Diffusion und gilt auch für textbasierte Modelle. Grundsätzlich werden diese Modelle normalerweise für die Dauer der Arbeitslast in den RAM geladen, und das ist auch der Fall Aviel schneller als die Ausführung aus dem Speicher.
RAM ist aus mehreren Gründen schneller, die beiden wichtigsten sind jedoch die geringere Latenz, da es näher an der CPU liegt, und eine höhere Bandbreite. Aufgrund dieser Eigenschaften ist es notwendig, große Sprachmodelle (LLM) in den RAM zu laden, aber die nächste Frage, die normalerweise folgt, lautet genau wie viel RAM wird von diesen Modellen verwendet.
Wenn Vicuna-7B Google Assistant mit Hilfe von Cloud-Diensten auf den Geräten der Menschen betreiben würde, würden Sie das tun Theoretisch verfügen sie über alle Vorteile eines LLM, das auf einem Gerät ausgeführt wird, mit dem zusätzlichen Vorteil, cloudbasierte Daten zu sammeln.
Bei einigen derzeit im Einsatz befindlichen LLMs gibt es eine Menge zu prüfen, und eines, mit dem ich in letzter Zeit herumexperimentiert habe, war Vicuna-7B. Es handelt sich um ein LLM, das auf einem Datensatz von 7 Milliarden Parametern trainiert wurde und über MLC LLM, eine universelle App, die die LLM-Bereitstellung unterstützt, auf einem Android-Smartphone bereitgestellt werden kann. Für die Interaktion mit einem Android-Smartphone sind etwa 6 GB RAM erforderlich. Es ist offensichtlich nicht so fortschrittlich wie einige andere derzeit auf dem Markt erhältliche LLMs, läuft aber auch vollständig lokal, ohne dass eine Internetverbindung erforderlich ist. Zum Vergleich: Es gibt Gerüchte, dass GPT-4 1,76 hat Billion Parameter und GPT-3 hat 175 Milliarden.
Qualcomm und On-Device-KI
Während unzählige Unternehmen darum kämpfen, ihre eigenen großen Sprachmodelle (und Schnittstellen für die Interaktion mit ihnen) zu erstellen, hat sich Qualcomm auf einen Schlüsselbereich konzentriert: die Bereitstellung. Cloud-Dienste, die Unternehmen kostenpflichtig nutzen Millionen um die leistungsstärksten Chatbots zu betreiben, und ChatGPT von OpenAI soll dem Unternehmen bis zu 700.000 US-Dollar pro Jahr bescheren Tag. Jede Bereitstellung auf dem Gerät, die die Ressourcen des Benutzers nutzt, kann viel Geld sparen, insbesondere wenn sie weit verbreitet ist.
Qualcomm bezeichnet dies als „hybride KI“ und kombiniert die Ressourcen der Cloud und des Geräts, um die Berechnung dort aufzuteilen, wo es am besten geeignet ist. Es wird nicht für alles funktionieren, aber wenn Vicuna-7B Google Assistant mit Hilfe der Cloud auf den Geräten der Menschen betreiben würde Dienstleistungen würden Sie theoretisch alle Vorteile eines LLM nutzen, das auf einem Gerät ausgeführt wird, mit dem zusätzlichen Vorteil der Erfassung cloudbasierte Daten. Auf diese Weise kostet es für Google die gleichen Kosten wie Assistant, jedoch ohne den zusätzlichen Aufwand.
Das ist nur eine Möglichkeit, mit der On-Device-KI das Kostenproblem zu umgehen, mit dem Unternehmen derzeit konfrontiert sind, aber hier kommt zusätzliche Hardware ins Spiel. Bei Smartphones Qualcomm zeigte stabile Diffusion auf einem Android-Smartphone mit Snapdragon 8 Gen 2, womit viele aktuelle Computer tatsächlich Probleme haben würden. Seitdem hat das Unternehmen gezeigt, dass ControlNet auch auf einem Android-Gerät läuft. Es bereitet offensichtlich schon seit einiger Zeit Hardware vor, die für intensive KI-Arbeitslasten geeignet ist, und MLC LLM ist eine Möglichkeit, dies jetzt zu testen.
Beachten Sie im obigen Screenshot, dass ich mich im Flugzeugmodus mit ausgeschaltetem WLAN befinde und es immer noch sehr gut funktioniert. Es generiert etwa fünf Token pro Sekunde, wobei ein Token etwa einem halben Wort entspricht. Daher werden etwa 2,5 Wörter pro Sekunde generiert, was für so etwas ausreichend schnell ist. In seinem aktuellen Zustand interagiert es nicht mit dem Internet, aber da es sich alles um Open Source handelt, handelt es sich um ein Unternehmen könnte die von MLC LLM und dem Team hinter dem Vicuna-7B-Modell geleistete Arbeit in ein anderes nützliches Modell umsetzen Kontext.
Anwendungen der generativen KI auf dem Gerät
Ich habe mit Karl Whealton gesprochen, Senior Director of Product Management bei Qualcomm, der für CPU, DSP, Benchmarking und KI-Hardware verantwortlich ist. Er erzählte mir alles über die verschiedenen Anwendungen von KI-Modellen, die auf Snapdragon-Chipsätzen laufen, und gab mir eine Vorstellung davon, was heute mit Snapdragon-Chipsätzen möglich sein könnte. Er erzählt mir, dass die Mikrokachel-Inferenzierung des Snapdragon 8 Gen 2 bei Transformatoren unglaublich gut ist, wo a Transformer ist ein Modell, das Beziehungen in sequentiellen Daten (wie Wörtern in einem Satz) verfolgen kann und außerdem lernen kann der Kontext.
Zu diesem Zweck habe ich ihn nach den RAM-Anforderungen gefragt, über die derzeit gemunkelt wird, und er sagte mir, dass man bei einem Sprachmodell jeglicher Art und Größe im Grunde genommen das tun würde brauchen um es in den RAM zu laden. Er fuhr fort, dass er davon ausgehen würde, dass dies wahrscheinlicher sei, wenn ein OEM so etwas in einer Umgebung mit begrenztem RAM implementieren würde Sie würden ein kleineres, möglicherweise spezialisierteres Sprachmodell in einem kleineren RAM-Segment verwenden, als es einfach aus dem Speicher des zu starten Gerät. Andernfalls wäre es brutal langsam und hätte keine gute Benutzererfahrung.
Ein Beispiel für einen speziellen Anwendungsfall ist einer, über den Qualcomm kürzlich auf der jährlichen Computer-Konferenz sprach Konferenz zur Visions- und Mustererkennung – dass generative KI letztendlich als Fitnesstrainer fungieren kann Benutzer. Beispielsweise kann ein visuell fundiertes LLM einen Video-Feed analysieren, um dann zu sehen, was ein Benutzer tut, um zu analysieren, ob er etwas falsch macht, und um dann den Feed zu senden Ergebnis in ein Sprachmodell umwandeln, das in Worte fassen kann, was der Benutzer falsch macht, und dann ein Sprachmodell verwenden kann, um diese Informationen an den Benutzer weiterzuleiten Benutzer.
Theoretisch könnte OnePlus 16 GB RAM für den allgemeinen Gebrauch bereitstellen, aber darüber hinaus sind es noch 8 GB RAM nur für KI verwendet.
Der andere wichtige Faktor bei der On-Device-KI ist natürlich die Privatsphäre. Bei diesen Modellen ist es sehr wahrscheinlich, dass Sie Teile Ihres Privatlebens mit ihnen teilen, wenn Sie Fragen stellen, oder auch nur die Gewährung von KI-Zugriff auf Ihr Smartphone könnte die Leute beunruhigen. Whealton sagt mir, dass alles, was in den SoC gelangt, äußerst sicher ist und dass dies „einer der Gründe“ ist, warum es für Qualcomm so wichtig ist, dies auf dem Gerät zu tun.
Zu diesem Zweck gab Qualcomm auch bekannt, dass es mit Meta zusammenarbeitet, um Open Source des Unternehmens zu ermöglichen Llama 2 LLM soll auf Qualcomm-Geräten laufen und soll ab 2019 für Geräte verfügbar sein 2024.
Wie 24 GB RAM in ein Smartphone integriert werden können
Quelle: Smartprix
Die jüngsten Leaks deuten auf das Kommende hin OnePlus 12 mit bis zu 16 GB RAM, fragen Sie sich vielleicht, was mit den Gerüchten über 24 GB RAM passiert ist. Die Sache ist, dass es OnePlus nicht daran hindert, KI auf dem Gerät zu integrieren, und dafür gibt es einen Grund.
Wie Whealton mir gegenüber bemerkte, hindert Sie bei der Steuerung des DRAM nichts daran, den RAM zu segmentieren, sodass das System nicht auf alles zugreifen kann. Theoretisch könnte OnePlus 16 GB RAM für den allgemeinen Gebrauch bereitstellen, aber darüber hinaus sind es noch 8 GB RAM nur für KI verwendet. In diesem Fall wäre es nicht sinnvoll, ihn als Teil der gesamten RAM-Anzahl anzugeben, da er für den Rest des Systems nicht zugänglich ist. Darüber hinaus ist es sehr wahrscheinlich, dass diese RAM-Menge auch in Konfigurationen mit 8 GB oder 12 GB RAM statisch bleibt, da sich die Anforderungen der KI nicht ändern.
Mit anderen Worten: Es ist nicht ausgeschlossen, dass das OnePlus 12 weiterhin über 24 GB RAM verfügt; Es ist nur so, dass auf 8 GB auf herkömmliche Weise möglicherweise nicht zugegriffen werden kann. Lecks wie diese, die bereits im Anfangsstadium auftreten, werden in der Regel von Personen verursacht, die möglicherweise an der eigentlichen Produktion des Geräts beteiligt sind. Daher kann es sein, dass sie mit 24 GB RAM gearbeitet haben und nicht wussten, dass 8 GB für ganz bestimmte Zwecke reserviert werden könnten. Das ist allerdings reine Vermutung meinerseits und es ist ein Versuch, die Leaks zu verstehen, soweit sowohl Digital Chat Station als auch OnLeaks dies können beide Recht haben.
Nichtsdestotrotz sind 24 GB RAM eine wahnsinnige Menge in einem Smartphone, und da Funktionen wie diese eingeführt werden, Es war noch nie so klar, dass Smartphones nur superleistungsfähige Computer sind, die nur noch mehr werden können mächtig.