Der Snapdragon 845 von Qualcomm verfügt über einen leistungsstarken Chip für maschinelles Lernen. Es heißt Hexagon 685 DSP und ist ein großer Fortschritt in der KI-Hardware.
Der Snapdragon 845 – das neueste System-on-Chip in der Snapdragon-Familie von Qualcomm – ist ein Kraftpaket unter den Prozessoren. Es verfügt über schnelle CPU-Kerne, einen Spectra-Bildsignalprozessor (ISP) der dritten Generation und eine Architektur, die 30 Prozent energieeffizienter ist als die Vorgängergeneration. Aber seine wohl beeindruckendste Komponente ist ein Co-Prozessor – der Hexagon 685 DSP – der maßgeschneidert für künstliche Intelligenz und maschinelles Lernen ist.
Was genau macht den Hexagon 685 DSP von Qualcomm aus?
„Vektormathematik ist die Grundlage des Deep Learning.“ - Travis Lanier, Senior Director für Produktmanagement bei Qualcomm
Um zu verstehen, was den Hexagon DSP so einzigartig macht, ist es hilfreich zu wissen, dass die KI von der Art von Technologie angetrieben wird, mit der Ingenieurstudenten an Mathematikhochschulen bestens vertraut sind. Beim maschinellen Lernen werden Berechnungen mit großen Vektoren durchgeführt, was eine Herausforderung für Smartphone-, Tablet- und PC-Prozessoren darstellt. Für Allzweckchips ist es schwierig, Algorithmen wie den stochastischen Gradientenabstieg – die Art von Algorithmen, die den Kern von KI-gestützten Apps ausmachen – schnell und effizient zu berechnen. Qualcomms Hexagon DSP wurde zum Teil eingeführt, um dieses Problem zu lösen: Er eignet sich hervorragend für den Umgang mit Bild- und Sensordaten, insbesondere für die Fotografie.
Doch der Hexagon DSP kann weit mehr als nur Selfies aufpeppen. Die enthaltenen HVX-Kontexte (mehr dazu später) verleihen ihm den Vorteil sowohl von Allzweckprozessoren als auch von Kernen mit festen Funktionen; Der Hexagon 685 DSP ist äußerst effizient bei der Berechnung der Mathematik hinter dem maschinellen Lernen auf dem Gerät, behält aber die Flexibilität besser programmierbarer Prozessoren bei.
KI-Chips wie der Hexagon 685 DSP, die manchmal auch als „Neuronale Verarbeitungseinheiten“ bezeichnet werden, „Neuronale Engines“ oder „Machine-Learning-Kerne“ sind speziell auf die Mathematik von KI-Algorithmen zugeschnitten Bedürfnisse. Sie sind viel stabiler im Design als herkömmliche CPUs und enthalten spezielle Anweisungen und Anordnungen (im Fall des Hexagon 685 DSP die oben erwähnte HVX-Architektur), die bestimmte Skalar- und Vektoroperationen beschleunigen, was sich im großen Maßstab bemerkbar macht Implementierungen.
Der Hexagon 685 DSP des Snapdragon 845 kann Tausende Bits von Vektoreinheiten pro Verarbeitungszyklus verarbeiten, verglichen mit Hunderten Bits pro Zyklus eines durchschnittlichen CPU-Kerns. Das ist beabsichtigt. Mit vier parallelen Skalar-Threads für VLIW-Operationen (Very Long Instruction Word) und mehreren HVX-Kontexten ist der DSP ausgestattet ist in der Lage, mehrere Ausführungseinheiten in einem einzigen Befehl zu jonglieren und durch Ganzzahlen und Festkomma-Dezimalzahlen zu blättern Operationen.
Anstatt die Leistung durch reine MHz zu steigern, zielt das Design des Hexagon 685 auf ein hohes Maß an Arbeit pro Zyklus bei reduzierter Taktrate ab. Es umfasst Hardware-Multithreading, das gut für VLIW funktioniert, da Multithreading Pipeline-Latenzen verbirgt und eine bessere Nutzung von VLIW-Paketen ermöglicht. Das Multithreading des DSP bedeutet, dass er mehrere Offload-Sitzungen bedienen kann – d. h. gleichzeitige Apps für Audio, Kamera, Computer Vision usw. – und beschleunigen verschiedene Aufgaben gleichzeitig, sodass Anwendungen nicht darum kämpfen müssen Ausführungszeit.
Doch das sind nicht die einzigen Stärken des Hexagon DSP. Seine Befehlssatzarchitektur (ISA) weist im Vergleich zum herkömmlichen VLIW eine verbesserte Effizienz auf verbesserter Steuercode und nutzt clevere Tricks, um die Leistung aus dem Leerlauf und dem Stillstand wiederherzustellen Threads. Es implementiert außerdem ein latenzfreies Round-Robin-Thread-Scheduling, was bedeutet, dass die Threads des DSP neue Anweisungen unmittelbar nach Abschluss des vorherigen Datenpakets verarbeiten.
Um es klarzustellen, nichts davon ist neu. Qualcomm stellte den Hexagon DSP der „ersten Generation“ (oder eigentlichen) vor – den Hexagon 680 oder QDSP6 v6 – neben dem Snapdragon 820 im Jahr 2015, und auf den Hexagon 680 folgte der leicht verbesserte Sechseck 682. Aber die neueste Generation ist die bisher ausgereifteste und bietet bis zu dreimal so viel Gesamtleistung wie der DSP des Snapdragon 835.
Dies ist zu einem großen Teil dem HVX zu verdanken, der bei der Bildverarbeitung sehr gut funktionierte (denken Sie an Augmented Reality, Computer Vision, Videos und Bilder). Die HVX-Register des DSP können von zwei beliebigen Skalarregistern gesteuert werden, und die HVX-Einheiten und Skalareinheiten können gleichzeitig verwendet werden, was zu erheblichen Leistungssteigerungen und Parallelität führt.
Hier ist Qualcomms Erklärung:
„Angenommen, Sie verarbeiten auf der mobilen CPU im Steuercodemodus und wechseln auf dem Coprozessor in den Rechenmodus. Wenn Sie Steuercode benötigen, müssen Sie anhalten und vom Coprozessor zur Haupt-CPU zurückkehren. Mit Hexagon können sowohl der Steuercodeprozessor auf dem DSP als auch der Rechencodeprozessor auf HVX gleichzeitig ausgeführt werden, um eine enge Kopplung von Steuer- und Rechencode zu gewährleisten. Dadurch kann der DSP das Ergebnis einer HVX-Berechnung übernehmen und es im nächsten Taktzyklus für eine Steuercode-Entscheidung verwenden.“
Der HVX bietet einen weiteren großen Vorteil bei der Bildsensorverarbeitung. Snapdragon-Geräte mit dem Hexagon 685 DSP können Daten direkt vom Bildsensor in den lokalen Speicher des DSP (L2-Cache) streamen und dabei den DDR-Speichercontroller des Geräts umgehen. Das reduziert natürlich die Latenz, verbessert aber auch die Akkulaufzeit – der Snapdragon-Prozessor ist so konzipiert, dass er während des gesamten Vorgangs im Leerlauf arbeitet.
Es ist speziell für 16-Bit-Gleitkomma-Netzwerke optimiert und wird von Qualcomms Software für maschinelles Lernen gesteuert: Snapdragon Neural Processing Engine.
„Wir haben es sehr ernst genommen“, sagte ein Qualcomm-Sprecher. „Wir arbeiten seit drei Jahren mit Partnern zusammen, damit diese unser Silizium für KI und Bildgebung nutzen können.“
Zu diesen Partnern gehört beispielsweise Google, das beispielsweise den Bildverarbeitungsteil des Hexagon DSP nutzte, um den HDR+-Algorithmus des Pixels und Pixel 2 zu betreiben. Obwohl Google auch seinen eigenen Pixel Core eingeführt hat, ist es erwähnenswert, dass es sich um DSP-fähige Geräte vom Typ Hexagon 685 handelt Diejenigen, die die besten Ergebnisse mit dem berühmten Google Camera-Port erzielen, teilweise aufgrund (wie wir bestätigt haben) von HVX Nutzung. Facebook, ein weiterer Partner, arbeitete eng mit Qualcomm zusammen, um die Echtzeit-Kamerafilter und -effekte von Messenger zu beschleunigen.
Oppo hat seine Face-Unlock-Technologie für das Hexagon 685 DSP optimiert und Lenovo hat seine Landmark-Erkennungsfunktion darauf aufbauend entwickelt.
Ein Grund für die große Unterstützung der Plattform ist ihre Einfachheit. Das umfangreiche Hexagon SDK von Qualcomm unterstützt die Halide-Sprache für eine leistungsstarke Bildverarbeitung, und das ist nicht erforderlich Sie müssen sich keine Gedanken über Trainings-Frameworks für maschinelles Lernen machen – die Implementierung eines Modells ist in den meisten Fällen so einfach wie das Ausführen eines API-Aufrufs Fälle.
„Wir konkurrieren nicht mit Unternehmen wie IBM und Nvidia [in der KI], aber wir haben Bereiche, die Entwickler erschließen können – und das haben wir bereits“, sagte Qualcomm gegenüber XDA Developers.
Sechseck vs. der Wettbewerb
Der Hexagon 685 DSP des Snapdragon 845 kommt zu einem Zeitpunkt, an dem immer mehr Originalgerätehersteller (OEMs) eigene mobile und geräteinterne KI-Lösungen verfolgen. Huaweis Kirin 970 -- das System-on-Chip im Inneren Mate 10 Und Mate 10 Pro – verfügt über eine „Neuronale Verarbeitungseinheit“ (NPU), die Berichten zufolge mehr als 2.000 Bilder pro Sekunde erkennen kann und dabei nur 1/50 des Stromverbrauchs einer durchschnittlichen Smartphone-CPU verbraucht. Und das Apple A11 Bionic System-on-Chip im iPhone 8, iPhone 8 Plus und iPhone X verfügt über eine „Neural Engine“, die Gesichtsmodellierung in Echtzeit und bis zu 600 Milliarden Operationen pro Sekunde durchführt.
Aber Qualcomm sagt, dass die Plattformunabhängigkeit des Hexagons ihm einen Vorteil verschafft. Im Gegensatz zu Apple und Huawei, die Entwickler größtenteils dazu zwingen, proprietäre APIs zu verwenden, war Qualcomm von Anfang an bestrebt, einige der beliebtesten Open-Source-Frameworks zu unterstützen. Beispielsweise wurde bei der Optimierung mit Google zusammengearbeitet TensorFlow, Googles Plattform für maschinelles Lernen, für den Hexagon 685 DSP – laut Qualcomm läuft er bis zu achtmal schneller und 25-mal energieeffizienter als auf Nicht-Hexagon-Geräten.
Auf der DSP-Architektur von Qualcomm, der von Google GoogLeNet Inception Deep Neural Network – ein maschineller Lernalgorithmus zur Bewertung der Qualität von Objekterkennungs- und -klassifizierungssystemen – demonstrierte in einer Demovorführung Fortschritte eine TensorFlow-basierte Bilderkennungs-App auf zwei Smartphones: eines, das die App auf der CPU ausführt, und das andere, das sie auf Qualcomms Hexagon ausführt DSP. Die DSP-beschleunigte Smartphone-App nahm mehr Bilder pro Sekunde auf, identifizierte Objekte schneller und hatte eine höhere Sicherheit bei der Schlussfolgerung, um welches Objekt es sich handelte, als die reine CPU-App.
Google nutzt den Hexagon 685 DSP auch zur Beschleunigung von Project Tango, seiner Augmented-Reality-Plattform für Smartphones. Das Phab 2 Pro von Lenovo, das ZenFone AR von Asus und andere Geräte mit dem Tiefenerkennungs-IR-Modul und den Bildverfolgungskameras von Tango nutzen die Vorteile von Qualcomm Heterogene Verarbeitungsarchitektur, die Verarbeitungsaufgaben zwischen dem Hexagon 685 DSP des Snapdragon-Chipsatzes, dem Sensor-Hub und dem Bildsignal delegiert Prozessor (ISP). Das Ergebnis ist laut Qualcomm ein Overhead von „weniger als 10 Prozent“ für die System-on-Chip-CPU.
„Soweit wir wissen, sind wir die einzigen Mobilfunkanbieter, die auf Leistung und Energieeffizienz optimieren“, sagte ein Qualcomm-Sprecher.
Natürlich arbeiten auch Wettbewerber daran, ihren Einflussbereich zu erweitern und die Entwicklerunterstützung auf ihren Plattformen zu fördern. Der neuronale Chip des Kirin 970 wurde mit Unterstützung für TensorFlow und eingeführt Kaffee (Facebooks offenes API-Framework) zusätzlich zu den Kirin-APIs von Huawei mit TensorFlow Lite Und Kaffee2 Die Integration soll noch in diesem Jahr erfolgen. Und Huawei arbeitete mit Microsoft zusammen, um seinen KI-gestützten Übersetzer für das Mate 10 zu optimieren.
Aber Qualcomm hat noch einen weiteren Vorteil: Reichweite. Laut Strategy Analytics beherrschte der Chiphersteller im ersten Halbjahr 2017 42 Prozent des Smartphone-Chipmarktes, gefolgt von Apple und MediaTek mit jeweils 18 Prozent. Es genügt zu sagen, dass es noch nicht ins Wanken gerät.
Und Qualcomm prognostiziert, dass es nur noch wachsen wird. Der Chiphersteller prognostiziert bis 2025 einen Umsatz von 160 Milliarden US-Dollar mit KI-Softwaretechnologien wie Computer Vision und sieht den Smartphone-Markt, der bis 2021 voraussichtlich 8,6 Milliarden ausgelieferte Einheiten erreichen wird, als den größten an Plattform.
Mit dem Hexagon 685 DSP und anderen „tertiären“ Verbesserungen gelangen sie kontinuierlich in die Mittelklasse Hardware ist es für Qualcomm-Chips auch einfacher, maschinelles Lernen auf dem Gerät auf alle Arten von Geräten in der Nähe zu übertragen Zukunft. Sie bieten außerdem ein praktisches SDK für Entwickler (ohne sich mit der DSP-Assemblersprache herumschlagen zu müssen), um die Vorteile des Hexagon 685 DSP und HVX in ihren Anwendungen und Diensten zu nutzen.
„Es besteht Bedarf an diesen dedizierten Verarbeitungseinheiten für die neuronale Verarbeitung, aber Sie müssen sie auch erweitern, damit Sie [Open-Source-]Frameworks unterstützen können“, sagte ein Qualcomm-Sprecher. „Wenn Sie dieses Ökosystem nicht schaffen, gibt es keine Möglichkeit, dass Entwickler darauf aufbauen können.“