Interview: Qualcomm über den Kryo 485 und den Hexagon 690 des Snapdragon 855

Travis Lanier von Qualcomm traf sich mit XDA zu einem Interview über die Kryo 485-CPU in der mobilen Plattform Snapdragon 855 und die Vermarktung des Hexagon 690 DSP.

Letzten Monat stellte Qualcomm das vor Mobile Plattform Snapdragon 855. Der Snapdragon 855 ist die mobile Plattform, die 2019 die meisten Android-Flaggschiff-Smartphones antreiben wird. Qualcomm hat mit seiner mobilen Plattform der nächsten Generation im Vergleich zum Vorjahr erhebliche Verbesserungen erzielt. Die mobile Plattform Snapdragon 855 basiert auf einem 7-nm-Fertigungsprozess und bietet einen beeindruckenden Anstieg der CPU-Leistung um 45 % gegenüber dem Snapdragon 845. Die allgemeinen Verbesserungen bei der Berechnung ermöglichen es Qualcomm, beim neuen Snapdragon 855 eine hervorragende KI-Leistung vorzuweisen. Hier gibt es viele Informationen zu entpacken und wir haben unser Bestes getan, um sie zu zeigen wie Qualcomm Leistung und KI verbessert hat auf dem Snapdragon 855. Allerdings hatten wir nach der Produktvorstellung noch eigene Fragen, also haben wir uns mit Travis Lanier, Senior, zusammengesetzt Direktor für Produktmanagement bei Qualcomm, um über die Kryo 485-CPU und die KI auf dem neuen Mobiltelefon von Qualcomm zu sprechen Plattform.

Mario Serrafero: „45 % [Sprung], es ist sozusagen der Größte aller Zeiten.“ Packen wir das aus. Wir haben die A76-Basis, 7 nm – das leistet einen großen Beitrag. Es scheint, als hätten Sie sich von benutzerdefinierten Kernen, einigen Veröffentlichungen und Zielgruppen entfernt Ich hatte keine Ahnung, was die „Built on ARM“-Lizenz im Hinblick auf die Möglichkeiten mit sich bringt du zu tun. Sie haben [auch] ziemlich verschwiegen, was das bedeutet. Jetzt sind Sie zum ersten Mal auf der Bühne, zumindest über die Fragen und Antworten hinaus,... aber Sie haben zum ersten Mal gezeigt, welche Verbesserungen es gab, und das ist cool. Deshalb haben wir uns gefragt, ob Sie näher darauf eingehen möchten, wie Qualcomm den Kryo 485 optimiert hat, um mehr aus ihm herauszuholen ARM-Basis, egal, ob es sich dabei um eine Erweiterung der Dinge handelt, die Sie dort enthüllt haben, oder um etwas, das Sie nicht präsentiert haben.“

Travis Lanier: „Ich kann also nicht viel mehr sagen als das, was in meinen Folien stand.“ Vielleicht können wir das zu einem späteren Zeitpunkt tun, damit wir uns zusammensetzen und einige Experten beauftragen können, die die Arbeit tatsächlich erledigt haben; Ich kenne die hochrangigen Gesprächsthemen. Aber wie Sie wissen, ist der A76 bereits ein Design auf hohem Niveau – es ist ziemlich gut. Und das ist einer der Gründe, warum wir die Roadmap von ARM gesehen haben. Also denke ich, okay, vielleicht sollten wir enger mit diesen Jungs zusammenarbeiten, weil es sehr stark aussah. Und ich komme noch einmal auf Ihren Kommentar zur Anpassung im Vergleich zu ARM zurück. Okay, es gibt all diese Dinge, die Sie tun können. Und wenn Sie etwas tun und es differenziert sein muss, damit Sie etwas hundertprozentig tun oder mit ihnen zusammenarbeiten können. Und [wie in] den vergangenen Jahren geht es uns ein bisschen mehr um Integration. Also Busse und wie wir uns an das System angeschlossen haben, ihre Sicherheitsfunktionen, die wir in die CPUs eingebaut haben, Cache-Konfigurationen. Da die Engagements nun schon länger andauern, konnten wir bei diesem eine umfassendere Anpassung vornehmen. Und so konnten wir einige dieser Dinge einbauen, wie zum Beispiel größere [außerhalb der Reihenfolge] Ausführungsfenster, also haben Sie mehr Bei Fluganweisungen ist das Vorabholen von Daten tatsächlich einer der Bereiche, in denen es in der Mikroprozessorindustrie die meisten Innovationen gibt im Augenblick. Viele der Techniken für viele dieser Dinge sind ziemlich ähnlich. Heutzutage verwendet jeder einen TAGE-Verzweigungsprädiktor. Wie groß Sie es bereitstellen, die Leute wissen, wie man Out-of-Order- und Weiterleitungsvorgänge und all das Zeug für größere Caches durchführt. Aber vorab, es gibt immer noch eine Menge davon, es ist eines dieser düsteren Kunstdinge. Es gibt also immer noch viel Innovation in diesem Bereich. Wir hatten also das Gefühl, dass wir dabei helfen könnten.

Und dann, nur weil wir das Gefühl haben, dass wir mit... im Allgemeinen einen besseren Job machen... Normalerweise können wir einen Entwurf schneller implementieren, als andere einen Prozessknoten integrieren können. Wenn wir also einige dieser Dinge einbauen, beispielsweise wenn Sie mehr aus der Reihe geraten, wird Ihr Design stärker belastet, oder? Es ist nicht kostenlos, all diese Ausführungsdinge dort hinzuzufügen. Also, um das zu können und keinen Schlag auf dich zu bekommen fmax. Ja, das ist Teil des Engagements, das wir mit ARM haben, wie zum Beispiel, wie man das hinbekommt?“

Mario Serrafero: „Nur aus Neugier hatten Sie in der Präsentation von bevorstehenden Effizienzsteigerungen gesprochen Haben Sie beim Vorabruf über Energieeffizienz, Leistungsverbesserungen usw. gesprochen? beide?"

Travis Lanier: „Alles oben Genannte. Wir führen also naturgemäß einen Vorabruf durch – Sie haben Dinge in den Cache gezogen. Wenn der Cache also nicht so viele Speicherzugriffe durchführt, gibt es jetzt eine Kehrseite des Vorabrufs: Wenn Sie zu viel Vorabruf durchführen, [verbrauchen] Sie mehr Speicher, weil Sie Wissen Sie, Sie machen zu viel spekulatives Prefetching, aber wenn Sie Sachen reinhaben und die richtigen Sachen abrufen, dann gehen Sie nicht in den Speicher, um sie reinzuholen Dort. Wenn Sie also über einen effizienteren Prefetcher verfügen, sparen Sie Strom und steigern die Leistung.“

Mario Serrafero: „Okay, cool, ja. Ja, ich hatte nicht erwartet, dass Sie darüber hinaus noch viel weiter expandieren könnten, aber es ist interessant, wenn Sie das sagen Jetzt passt ihr mehr an und vielleicht könnt ihr in Zukunft mehr teilen, dann werde ich ein Auge darauf haben. Die andere Art von Hingucker, zumindest unter den Leuten, von denen ich umgeben bin, ist der Prime Core. Daher haben wir seit ein paar Jahren mit der Einbeziehung von DynamIQ eine Art flexiblere Cluster-Vereinbarung erwartet und erwartet, dass andere Unternehmen von der 4+4-Vereinbarung abrücken. Also zwei Fragen: Was war das Motiv hinter dem Prime Core? Welchen Nutzen hat der Prime Core für das Benutzererlebnis, denn unsere Leser möchten wissen, warum es dort nur einen einzelnen Kern gibt und warum es sich nicht um einen einzelnen Kern handelt? Würde die gemeinsame Nutzung der Leistungsebene mit dem Leistungscluster nicht einen Teil des Nutzens mindern, den Sie erhalten könnten, wenn Sie DynamIQ verwenden und [es] sozusagen alleine betreiben würden?“

Travis Lanier: „Lassen Sie uns also zunächst über unterschiedliche Uhren und unterschiedliche Spannungsebenen sprechen. Jedes Mal, wenn Sie also eine Uhr und jede Spannung hinzufügen, kostet es Geld. Es gibt also eine Grenze für die Anzahl der Pins, die Sie auf dem Gehäuse anbringen, es müssen mehr PLLs für verschiedene Takte vorhanden sein und die Komplexität nimmt einfach zu. Es gibt also einen Kompromiss, Dinge zu tun. An einem Punkt sind wir ziemlich extrem vorgegangen; Wir hatten vier verschiedene Domänen auf vier verschiedenen Uhren, also hatten wir Erfahrung damit und es war teuer. Sozusagen, wenn man anfängt, groß rauszukommen. WENIG, Sie haben die kleinen Kerne auf [dem] kleinen Cluster und sie benötigen sozusagen nicht die gleiche Granularität eines separaten Takts zwischen den kleinen Kernen. Ja, es liegt irgendwie in der Luft, was man damit macht. Also, wenn Sie ein großes haben. KLEINES System, dann hat man umgekehrt diese großen Kerne. Na gut, stellen Sie das jeweils auf eine große Uhr? Nun ja, Sie laufen nicht die ganze Zeit auf diesen, wenn Sie sich tatsächlich in einer ausreichend niedrigen Situation befinden, in der eine unbelegte Uhr sowieso auf einem kleinen Kern läuft. Es sind also wirklich zwei davon, die da gut genug sind.

Und dann kommen wir zu dem Punkt, an dem wir diesen Hauptkern hatten, wo wir einen separaten Taktkern haben, der eine höhere Frequenz erreichen kann. Aber diese anderen Kerne, die anderen Leistungscluster, können nicht die gleiche hohe Frequenz erreichen. Wenn Sie also die volle Berechtigung für diesen Kern erhalten möchten, müssen Sie für diesen Kern den dritten Takt haben. Was macht dieser Kern also? Wir haben das ein wenig angesprochen. Große Dinge werden der App-Launcher und das Surfen im Internet sein. Und warum also nur ein Kern? Okay, die Dinge werden jetzt multithreadiger. Spiele-Engines zum Beispiel – ich komme gleich darauf zurück – bewegen sich sehr aggressiv in Richtung mehr Threads. Aber wenn Sie sich die meisten Apps ansehen, selbst wenn sie mehrere Threads haben, verwende ich die Pareto-Regel, da wie die meisten von ihnen 80 % der Last in einem Thread liegen. Sie können also eine App starten, die auf allen 8 Kernen startet und aufleuchtet. Aber höchstwahrscheinlich befinden sich 80 % davon in einem dominanten Thread – in diesem einen Kern. Das Surfen im Internet ist immer noch in erster Linie, nun ja, JavaScript, würde ich sagen – das Surfen im Internet ist mit Multithreading, bei dem Sie mehrere Bilder haben und diese dekodieren können, etwas besser geworden. Aber zum Beispiel JavaScript – [ein] einzelner Thread wird auf einem Kern ausgeführt. Es gibt also eine große Anzahl von Anwendungsfällen, die davon profitieren, dass dieser eine Kern wirklich hoch gestiegen ist.

Jetzt haben wir drei Kerne, die etwas mit einer niedrigeren Frequenz laufen, aber sie sind auch energieeffizienter. Und so, wann immer Sie – ich weiß nicht, wie viel Sie über die Implementierung von Kernen wissen – aber wann immer Sie anfangen, die Spitze der Frequenz zu erreichen, und Bei den Implementierungen dieser Kerne gibt es einen Kompromiss bei der Leistung, die Dinge beginnen in den letzten paar Megahertz oder Gigahertz, die Sie haben, exponentiell zu werden haben. Ja, und so habe ich vorhin darüber gesprochen, dass alle Spiele, wie alle anderen, anfangen, Multithreading zu betreiben Plötzlich, wenn Sie zurückblicken, gab es vor nicht allzu langer Zeit ein paar Spiele, und sie verwenden nur eines Faden. Aber es ist seltsam, wie schnell sich die Branche verändern kann. Wie in den letzten anderthalb Jahren haben sie buchstäblich damit begonnen, all diese Spiele in... zu integrieren. Ich war von diesen High-Fidelity-Spielen begeistert. Und während viele Dinge noch vor sechs Monaten bis einem Jahr vorher in ganz China auf den Kopf gestellt wurden. In China höre ich: „Große Kerne interessieren mich nicht wirklich, gib mir von allem eine Acht, gib mir acht davon.“ „Die kleinsten Kerne, sodass ich acht Kerne haben kann.“ Sie haben sich verändert, weil sie diese Spiele wollen, diese Spiele erfordern große Kerne. Und jetzt bekommen wir von Partnern das Feedback, dass „nein, wir wollen eigentlich vier große Kerne“, wegen all der fortschrittlichen Spiele, die herauskommen. Und sie werden alle diese Kerne nutzen.

Wenn Sie also spielen, spielen Sie nicht 30 Sekunden oder 5 Minuten, sondern länger. Es macht also Sinn, dass wir diese drei anderen Kerne in den meisten Ihrer Multithread-Anwendungsfälle für große Kerne haben, sie möchten etwas mehr Energieeffizienz haben. Es gleicht sich irgendwie aus, man hat diesen leistungsstärkeren Kern, wenn man ihn für einige dieser Dinge innerhalb einiger braucht Von diesen nachhaltigen Fällen haben sie auch große Kerne und Sie haben diese energieeffizientere Lösung zum Koppeln Das. Das ist so eine Denkweise – es ist eine etwas ungewöhnliche Symmetrie. Aber das beantwortet hoffentlich die Frage, warum es einen Hauptkern gibt, warum es keine separaten Uhren gibt und warum es keine separaten Spannungen gibt. Und ich glaube, ich habe all das angesprochen.

Kryo 485 CPU-Kernkonfiguration. Quelle: Qualcomm.

Mario Serrafero: „Nun, heterogene Berechnung. Das ist es, was Qualcomm seit der Umstellung vom alten Branding auf die mobile Plattform betont hat. und diese Art von [einem] Deskriptor und auch die Aggregation von Blöcken zur Beschreibung bestimmter Leistungsmetriken wie z KI. Wie war diese Entwicklung bei der Umstellung auf einen heterogeneren Rechenansatz? Alles vom Design über die Ausführung bis zum Marketing oder was auch immer Sie berühren möchten.“

Travis Lanier: „Es geht ein bisschen hin und her.“ Aber am Ende muss man über diese Motoren verfügen, denn bei Mobilgeräten geht es vor allem um Energieeffizienz. Jetzt sieht man manchmal, dass es von Zeit zu Zeit wieder zu einer Verallgemeinerung kommt. Wenn Sie zum Original zurückkehren, verfügten Feature-Phones auch bei Smartphones über Multimedia und eine Kamera Sie verfügen bis zu einem gewissen Grad über Fähigkeiten und deshalb haben sie all diese kleinen dedizierten Dinge, weil Sie das nicht konnten Tu es. Wenn Sie auf die Telefone zurückkommen, die auf dem ARM 9 oder einem ARM 7 basieren, hatten sie alle ein Hardwarebeschleunigungs-Widget für alles.

Aber um Ihnen ein Beispiel zu geben, wo etwas allgemein gelaufen ist und jetzt wieder nach Hardware gefragt wird, wäre JPEG. Früher gab es einen JPEG-Beschleuniger. Die CPU wurde schließlich gut genug und energieeffizient genug, und die JPEGs blieben irgendwie erhalten die gleiche Größe, hey, wissen Sie was, wir machen es einfach auf der CPU, da es einfach einfacher zu machen ist Es. Jetzt, da die Bilder immer größer werden, sagen die Leute plötzlich: „Ich möchte eigentlich, dass diese wirklich gigantischen Fotodateigrößen beschleunigt werden.“ Die CPUs sind entweder nicht schnell genug oder verbrauchen zu viel Strom. Plötzlich besteht wieder Interesse daran, möglicherweise wieder JPEG-Beschleuniger zu haben. Es ist also nicht immer eine gerade Linie, wie die Dinge laufen, dann muss man sich ansehen, was gerade mit dem Mooreschen Gesetz vor sich geht. Alle reden ständig darüber: „Hey, du bist vielleicht nicht tot, aber es wird ein bisschen langsamer, oder?“ Wenn Sie also nicht von jedem nächsten Knoten die Leistungssteigerung oder Leistungssteigerung erhalten, wie können Sie dann weiterhin mehr Funktionalität auf das Telefon bringen, wenn Sie diesen Overhead nicht haben? Man könnte es also einfach auf die CPU legen. Aber wie beschleunigen Sie diese Dinge, wenn Sie nicht mehr Spielraum für Ihre CPU haben? Die Antwort lautet: Sie setzen all diese spezialisierten Kerne und Dinge effizienter ein. Und so ist es diese natürliche Spannung.

Sie werden sehen, dass Menschen gezwungen werden, diese Dinge für gemeinsame Zwecke zu tun, da möglicherweise nicht jeder auf dem neuesten Stand ist. Aber wir werden auf jeden Fall versuchen, so lange wie möglich dort zu bleiben, aber wir können die Fabriken nicht zwingen, zum nächsten Knoten zu wechseln, wenn dieser nicht unbedingt dort ist. Deshalb müssen Sie sich auf kontinuierliche Innovation und diese Architekturen konzentrieren, um weiterhin bessere Leistung und Energieeffizienz zu erzielen. Das ist also unsere Stärke und unser Hintergrund.“

Mario Serrafero: „Obwohl es seitens Qualcomm diesen Schritt hin zu heterogenem Computing gegeben hat, gibt es viele Zielgruppen und sicherlich viele Veröffentlichungen Überraschenderweise betrachten, betrachten und bewerten viele Enthusiasten, von denen Sie glauben, dass sie es besser wissen würden, die Blöcke immer noch als getrennt Entitäten. Sie konzentrieren sich immer noch darauf: „Ich möchte die CPU-Zahlen sehen, weil mir das wichtig ist.“ Sie wollen GPU-Zahlen sehen, weil sie Spiele mögen, und so weiter und so weiter. Sie betrachten sie nicht als kommunizierte Teile eines integralen Produkts. Wie ist es Ihrer Meinung nach gelungen, dass Qualcomm dieses Paradigma durchbrechen kann, wie es Qualcomm gelingt und wie er es schaffen kann, während sich die Konkurrenz weiterhin auf diese spezifische Block-für-Block-Verbesserung im Marketing konzentriert? Konkret gehen wir später zu den neuronalen Netzen und dem neuronalen Motor-Zeug über.“

Travis Lanier: „Ich hoffe, ich habe heute einiges davon angesprochen.“ Wir konzentrieren uns beispielsweise auf nachhaltiges Gaming. Vielleicht schneiden Sie also bei allen Gaming-Benchmarks gut ab. Die Leute sind davon besessen. Aber was wirklich zählt, ist, wenn Sie Ihr Spiel spielen, bleiben Ihre Bilder pro Sekunde konstant dort, wo Sie sie am höchsten Punkt für diese Dinge haben möchten? Ich denke, dass die Leute einer Zahl für einen dieser Blöcke viel zu viel Gewicht beimessen. Es ist so schwer und ich verstehe den Wunsch, mir eine Nummer zu geben, die mir sagt, was die Beste ist. Es ist einfach so praktisch, besonders im KI-Bereich, es ist einfach der Wahnsinn. Was misst ein CPU-Benchmark auch bei CPU-Benchmarks? Sie alle messen unterschiedliche Dinge. Nehmen Sie einen der Benchmarks, zum Beispiel hat GeekBench eine Reihe von Unterkomponenten. Haben Sie jemals jemanden gesehen, der sich auseinandersetzt und nachschaut, welche dieser Unterkomponenten für das, was ich tatsächlich mache, am relevantesten ist?“

Mario Serrafero: „Manchmal tun wir das.“

Travis Lanier: „Vielleicht ja. Ihr seid wie ein Ausreißer. Aber vielleicht ist eine CPU hier besser und vielleicht ist eine CPU besser bei einer anderen. Das Gleiche gilt für SPEC, die Leute werden das eine SPEC hervorheben, nun gut, da gibt es viele verschiedene Arbeitslasten darin. Und es sind ziemlich knappe Dinge, aber selbst SPEC, die wir tatsächlich für die Entwicklung von CPUs verwenden, sind sie, wenn man sich die tatsächlichen Arbeitslasten ansieht, tatsächlich relevant? Es eignet sich hervorragend zum Vergleichen der Workstation-Arbeitslasten, aber führe ich die molekulare Modellierung wirklich auf meinem Telefon durch? Nein. Aber das ist mein Punkt: Die meisten dieser Benchmarks sind in gewisser Weise nützlich, aber Sie müssen den Kontext verstehen, wozu sie dienen und wie Sie dorthin gelangen. Daher ist es wirklich schwierig, die Dinge auf eine Zahl zu reduzieren.

Und das sehe ich besonders – ich schwanke hier ein wenig –, aber ich sehe das gerade bei der KI, es ist verrückt. Ich sehe, dass es ein paar verschiedene Dinge gibt, die für KI keine einzige Nummer ergeben würden. Und so viel wie ich über die CPU gesprochen habe, und Sie haben all diese unterschiedlichen Arbeitslasten und Sie versuchen, eine Zahl zu bekommen. Heiliger Moly, AI. Es gibt so viele verschiedene neuronale Netze und so viele verschiedene Arbeitslasten. Führen Sie es im Gleitkommaformat aus, führen Sie es im Int-Format aus, führen Sie es mit 8- oder 16-Bit-Präzision aus? Was also passiert ist, ist, dass ich sehe, dass Leute versuchen, diese Dinge zu erschaffen, und wir haben uns für diese Arbeitsbelastung entschieden und es geschafft Gleitkomma, und wir werden 50 % unserer Tests auf diesem einen Netzwerk und zwei weiteren Tests gewichten, und wir werden sie gewichten Das. Okay, nutzt überhaupt irgendjemand diesen bestimmten Workload in diesem Netz? Irgendwelche echten Anwendungen? KI ist faszinierend, weil sie sich so schnell bewegt. Alles, was ich Ihnen sage, wird in ein oder zwei Monaten wahrscheinlich falsch sein. Das ist auch das Coole daran, weil es sich so sehr verändert.

Aber das Wichtigste bei der KI ist nicht die Hardware, sondern die Software. Weil jeder es nutzt, verwende ich zum Beispiel dieses neuronale Netz. Und im Grunde gibt es dort all diese Multiplikatoren. Haben Sie dieses spezielle neuronale Netzwerk optimiert? Und haben Sie das auch für den Benchmark optimiert, oder optimieren Sie das, wie manche Leute sagen werden: Sie Ich habe einen Benchmark erstellt, der die Superauflösung misst. Es handelt sich um einen Benchmark für eine Superauflösung KI. Nun, sie nutzen dieses Netzwerk und haben es möglicherweise im Gleitkommaformat gemacht. Aber jeder Partner, mit dem wir zusammenarbeiten, hat es entweder geschafft, es mit 16 Bit und/oder 8 Bit und über ein anderes Netzwerk zu machen. Bedeutet das also, dass wir nicht gut in der Superauflösung sind, weil diese Arbeit damit nicht mithalten kann? Mein einziger Punkt ist also, dass KI-Benchmark[ing] wirklich kompliziert ist. Sie denken, CPU und GPU seien kompliziert? KI ist einfach verrückt.“

Mario Serrafero: „Ja, es gibt zu viele Arten von Netzwerken, zu viele Parametrisierungen – unterschiedliche Parametrisierungen führen zu unterschiedlichen Auswirkungen, wie sie berechnet werden.“

Travis Lanier: „Es wird die Rezensenten beschäftigen.“

Mario Serrafero: „Aber wenn man die Gesamtheit der Dinge messen möchte, ist das viel schwieriger.“ Aber ja, niemand macht es.“

Mischaal Rahman: „Deshalb konzentriert ihr euch mehr auf die Anwendungsfälle.“

Travis Lanier: „Ich denke, am Ende zeigt sich, wie gut Ihre KI im Moment ist, wenn Sie Anwendungsfälle zeigen.“ Es kommt auf die Software an, ich denke, sie wird in ein paar Jahren noch etwas ausgereifter sein. Aber im Moment gibt es einfach so viel Software-Arbeit, die erledigt werden muss, und dann ändert sich etwas wie: „Okay, nun, dieses Netzwerk ist heiß und dann.“ Zum Beispiel im nächsten Jahr: „Oh nein, wir haben ein neues Netzwerk gefunden, das in all diesen Dingen effizienter ist.“ Dann müssen Sie es also noch einmal machen Software. Es ist ziemlich verrückt.

Mario Serrafero: „Apropos NN, Sie haben mir den Übergang sozusagen erleichtert, das Übergangsdenken ist für mich weniger umständlich.“ Weiter geht es mit dem Sechseck. Dies ist eine der Komponenten, die, würde ich sagen, von den Verbrauchern, selbst den meisten Enthusiasten und ganz sicher meinen Kollegen, am wenigsten verstanden wird. Wissen Sie, vor allem angesichts der Tatsache, dass es nicht als KI-Block eingeführt wurde und so etwas wie die gesamte Idee der digitalen Signalverarbeitung ist, wissen Sie, wenn man etwas einführt Diese ursprüngliche Idee bleibt irgendwie hängen. Wenn man also etwas tut, okay, es ist eine neuronale Sache mit der neuronalen, neuronalen, neuronalen Gehirnintelligenz, dann bleibt es irgendwie hängen Menschen. Sie verfügen über die neuronalen, neuronalen, neuronalen Bezeichnungen für KI-Maschinenlernen für andere Lösungen. Deshalb möchten wir Ihnen vielleicht die Gelegenheit geben, die Entwicklung des Hexagon DSP zu erklären und zu erklären, warum Sie davon nicht abgerückt sind Art von technisch klingenden Namen wie Hexagon DSP, Vektorerweiterungen usw., die nicht als Marketing gelten freundlich. Aber ja, vielleicht möchten wir Ihnen einen kurzen Überblick darüber geben, wie es für Sie an der Spitze der DSP war, den Übergang von den Anfängen des Imaging-Workloads zum brandneuen Tensorbeschleuniger zu erleben.“

Travis Lanier: „Das ist tatsächlich ein interessanter Punkt, denn einige unserer Konkurrenten haben tatsächlich etwas, das sie eine neuronale Engine oder einen neuronalen Beschleuniger nennen – es ist eigentlich ein DSP, es ist dasselbe.“ Ich denke, der Name ist wichtig, aber Sie haben einen wichtigen Punkt angesprochen, und ganz ehrlich, als wir das herausbrachten, war es für die Bildbearbeitung gedacht, wir haben zufällig 8 Bit unterstützt. Und ich erinnere mich, dass wir bei Hot Chips einen Vortrag hielten und Pete Warden von Google uns aufspürte und meinte: „Hey, ihr... ihr unterstützt also 8 Bit, oder?“ Ja, das tun wir. Und von da an gingen wir sofort raus und sagten: „Hey, wir haben alle [diese] Projekte am Laufen.“ Damals haben wir TensorFlow auf Hexagon portiert, denn es ist so, als hätten wir da draußen diesen 8-Bit-unterstützten Vektorprozessor, der das kann, und zwar auf unserem Hexagon DSP. Wenn ich noch einmal von vorne anfangen müsste, würde ich es wahrscheinlich „Hexagon Neural Signal Processor“ nennen. Und wir haben immer noch den anderen DSP, wir haben Skalar-DSPs und das ist ein DSP im wahrsten Sinne des Wortes. Und dann nennen wir diese Art von Vektor-DSP. Vielleicht sollten wir es umbenennen, vielleicht sollten wir es einen neuronalen Signalprozessor nennen, weil wir uns selbst wahrscheinlich nicht so viel Anerkennung zollen wie wir Dies sollte der Fall sein, denn wie gesagt, manche Leute haben einfach Vektor-DSPs und nennen es wie auch immer, und sie haben nichts verraten es ist. Habe ich Ihre Frage beantwortet?

Hexagon 690 Übersicht. Quelle: Qualcomm.

Mario Serrafero: „Also, ja, das stimmt, wahrscheinlich das meiste davon.“

Travis Lanier: „Wie war die zweite Frage?“

Mario Serrafero: „Wie Sie diese Entwicklung intern gesehen haben. Wie war es: die Erfahrung, die Schwierigkeiten, die Herausforderungen, was auch immer Sie uns erzählen möchten? Wie haben Sie die Entwicklung von den Anfängen der Bildverarbeitung bis zum Tensorbeschleuniger gesehen?“

Travis Lanier: „Es war ein wenig frustrierend, denn es ist, als würde mich das Gefühl erschrecken, dass einige der Presse ihre Hand heben und sagen: „Qualcomm, was stehst du so dahinter!“ Warum haben Sie nicht – Wann werden Sie zu einem dedizierten neuronalen Signalprozessor werden?“ und ich möchte einfach nur gerne auf meinen Kopf hämmern. Ich dachte, wir wären die ersten gewesen, die einen Vektorprozessor hatten! Aber das heißt, wir überarbeiten dies und es wird wahrscheinlich noch mehr Dinge geben, wenn wir mehr über KI erfahren. Also haben wir dieses andere Ding hinzugefügt und ja, das hier ist – es macht nur KI, es führt keine Bildverarbeitung als Teil des Sechseckkomplexes durch, also bieten Sie … Da wir es immer noch „Hexagon DSP“ nennen, nennen wir den gesamten Komplex „Hexagon-Prozessor“, um zu versuchen, einen einheitlichen Namen für die gesamte Hexagon-Sache zu finden Jetzt. Wir haben Dinge hinzugefügt, die eigentlich direkter rechnerisch sind, ich sollte nicht direkt rechnerisch sagen, das gefällt mir verfügt über diese automatische Verwaltung, wie Sie diese Karte höherer Ordnung erstellen, in der Sie multiplizieren Matrizen.

Mario Serrafero: „Tensoren sind für mich tatsächlich ziemlich schwer zu verstehen. Es ist sowieso so, als würden sie sich auch irgendwie um sich selbst wickeln.“

Travis Lanier: „Ja, ich dachte, ich hätte am College meine Vorlesungen über lineare Algebra besucht. Ich habe das wie ein Mann gemacht: „Ich hoffe, ich muss das nie wieder tun!“ Und sie kamen mit aller Macht zurück. Ich schätze, ich dachte: ‚Oh Mann, Differentialgleichungen und lineare Algebra sind mit aller Macht zurück!‘“

Mario Serrafero: "Ich habe das Gefühl, dass viele meiner Kollegen das nicht verstanden haben. Sie denken immer noch, dass die NPU diesen mysteriösen Aspekt hat, wenn es sich nur um eine Ansammlung von Matrixmultiplikationen, Skalarprodukten, Nichtlinearitätsfunktionen, Faltungen usw. handelt. Und ich persönlich glaube nicht, dass dieser Name der neuronalen Verarbeitungs-Engine hilfreich ist, aber das ist doch die Sache, oder? Wie viel davon wird durch die Namenskonventionen entweder nicht erweitert, verschleiert oder die zugrunde liegende Mathematik irgendwie geschaufelt, und was kann man vielleicht tun? Ich weiß nicht, ob Sie darüber nachgedacht haben. [Was] kann getan werden, um die Menschen darüber zu informieren, wie das funktioniert? Warum ist es nicht so, warum zum Beispiel, warum der DSP das kann, was die anderen neuen neuronalen Verarbeitungs-Engines können? Ich meine, es ist nur Mathematik, aber es scheint, dass Benutzer, Leser und einige Journalisten das nicht verstehen. Was kann – ich sage nicht, dass es in der Verantwortung von Qualcomm liegt –, aber was könnte Ihrer Meinung nach anders gemacht werden? Es liegt wahrscheinlich in meiner Verantwortung.

Travis Lanier: „Ehrlich gesagt, ich fange an, mich zu ergeben. Vielleicht müssen wir die Dinge einfach „neuronal“ nennen. Wir haben gerade darüber gesprochen, wie lineare Algebra und Differentialgleichungen uns den Kopf verdrehten, als wir anfingen, uns damit zu beschäftigen Dinge, und wenn man also anfängt, den Leuten das zu erklären, wie wenn man mit der Regressionsanalyse beginnt, schaut man sich die Gleichungen und so weiter an, die Köpfe der Leute explodieren. Man kann den meisten Leuten grundlegende Programmierkenntnisse beibringen, aber wenn man ihnen erst dann beibringt, wie die Backpropagation-Gleichungen funktionieren, werden sie sich das ansehen und ihre Köpfe werden explodieren. Also ja, lustige Sachen. Sie wollen keine partiellen Ableitungen sehen…“

Mario Serrafero: „Ketten partieller Ableitungen, nicht über Skalare, sondern über Vektoren und einschließlich nichtlinearer Funktionen.“

Travis Lanier: "Viel Glück damit! Ja, es ist also schwierig und ich weiß nicht, ob die meisten Leute das wissen wollen. Aber ich versuche es: Ich füge eine Kleinigkeit ein wie: „Hey, wir machen hier nur Vektormathematik.“ Wir haben einen Vektorprozessor.“ Und ich denke, die Leute schauen sich das an und sagen: „Okay, aber Mann, ich möchte wirklich ein Neuronal Beschleuniger." „Tensor“ ist immer noch mathematisch, aber ich denke, dass die Leute das eher mit KI assoziieren wird bearbeitet."

Mario Serrafero: „Könnte wie eine Überbrückung der Lücke sein, der semantischen Lücke.“

Travis Lanier: „Am Ende, denke ich, kommt es darauf an, dass wir uns wahrscheinlich einfach einen anderen Namen einfallen lassen müssen.“

Alle Grafiken in diesem Artikel stammen aus der Präsentation von Travis Lanier auf dem Snapdragon Tech Summit. Sie können die Präsentationsfolien ansehen Hier.