Arms neue Cortex X4, A720 und A520 sind reine 64-Bit-Kerne mit einem großen Fokus auf Effizienz

Die neuen Kerne von Arm als Teil seiner Total Compute Solution für 2023 wurden angekündigt und sie sind ziemlich interessant.

Quicklinks

Nur 64-Bit: „Mission erfüllt“

Arm Cortex-X4: Noch mehr Leistung und bessere Effizienz

Arm Cortex-A720: Balance zwischen Leistung und Stromverbrauch

Arm Cortex A520: Verdoppelung der Effizienz

DSU-120: Bis zu 14 Rechenkerne

Effizienz ist das neue Ziel

Arm ist das Unternehmen, das so ziemlich alle CPU-Kerne entwickelt, die letztendlich in Ihrem Android-Smartphone verwendet werden, und das jedes Jahr kündigt neue Iterationen an, die später Eingang in Chipsätze wie das diesjährige Flaggschiff Snapdragon oder das nächste Flaggschiff MediaTek finden werden Dimension. In diesem Jahr bringt es einen Flaggschiff-Cortex-X4-Kern, einen Cortex-A720-Leistungskern und einen Cortex-A520-Effizienzkern auf den Markt. Diese Kerne bilden die Grundlage für die neuen Arm v9.2-kompatiblen Designs des Unternehmens und die Total Compute Solution des Unternehmens für 2023, kurz TCS23. Darüber hinaus sehen wir auch eine neue DynamIQ Shared Unit und eine aktualisierte Immortalis-G720-GPU. Noch wichtiger ist der vollständige Übergang zum 64-Bit-Computing, da keiner dieser Kerne 32-Bit unterstützt.

Alle drei neuen Kerne sind mikroarchitektonische Nachfolger der letztjährigen Kerne und konzentrieren sich hauptsächlich auf die Einführung von IPC und Effizienzsteigerungen.

Nur 64-Bit: „Mission erfüllt“

Eine der größten Änderungen in der diesjährigen Total Compute Solution von Arm ist der Übergang zu nur 64-Bit. Während der A510R1 des letzten Jahres den 32-Bit-AArch32-Ausführungsmodus unterstützte, ebenso wie der A710, der letztes Jahr mit TCS22 auf den Markt kam, sind die Kerne von Arm dieses Jahr nur AArch64. Besonders seitdem tickt die Uhr für 32-Bit-Anwendungen auf Android Google selbst hat seit 2019 die Aktualisierung aller Apps vorgeschrieben werden als 64-Bit-Binärdateien hochgeladen.

Wie Arm es ausdrückt, gilt der 64-Bit-Umstieg als „Mission erfüllt“. Der Grund dafür ist, dass der chinesische App-Markt was ist hat den Rest der Branche bei der Umstellung zurückgehalten, aber die überwiegende Mehrheit der Apps in chinesischen App-Stores ist jetzt 64-Bit-kompatibel. zu.

Der Grund für die Verzögerung war das Fehlen eines homogenisierten Anwendungsökosystems, was bedeutete, dass verschiedene App-Stores unterschiedliche Standards von Entwicklern erforderten. Da Arm jedoch mit verschiedenen App-Stores in China zusammengearbeitet hat und wiederholt gewarnt wurde, dass es zu einem Wechsel kommen würde, haben diese App-Stores Entwickler dazu ermutigt, ebenfalls zu wechseln.

Nun scheint es an der Zeit zu sein, dass dieser Übergang vollständig vollzogen wird, und es wird sowieso noch ein paar Monate dauern, bis wir diese Arm-Kerne in neuen Chipsätzen sehen.

Arm Cortex-X4: Noch mehr Leistung und bessere Effizienz

Die Kerne der X-Serie von Arm weichen vor einigen Jahren von der A-Serie ab, mit der Philosophie, dass es sich um einen leistungsstarken Kern handelt, der bei Bedarf etwas mehr Leistung verbrauchen darf. Typischerweise werden Chipsatzhersteller höchstens ein oder zwei davon einbauen, da sie stromhungrig sind, obwohl sie auch über Fähigkeiten verfügen.

Wie Sie der obigen Grafik entnehmen können, ist der Cortex-X4 der bisher leistungsstärkste ARM-Kern, aber diese Rechenfähigkeiten gehen zu Lasten des Stromverbrauchs. Der Cortex-X4 ähnelt dem X3 des letzten Jahres und kann, wie Arm es ausdrückt, sogar mit den gleichen Frequenzen wie der Kern des letzten Jahres betrieben werden und bis zu 40 % weniger Strom verbrauchen. Seine physische Größe ist weniger als 10 % größer und der effizienteste Cortex-X-Kern, der jemals gebaut wurde.

Was den Ursprung dieser IPC-Verbesserungen betrifft, so gibt es beim X4 eine Reihe von Front-End- und Back-End-Verbesserungen. Bei diesen Front-End-Verbesserungen wurde viel Arbeit in das Neuschreiben und Verbessern der Verzweigungsvorhersagen gesteckt, da falsche Verzweigungsvorhersagen kostspielig und leistungsmäßig sind. Arm verspricht außerdem, dass eine L2-Cache-Größe von 2 MB eine höhere Leistung bringt, nicht so sehr in Benchmarks, sondern im realen Einsatz.

Der neue Cortex-X4-Kern erhöht die Anzahl der Arithmetic Logic Units (ALUs) von 6 auf 8 und fügt einen zusätzlichen Zweig hinzu Einheit (insgesamt 3), fügt eine zusätzliche Multiply-Accumulator-Einheit sowie Fließkomma- und Quadratwurzel-Pipelines hinzu Operationen.

Auch im Backend gibt es einige Verbesserungen. Die Generierung der Load-Store-Adresse wurde von drei auf vier Befehle pro Zyklus erhöht, da die Load-Store-Pipe übernommen und aufgeteilt wurde. Außerdem gibt es in L1 einen doppelten Übersetzungs-Lookaside-Puffer sowie Verbesserungen bei Bankkonflikten.

All dies führt zu einer beeindruckenden Leistungssteigerung des Cortex-X4 von Arm. Alles in allem können Sie mit dem Cortex-X4 im Durchschnitt eine Leistungssteigerung von 15 % erwarten. In der von Arm geteilten Leistungs- und Leistungskurve liegt der X4 sowohl bei der Leistung als auch beim Stromverbrauch vor dem X3. Mit anderen Worten: Diese 15-prozentige Leistungssteigerung geht mit einem ziemlich erheblichen Stromverbrauch einher. Erwähnenswert ist jedoch auch, dass es sich nicht wirklich um einen direkten Vergleich handelt; Der Cortex-X3 wurde letztes Jahr mit 1 MB L2-Cache ausgeliefert, was bedeutet, dass es nicht unbedingt zu einer Leistungssteigerung von 15 % kommen muss, wenn ein Hersteller in diesem Jahr an der gleichen L2-Cache-Größe festhält.

Eines ist jedoch sicher: Wenn Sie den X4 mit Höchstgeschwindigkeit fahren, wird er wahrscheinlich ein großer Stromfresser sein. Möglicherweise werden einige OEMs in diesem Jahr das tun, was sie letztes Jahr getan haben, und viele der diesjährigen Chipsätze sofort drosseln. OnePlus und Oppo tun dies beispielsweise beide, und bei gleichzeitigem Betrieb steigt die Energieeffizienz Leistungspunkte wie der X3, es ist wahrscheinlich, dass es für diese Unternehmen Vorteile gibt, die sie auch weiterhin nutzen können Also. Möglicherweise sehen wir diese 15-prozentige Leistungssteigerung nicht auf breiter Front, aber stattdessen könnten wir bei den Chipsätzen des nächsten Jahres weitere Effizienzverbesserungen sehen.

Arm Cortex-A720: Balance zwischen Leistung und Stromverbrauch

Während die Kerne der X-Serie von Arm normalerweise etwas wild laufen, zielen die Kerne der A-Serie normalerweise darauf ab, den Stromverbrauch mit der Leistung in Einklang zu bringen. Mit dem Cortex-A720 verspricht Arm einen um 20 % effizienteren Kern mit gesteigerter Leistung bei gleicher Leistung wie beim A715 aus dem letzten Jahr.

Was die diesjährigen A720-Verbesserungen betrifft, so sind die meisten davon im Frontend zu finden. Die Pipelines wurden verkürzt, indem ein Zyklus aus der Branch-Mispredict-Engine entfernt wurde, wobei dieser Rückgang um einen Zyklus für einen Anstieg der Benchmarks um 1 % verantwortlich sein soll. Benchmarks führen in der Regel zu den wenigsten Fehlprognosen für Zweige, was bedeutet, dass dadurch die Gesamtleistung in der realen Welt wahrscheinlich um einen signifikanteren (aber größtenteils nicht messbaren) Betrag verbessert wird.

Im Out-of-Order-Kern sehen wir eine Reihe struktureller Verbesserungen, die dazu beitragen, die Leistung zu verbessern, ohne die vom Kern eingenommene Fläche oder seine Effizienz zu beeinträchtigen. Zunächst einmal werden Gleitkommadivisionen und Quadratwurzeloperationen jetzt, genau wie im X4, über eine Pipeline ausgeführt. Es gibt auch schnellere Übertragungen von Gleitkomma-, NEON- und SVE2-Zahlen zu Ganzzahlen und andere allgemeine Verbesserungen, um die Verarbeitung zu beschleunigen.

Arm hat die obige Grafik geteilt, um zu veranschaulichen, wie sich der A720 in Bezug auf Leistung und Effizienz mit dem A715 des Vorjahres vergleichen lässt, wobei in SPECint_base2006 ein ISO-Prozess und eine ISO-Frequenz verwendet werden. Auch die Cache-Größen bleiben gleich, es handelt sich also eher um einen direkten Vergleich.

Hinsichtlich des Stromverbrauchs liegt das A720 weitgehend auf dem Niveau des Vorjahresmodells, obwohl es bei gleicher Leistung etwas mehr Leistung herausholt. Beim A720 scheint sich Arm wie beim X4 mehr darauf zu konzentrieren, hervorzuheben, wie es besser wird Leistung aus den Leistungsbeschränkungen des letzten Jahres herauszuholen, anstatt die Leistung dieser Kerne kontinuierlich zu erhöhen fähig dazu.

Arm Cortex A520: Verdoppelung der Effizienz

Wenn es um die Kerne von Arm geht, kommt es natürlich nicht nur auf die Leistung an. Während bei der X-Serie alles auf pure Rechenleistung setzt und beim A7xx Rechenbedarf und Stromverbrauch ausgeglichen werden, konzentriert sich die A5xx-Serie ausschließlich auf effiziente Verarbeitung. Es ist der ARM-v9.2-Kern mit der geringsten Leistung pro Fläche und basiert auf der gleichen Merged-Core-Architektur, die wir mit dem A510 eingeführt haben.

Was diese zusammengeführte Kernarchitektur bedeutet, ist, dass einige Ressourcen zwischen zwei Kernen geteilt werden können, wo zwei Kerne sein können zu einem „Komplex“ zusammengefasst. Der L2-Cache, der L2-Übersetzungs-Lookaside-Puffer und die Vektordatenpfade werden darin gemeinsam genutzt Komplex. Um es klarzustellen: Das ist nicht so gemeint hat kann in zwei Kerne gebündelt werden, und für Spitzenleistung kann ein Ein-Kern-Komplex zusammengestellt werden. Tatsächlich umfasste eines der uns gezeigten TCS2023-Kernlayouts von Arm einen einzelnen X4-Kern, fünf A720-Kerne und drei A520-Kerne, was bedeutet, dass mindestens ein A520-Kern isoliert ist.

Beim A520 steht die Effizienz an erster Stelle, und wie bei den anderen Kernen konzentrierte sich Arm hauptsächlich auf die Verbesserung dieser Effizienz bei denselben Leistungspunkten wie bei der letzten Generation. Dazu gehört die Verbesserung der Verzweigungsvorhersagen sowie die Entfernung oder Reduzierung einiger Leistungsmerkmale. Diese Leistung konnte durch eine höhere Effizienz wiederhergestellt werden. Interessanterweise hat Arm auch die dritte ALU entfernt, die im A510 vorhanden war, und so Strom bei der Ausgabe von Logik und der Weiterleitung von Ergebnissen gespart.

Die realen Ergebnisse zeigen, dass der A520 im Vergleich zu seinen Vorgängern keinen so großen Sprung macht wie der A720 und der X4. Viele seiner Fähigkeiten bei niedrigeren Leistungsintervallen überschneiden sich mit denen des A510 aus der obigen Grafik, und nur in den oberen Leistungsstufen sehen wir Effizienzsteigerungen. Der Unterschied in Leistung und Leistung zwischen den beiden Kernen ist vielversprechend, aber es ist unklar, ob wir beim Vergleich des A520 mit dem A510 tatsächlich Vorteile sehen werden. Schließlich ist es schwierig, die Leistungs- und Effizienzunterschiede zwischen den beiden in der realen Welt tatsächlich richtig zu messen.

DSU-120: Bis zu 14 Rechenkerne

Die DynamIQ Shared Unit (DSU) integriert einen oder mehrere Kerne mit einem L3-Speichersystem, Steuerlogik und externen Schnittstellen, um einen Multicore-Cluster zu bilden. Es ist im Wesentlichen Arms Struktur, die es all diesen Kernen ermöglicht, miteinander zu kommunizieren und Ressourcen gemeinsam zu nutzen Daher ist es ein ziemlich wichtiges Puzzleteil für jeden Chipsatzhersteller, der einen Chip mit den Kerndesigns von Arm bauen möchte.

Aufbauend auf DSU-110 hat Arm eine Reihe von Verbesserungen am DSU-120 vorgenommen, die dem gesamten Chip zugute kommen, auf dem es enthalten ist. Zunächst einmal gibt es jetzt bis zu 14 Kerne pro Cluster (vorher 12) und Unterstützung für bis zu 32 MB L3-Cache. Darüber hinaus wird die Effizienz in einer Reihe wichtiger Bereiche erheblich verbessert, unter anderem im Falle von Cache-Fehlern, und gleichzeitig werden Stromverluste reduziert.

In gewisser Weise ist Arms DSU das Rückgrat von TCS23, da es die Grundlage dafür bildet, wie jeder dieser Kerne miteinander interagiert und Daten teilt. Alle hier vorgenommenen Verbesserungen kommen dem gesamten Cluster zugute, die meisten Änderungen scheinen jedoch mit dem Stromverbrauch und der Effizienz zusammenzuhängen.

Effizienz ist das neue Ziel

Die Branche scheint sich schon seit einiger Zeit zu verändern, aber der wichtigste erste Eindruck, den ich von diesen Kernen bekomme, ist, dass Effizienz jetzt das A und O ist. Während uns gesagt wurde, wie viel schneller der X4-Kern ist und dass es sich um den schnellsten Kern des Unternehmens aller Zeiten handelt, Sie bemerkten sehr schnell die Effizienzverbesserungen, die durch den Betrieb mit der Spitzenleistung des letzten Jahres erzielt wurden stattdessen.

Im Großen und Ganzen wurde jede Leistungssteigerung dadurch untermauert, wie viel effizienter diese Komponente auch war, und mehr oder weniger betrafen alle Änderungen des DSU die Effizienz und den Leistungsverlust. Leistung ist wichtig, aber es fühlt sich wirklich so an, als ob die gesamte Branche versucht, auf den neuesten Stand zu kommen Rechenebenen effizienter zu gestalten, anstatt von Jahr zu Jahr massive Leistungssteigerungen anzustreben.

Wir gehen davon aus, dass diese Kerne die Basis des MediaTek Dimensity 9400 und des Qualcomm Snapdragon 8 Gen 3 bilden werden, aber in welcher Formierung bleibt abzuwarten. Wie bereits erwähnt, sprach Arm in seinen eigenen internen Tests über die Verwendung eines 1+5+3-Kern-Layouts, aber das bedeutet nicht, dass Partner wie MediaTek und Qualcomm dies selbst tun möchten.