ARM hat die Cortex-A78-CPU-Architektur sowie die Mali-G78-GPU angekündigt. Die beiden sind die Nachfolger der Cortex-A77-CPU und der Mali-G77-GPU.
Im Rahmen seines TechDay 2020 hat ARM drei wichtige Ankündigungen gemacht. Die wichtigste Ankündigung ist das Cortex-X Custom-Programm (CXC), das das Neue enthält Cortex-X1-CPU-Kern. Der Cortex-X1 bietet eine höhere Spitzenleistung als jede Cortex-A-Serie-CPU und sprengt gleichzeitig die Grenzen des PPA der Cortex-A-Serie. Die anderen beiden Ankündigungen von ARM waren deutlich routinemäßiger. Die Cortex-A78-CPU und die Mali-G78-CPU sind nun offiziell und fungieren als Nachfolger des Cortex-A77 CPU und die Mali-G77 CPU bzw. Lassen Sie uns diese Ankündigungen einzeln behandeln:
ARM Cortex-A78
Beim Cortex-A78 lag der Schwerpunkt von ARM auf Effizienzanforderungen, wie z. B. Forderungen nach längerer Akkulaufzeit, neuen mobilen Formfaktoren und schrumpfenden SoC-Bereichen. Nachhaltige Leistung ist hier das Stichwort für den Cortex-A78, während der Cortex-X1 mit dem Ziel, kurzfristig maximale Spitzenleistungen zu erzielen, nach den Sternen schießt.
Laut ARM repräsentiert der Cortex-78 das „Allerbeste“ seines Strebens nach High-End-Leistung bei erstklassiger Effizienz. Auch das sind keine leeren Worte. In den letzten Jahren haben der Cortex-A76 und der Cortex-A77 die beste Energieeffizienz ihrer Klasse und die beste PPA (Leistung, Leistung und Fläche) ihrer Klasse gezeigt. Sie verfügten nicht über das Design, das erforderlich war, um mit den Chips der A-Serie von Apple zu konkurrieren, sondern waren niedriger Strom erzeugt, ihre Energieeffizienz war im schlimmsten Fall die gleiche wie bei Apple und im besten Fall sogar höher Apfel.
Die Leistungsverbesserungen des A78 decken die Anwendungsfälle Produktivität, Kommunikation, Sicherheit und kamerabasierte Aufgaben, fortgeschrittenes Gaming, XR und ML-basierte Erlebnisse ab.
Bei der Dauerleistung bringt der Cortex-A78 zweistellige Verbesserungen. Es bietet eine um 20 % verbesserte Dauerleistung im Vergleich zu seinem Vorgänger, dem Cortex-A77, bei gleicher mobiler Wärmeleistung. AnandTech ging die Zahlen durch und erklärte, dass die 20 %-Zahl eine Kombination aus 7 % höherem IPC gegenüber der A77 ist, während die Die restlichen 13 % Leistungssteigerungen sind dem 5-nm-Prozess zuzuschreiben, auf dem alle SoCs der nächsten Generation basieren werden hergestellt. ARM weist auf die Bedeutung einer dauerhaften Leistung hin und weist darauf hin, dass mobile Geräte nur über eine begrenzte Kapazität verfügen verbrauchen Energie, und die anhaltende Leistung vermeidet eine Leistungsdrosselung bei Anwendungen, die viel erfordern Leistung. Dies wiederum verbessert die UX, indem Verzögerungen oder Frame-Drops vermieden werden.
Der Vorstoß zur Energieeffizienz führt zu einer höheren Energieeffizienz, da die beiden zwar verwandt, aber unterschiedliche Konzepte sind. Laut ARM bietet der Cortex-A78 an Hochleistungspunkten, wie sie bei aktuellen Mobilgeräten den Höhepunkt erreichen, eine Energieeinsparung von 50 % gegenüber 2019-Geräten bei gleicher Leistung wie der Cortex-A77. Das ist beeindruckend und macht den A78 zur energieeffizientesten Cortex-A-CPU, die ARM jemals entwickelt hat.
Der Fokus von ARM auf nachhaltige Leistung wird der nächsten Welle mobiler Innovationen wie neuen Formfaktoren (faltbare Telefone) sowie einer verbesserten „digitalen Immersion“ durch 5G zugute kommen. Der Realitätscheck zeigt, dass dies für die aktuelle Generation nicht der Fall ist und auch in der nächsten Generation keine große Rolle spielen wird.
Ein Anwendungsfall, der durch den Cortex-A78 verbessert wird, ist mobiles AAA-Gaming in Kombination mit der neuen Mali-G78-GPU von ARM. Die Kombination der beiden zielt darauf ab, High-Fidelity-Gaming-Erlebnisse auf Mobilgeräten zu ermöglichen. Ihre höhere Leistung ermöglicht in Verbindung mit der hohen Geschwindigkeit und hohen Bandbreite von 5G Premium-Gaming auf Mobilgeräten. Die Effizienz des A78 ist hier von Vorteil, da sie eine längere Akkulaufzeit für längeres Gaming bietet. ARM sagt, dass es auch mit dem Ökosystem zusammenarbeitet, um die Leistung weiter zu verbessern und reichhaltigere Spielerlebnisse zu schaffen, und gibt ein Beispiel für die Zusammenarbeit mit Unity, um Burst Compiler auf Android zu bringen.
Die Leistung des maschinellen Lernens (ML) ist eine weitere Priorität für ARM. Die CPU ist der Prozessor erster Wahl für ML-Computing auf Mobilgeräten, obwohl High-End-SoCs heutzutage mit separaten neuronalen Verarbeitungseinheiten (NPUs) ausgestattet sind. Die CPUs von ARM unterstützen die beliebtesten realen ML-Anwendungen und Anwendungsfälle auf Smartphones, wie z. B. Social-Media-Filter, Diktieren, Sicherheit und Schutz. Der Cortex-A78 verbraucht im Vergleich zum A77 durchschnittlich 8 % weniger Strom für ML-basierte Aufgaben, was zu einer offiziellen Effizienzverbesserung von 10 % führt.
ARM Cortex-A78 – Architektur
Der ARM Cortex-A78 hat die gleiche Architektur wie die vorherige Generation (es ist immer noch ein ARM v8.2-Kern). ARM hat jedoch mikroarchitektonische Funktionen hinzugefügt, die darauf abzielen, die Leistung auf flächen- und energieeffiziente Weise zu steigern. ARM spart Platz und Strom und behält gleichzeitig das erforderliche Leistungsniveau bei. Auch hier liegt der Fokus von ARM bei der Cortex-A-Serie weiterhin auf Flächen- und Energieeffizienz und nicht auf Spitzenleistung, eine Aufgabe, die nun vom Cortex-X-Programm übernommen wird.
Die Leistungsverbesserungen des Cortex-A78 werden durch zusätzliche Mikroarchitekturfunktionen ermöglicht, die Breite und Tiefe optimieren. Die Befehlsdekodierungsbreite bleibt bei 4-breit, genau wie beim A77 und A76. (Die Dekodierungsbreite des Cortex-X1 beträgt dagegen 5-fach, während der A13 eine 7-fach-Dekodierbreite hat.) ARM hat eine bessere Verzweigungsvorhersage für Bandbreite und Genauigkeit sowie Fälle der Befehlsfusion hinzugefügt. Diese Architekturverbesserungen ermöglichen eine Steigerung der Single-Thread-Leistung um 7 % gegenüber dem A77.
Die Effizienz wurde durch die Reduzierung von Strukturen mit geringer Leistung und geringer Fläche maximiert, beispielsweise auf den L1-I- und L1-D-Caches. ARM hat bestehende Strukturen optimiert, um weniger Strom zu verbrauchen, beispielsweise die Markenvorhersagestrukturen. Laut ARM führt dies im Vergleich zum A77 zu 4 % weniger Leistung pro mW und 5 % weniger Fläche pro mm2.
Beim A78 liegt der Fokus auf nachhaltiger Leistung bei erstklassiger Effizienz auf Cluster-Ebene. Ein DynamIQ-Cluster aus 4x Cortex-A77- und 4x Cortex-A55-CPUs kann auf 4x A78-Kerne und 4x A55-Kerne aufgerüstet werden. Dies sorgt für 20 % nachhaltige Leistungsverbesserungen auf 15 % weniger Fläche. Anwendungen, die mehrere Hochleistungs-Threads parallel benötigen, wie etwa High-Fidelity-Gaming, profitieren von der anhaltenden Leistungssteigerung.
ARM weist darauf hin, dass die verbesserte Flächeneffizienz des A78 DynamIQ-Clusters ihn ideal für faltbare Telefone und mehrere und größere Displays macht. Ein weiterer Schwerpunkt liegt darauf, Smartphones durch Leistungs- und Energieverbesserungen 5G-fähig zu machen. 5G bietet angeblich „weitaus höhere Geschwindigkeiten“, „weitaus geringere Latenz“ und „weitaus schnellere und allgegenwärtigere Konnektivität für mobile Geräte für Anwendungen mit hoher Bandbreite“. Dies mag in ein paar Jahren noch der Fall sein, doch derzeit sind die meisten dieser Vorteile für den Endverbraucher nicht spürbar.
Insgesamt ist der Cortex-A78 ein solides Produkt. Die Flaggschiff-SoCs der nächsten Generation werden mehrere A78-Kerne enthalten, um den einzelnen Cortex-X1-Kern zu ergänzen hat höhere Leistungs- und Flächenanforderungen, und einige wertorientierte SoCs werden sich sogar dafür entscheiden, auf den Cortex-X1 zu verzichten vollständig. Für den Mittelklasse-SoC-Markt wird der A78 der CPU-Kern der Wahl für SoCs 2021 sein, und sein Fokus auf nachhaltige Leistung ist zu begrüßen.
ARM Mali-G78
Die Mali-GPU-Serie von ARM war, gelinde gesagt, bei weitem nicht so erfolgreich wie die Cortex-CPU-Serie. Die Mali-GPUs wurden Jahr für Jahr sowohl in puncto Leistung als auch Energieeffizienz durchweg von den benutzerdefinierten GPUs von Apple und den benutzerdefinierten Adreno-GPUs von Qualcomm übertroffen. Die Einführung der neuen Valhall-Architektur und der Mali-G77-GPU im letzten Jahr hat daran leider nichts geändert. Zu den SoCs mit dem Mali-G77 gehörte das Exynos 990 und das MediaTek Dimensity 1000L jeweils. Leider schienen beide über schwache Implementierungen zu verfügen, was bedeutete, dass ihre GPU-Leistung dies konnte nicht mit der Adreno 650-GPU von Qualcomm konkurrieren, ganz zu schweigen von den klassenführenden GPUs von Apple im Apple A12 und A13. Mali hinkt seit Jahren hinterher und seine Verbesserungen reichten nicht aus, um den Status quo im Bereich der mobilen GPUs zu ändern.
Dennoch ist ARM durchaus optimistisch. Es stellt fest, dass seine Partner jährlich über eine Milliarde Mali-GPUs ausgeliefert haben, was Mali zur Nummer eins der ausgelieferten GPUs weltweit macht. Diese Zahl wird vermutlich nur zunehmen, da viele verschiedene Gerätetypen grafikintensive Anwendungsfälle wie fortgeschrittenes mobiles Gaming und XR (VR und AR) ermöglichen. Laut ARM ist Mali damit die am häufigsten verwendete GPU für die mobile Entwicklung im gesamten Ökosystem.
ARM weist darauf hin, dass es 2019 seine erste GPU auf Basis der Valhall-Architektur angekündigt hat – die Mali-G77. Im Jahr 2020 wird der G77 vom Mali-G78 abgelöst, der ebenfalls auf der Valhall-Architektur basiert. Während ARM sagt, dass es sich um die bisher leistungsstärkste GPU für Premium-Mobilgeräte handelt, stützen die Zahlen dies nicht, obwohl ARM ironischerweise sagt, dass dies eine durch die Zahlen untermauerte Tatsache sei. Das G78 bietet eine Leistungssteigerung von 25 % gegenüber dem G77, was, gelinde gesagt, dürftig ist. Der Unterschied in der GPU-Spitzenleistung zwischen dem G77 und der GPU des Apple A13 war erheblich, was bedeutet, dass das G78 nicht in der Lage sein wird, mit dem A13 mitzuhalten, ganz zu schweigen von der GPU des kommenden Apple A14. Qualcomm wird auch aufgrund seiner eigenen inkrementellen Leistungsverbesserungen weiterhin einen Schritt voraus sein.
Bahnbrechende Grafiken und ganztägiges Gaming auf Mobilgeräten sind bereits auf anderen GPUs möglich, daher klingt das Marketing von ARM hier etwas hohl.
Laut ARM wurde die Mali-G78 mit Blick auf Entwickler und Endbenutzer entwickelt. Es ermöglicht hochwertige mobile Spielerlebnisse mit Konsolenspielen, die jetzt auf Mobilgeräten verfügbar sind. Das G78 bietet Premium-Mobilgeräten eine längere Akkulaufzeit. Es bringt auch eine weitere ML-Leistungssteigerung für komplexere Gaming-, Video-, Kamera- und Sicherheits-ML-Funktionen auf Mobilgeräten.
ARM ist optimistisch, was die Aussichten für mobiles Gaming angeht. Mobile Gaming machte im Jahr 2019 mehr als 46 % des weltweiten Spielemarktes aus und erzielte einen Umsatz von 68,2 Milliarden US-Dollar. Es wird auch in den nächsten Jahren weiter wachsen, da es sowohl PC- als auch Konsolenspiele übertreffen wird. Immer mehr Premium-Gaming-Titel kommen auf Mobilgeräte und Benutzer erwarten auf Mobilgeräten ein ähnliches Erlebnis wie auf Konsolen.
Um diese Erlebnisse zu ermöglichen, bringt die Mali-G78 den nötigen Leistungsschub mit. Im Vergleich zum G77 bietet es eine um 15 % verbesserte Leistungsdichte für Gaming-Inhalte. Bei gleicher Fläche wie die Vorgängergeneration bietet der G78 mehr Leistung. Dieser Boost wird durch vier Schlüsselfunktionen ermöglicht:
- Unterstützung für bis zu 24 Kerne
- Asynchrone oberste Ebene
- Verbesserungen beim Fliesenleger
- Verbesserte Fragmentabhängigkeitsverfolgung
Während die maximale Kernzahl des G77 bei 16 lag, hat ARM die maximale Kernzahl des G78 auf maximal 24 Kerne erhöht. Nur weil es ein Maximum gibt, bedeutet das natürlich nicht, dass die Anbieter mobiler Chips tatsächlich 24 Kerne einbauen werden. Die breiteste Kernvariante des G77, die wir bisher gesehen haben, ist der Mali-G77MP11 auf dem Exynos 990, während der Dimensity 1000 über einen Mali-G77MC9 verfügt.
ARM glaubt, dass Asynchronous Top Level eine bahnbrechende Funktion für die GPU-Leistung ist. Dadurch soll möglichst viel Leistung aus mobilen Spielen herausgeholt und eine maximale Leistung gewährleistet werden.
Tiler-Verbesserungen hingegen verleihen mobilen Spielen eine zusätzliche Qualitätsebene. Von PC und Konsole übertragene Spiele verfügen oft über extrem komplizierte Assets und anspruchsvolle Szenen, die zu Leistungsproblemen und Engpässen führen. Kachelverbesserungen reduzieren die Scheitelpunktlast der GPU für diese komplexen Szenen und Assets. Dies verbessert die Leistung bei komplizierten konsolenähnlichen Spielinhalten.
ARM hat auch die Fragmentabhängigkeitsverfolgung auf dem G78 verbessert. Dies betrifft insbesondere mobile Spiele mit komplexen Spielszenen mit Rauch, Bäumen und Gras. Das Ergebnis ist, dass ARM im Vergleich zum G77 bis zu 17 % Leistungssteigerungen bei Top-Handyspielen verzeichnete.
Der Mali-G78 hat eine um 10 % bessere Energieeffizienz als sein Vorgänger. Auch das wird nicht ausreichen, um weder mit Qualcomm noch mit Apple mitzuhalten. Die Ziele von ARM scheinen hier besonders konservativ zu sein. Die Asynchronous Top Level-Funktion spielt eine wichtige Rolle bei der Energieeffizienz, da sie eine Reduzierung des Stromverbrauchs ermöglicht und so eine nachhaltige Generierung von Inhalten ermöglicht. Wenn ein Gerät Inhalte mit der gewünschten Bildrate ausgibt, kann es daher heruntertakten, um Energie zu sparen. Das Erhöhen des Top-Levels für diese Aufgabe verbraucht etwas mehr Energie, aber die Energieeinsparungen durch die Reduzierung der Frequenz der Shader-Kerne sind weitaus höher. Das liegt daran, dass die Shader-Kerne 90–95 % des Energiebudgets der GPU verbrauchen.
Eine bessere Energieeffizienz wird beim G78 auch durch Fused Multiply-Add (FMA) erreicht. Es wurde von Grund auf neu gestaltet, was zu einer 30-prozentigen Energieeinsparung des Geräts führte. Die FMA-Einheit ist für die meisten Berechnungen verantwortlich, die innerhalb einer GPU stattfinden, und deshalb war es für ARM sinnvoll, sie für Energieeinsparungen einzusetzen.
Die Fähigkeit einer GPU zur parallelen Datenverarbeitung macht sie für die Ausführung von ML-Workloads geeignet, obwohl ARM anerkennt, dass CPU und GPU weiterhin die primären Prozessoren für ML sind. Da Anwendungsfälle komplexer werden, werden einige Arbeitslasten auf die GPU verlagert. Die wichtigsten ML-Anwendungsfälle für die GPU hängen mit Sicherheitsfunktionen auf dem Gerät, verschiedenen Kamera- und Videomodi sowie Anwendungen mit AR-Funktionen zusammen.
Die Rolle von ML auf der GPU ermöglicht Erlebnisse wie Gesichtsverfolgung innerhalb des Foto- oder Videorahmens, Spiele, die AR-Funktionen nutzen, und mehr. Für diese ML-basierten Aufgaben bietet der Mali-G78 im Vergleich zum G77 eine durchschnittliche Leistungsverbesserung von 15 % für verschiedene ML-Workloads. Der G77 brachte eine 60-prozentige Verbesserung der ML-Leistung im Vergleich zu früheren Generationen, sodass die Verbesserung im Vergleich zum Vorjahr in diesem Jahr viel geringer ausfällt. Asynchronous Top Level ist für die Steigerung der ML-Leistung von entscheidender Bedeutung, da die Taktung der Shader-Kerne bei den verschiedenen ML-Anwendungsfällen auf der GPU hilft.
Dann gibt es die Ankündigung des Mali-G68. Dies ist nichts anderes als eine schmalere Variante des Mali-G78, genauso wie der Mali-G57 eine schmalere Variante des Mali-G77 war. ARM sagt, dass dies die erste Sub-Premium-Mali-GPU für 2021-Geräte ist. Es verfügt über alle Funktionen des G78, wie z. B. Tiler-Verbesserungen und die neue FMA-Einheit in der Ausführungs-Engine, unterstützt aber bis zu 6 statt 24 Kerne. Das Ziel dieser GPU ist eine nahezu erstklassige Leistung zu geringeren Kosten.
ARM hat diese Sub-Premium-GPU-Stufe entwickelt, nachdem es sich das Feedback von Partnern angehört hatte, die sich Premium-Funktionen für ihr Geräteportfolio wünschten. Das G68 verfügt erwartungsgemäß über eine geringere Siliziumfläche und bietet Hochleistungs-Gaming einem breiteren Publikum von Entwicklern und Verbrauchern.
Abschließend erwähnt ARM seine Entwicklerpartnerschaften. Es macht es Entwicklern leicht, ihre Inhalte zu optimieren, damit sie (theoretisch) besser auf Mali-GPUs laufen. Ein Beispiel ist der Performance Advisor. Zweitens arbeitet ARM mit Unity zusammen, um den Burst Compiler auf den Markt zu bringen. Details hierzu können im Quellartikel nachgelesen werden.
Mali-G78 – Ausblick
Die Aussichten für Mali-G78 sind düster. Es scheint, als sei ARM einfach nicht daran interessiert, im Vergleich zum Vorjahr wesentliche Leistungsverbesserungen in der gleichen Form zu erzielen, die Apple herstellt, in der gleichen Form, die Qualcomm in der Vergangenheit hergestellt hat. Auch wenn sich die Verbesserungsrate von Qualcomm ebenfalls verlangsamt hat, liegt die Basislinie auf einem höheren Niveau als die von ARM. Es sieht schlecht für das Android-Ökosystem aus, wenn Rezensenten mit numerischen Belegen behaupten, dass die Dauerleistung der GPU des A13 höher ist als die Spitzenleistung des Snapdragon 865. Das Leistungsdelta zwischen Apple- und Android-GPUs wächst und wird immer größer.
Das G78 ist daher keine magische Lösung, um die Mali-GPU-Probleme von ARM zu lösen und sie an die Spitze der Leistungstabellen zu bringen. Es wird weiterhin unter den GPUs von Apple und Qualcomm eingestuft. Für einige SoCs ist dies die Standardauswahl Nur weil es sich um die Standard-GPU-IP von ARM handelt und kundenspezifische Lösungen Eintrittsbarrieren aufweisen und mehr kosten Also.
Ob Samsung Systems LSI nächstes Jahr tatsächlich auf den Mali-G78 setzt, ist fraglich. Samsung war ein hochkarätiger Kunde von Mali-GPUs, aber letztes Jahr Es unterzeichnete eine Partnerschaft mit AMD, um die RDNA-GPU-Architektur einzuführen auf seine mobilen SoCs im Jahr 2021. Wenn diese Roadmap auf dem richtigen Weg bleibt – und zum jetzigen Zeitpunkt haben wir keinen Grund zu der Annahme, dass sie nicht auf dem richtigen Weg ist –, wird der Nachfolger des Exynos 990 über eine AMD-RDNA-GPU anstelle einer Mali-GPU verfügen. Es wird in der Tat einen großen Designverlust für ARM bedeuten. Sogar andere Anbieter wie MediaTek haben heutzutage mehr Optionen. Neues von Imagination Technologies GPU-Architektur der A-Serie hat das Designziel, eine höhere Leistung als das G78 zu erzielen, und es ist möglich, dass MediaTek in Zukunft von Mali abweicht. Qualcomm hat natürlich keinen Grund, seine Adreno-GPU-Bemühungen aufzugeben, die noch bestehen Klassenbester in Bezug auf Leistung und Effizienz, wenn es ausschließlich um Android geht Smartphone-Markt.
Daher ist es klar, dass ARM die Rate der jährlichen Verbesserungen bei Mali-GPUs erhöhen muss, um einen echten Unterschied auf dem Markt für mobile GPUs zu bewirken. Wenn dies nicht möglich ist, besteht die Gefahr, dass es im Bereich der mobilen GPUs der Premium-Flaggschiffe in den Hintergrund gedrängt wird.
ARM Ethos N78
Schließlich hat ARM auch die Neural Processing Unit (NPU) Ethos N78 angekündigt. Es ist der Nachfolger der N77 NPU. Es bietet größere ML-Funktionen auf dem Gerät und bis zu 25 % mehr Leistungseffizienz. Die Konfigurierbarkeit ist ebenfalls eine Stärke, da die verfügbaren Konfigurationen von 1 TOP/s bis zu 10 TOP/s reichen. Weitere Einzelheiten finden Sie unter ARMs Blogbeitrag. Diese NPU wird wahrscheinlich nur begrenzte Designgewinne erzielen, da Qualcomm, Samsung, HiSilicon und MediaTek alle über ihre eigenen neuronalen Verarbeitungseinheiten/KI-Engines verfügen.
Quellen: ARM (1, 2), AnandTech (1, 2)