ARM kondigt Cortex-A78 CPU, Mali-G78 GPU, Ethos N78 NPU aan

ARM heeft zowel de Cortex-A78 CPU-architectuur als de Mali-G78 GPU aangekondigd. De twee zijn de opvolgers van de Cortex-A77 CPU en de Mali-G77 GPU.

Als onderdeel van TechDay 2020 heeft ARM drie belangrijke aankondigingen gedaan. De belangrijkste aankondiging is het Cortex-X Custom-programma (CXC), dat het nieuwe bevat Cortex-X1 CPU-kern. De Cortex-X1 levert hogere topprestaties dan welke CPU uit de Cortex-A-serie dan ook, terwijl hij de grenzen van de PPA van de Cortex-A-serie doorbreekt. De andere twee aankondigingen die ARM deed, waren een stuk routineuzer. De Cortex-A78 CPU en de Mali-G78 CPU zijn nu officieel en fungeren als de opvolgers van de Cortex-A77 CPU en de Mali-G77 CPU respectievelijk. Laten we deze aankondigingen één voor één bespreken:

ARM Cortex-A78

Met de Cortex-A78 lag de belangrijkste focus van ARM op efficiëntie-eisen, zoals de vraag naar een langere levensduur van de batterij, nieuwe mobiele vormfactoren en krimpende SoC-gebieden. Duurzame prestaties zijn hier het sleutelwoord voor de Cortex-A78, terwijl de Cortex-X1 naar de sterren schiet met als doel maximale topprestaties op de korte termijn te bereiken.

ARM zegt dat de Cortex-78 het "allerbeste" vertegenwoordigt in zijn streven naar hoogwaardige prestaties en de beste efficiëntie in zijn klasse. Dit zijn ook niet alleen maar loze woorden. De afgelopen jaren hebben de Cortex-A76 en de Cortex-A77 de beste energie-efficiëntie in hun klasse en de beste PPA (prestaties, vermogen en oppervlakte) in hun klasse laten zien. Ze hadden niet het ontwerp dat nodig was om te concurreren met Apple's A-serie chips, maar vanwege lagere de opgewekte energie was hun energie-efficiëntie in het slechtste geval hetzelfde als die van Apple en in het beste geval zelfs hoger dan die van Apple Appel.

De prestatieverbeteringen van de A78 omvatten de gebruiksscenario's van productiviteit, communicatie, beveiliging en cameragebaseerde taken, geavanceerde gaming, XR en ML-gebaseerde ervaringen.

Bij duurzame prestaties brengt de Cortex-A78 verbeteringen met dubbele cijfers. Het biedt een verbetering van 20% in duurzame prestaties ten opzichte van zijn voorganger, de Cortex-A77, in hetzelfde mobiele thermische energiebereik. AnandTech nam de cijfers door en legde uit dat het cijfer van 20% een combinatie is van een 7% hogere IPC ten opzichte van de A77, terwijl de De resterende 13% prestatiewinst wordt toegeschreven aan het 5nm-proces, waarop de volgende generatie SoC's allemaal zullen worden geïnstalleerd verzonnen. ARM wijst op het belang van duurzame prestaties door te zeggen dat mobiele apparaten daartoe slechts een beperkte capaciteit hebben vermogen dissiperen, en duurzame prestaties voorkomen stroombeperking voor toepassingen die veel eisen stroom. Dit verbetert op zijn beurt de UX door vertraging of framedrops te voorkomen.

De druk op de energie-efficiëntie vertaalt zich in een hogere energie-efficiëntie, aangezien de twee verwante, maar verschillende concepten zijn. Volgens ARM biedt de Cortex-A78 op punten met hoge prestaties, zoals de piek voor de huidige mobiele apparaten, een energiebesparing van 50% ten opzichte van apparaten uit 2019 bij dezelfde prestatie als de Cortex-A77. Dit is indrukwekkend en het maakt de A78 tot de meest energiezuinige Cortex-A CPU ARM ooit ontworpen.

De focus van ARM op duurzame prestaties zal de volgende golf van mobiele innovatie ten goede komen, zoals nieuwe vormfactoren (opvouwbare telefoons) en een verbeterde "digitale onderdompeling" via 5G. De realiteitscheck is dat dit niet het geval is voor de huidige generatie, en dat het zelfs voor de volgende generatie niet veel zal uitmaken.

Een gebruiksscenario dat door de Cortex-A78 zal worden verbeterd, is mobiel AAA-gamen, in combinatie met ARM's eigen nieuwe Mali-G78 GPU. De combinatie van de twee heeft tot doel hifi-game-ervaringen naar mobiel te brengen. Hun grotere prestaties zullen, in combinatie met de hoge snelheid en hoge bandbreedte van 5G, premium gaming op mobiel mogelijk maken. De efficiëntie van de A78 heeft hier een voordeel, omdat hij een langere batterijduur biedt voor langdurig gamen. ARM zegt dat het ook samenwerkt met het ecosysteem om de prestaties verder te verbeteren en rijkere game-ervaringen te bouwen, en geeft een voorbeeld van zijn werk met Unity om Burst Compiler naar Android te brengen.

Machine learning (ML)-prestaties zijn een andere prioriteit voor ARM. De CPU is de eerste keus processor voor ML-computing op mobiele apparaten, hoewel high-end SoC's tegenwoordig worden geleverd met afzonderlijke neurale verwerkingseenheden (NPU's). De CPU's van ARM ondersteunen de populairste real-world ML-applicaties en gebruiksscenario's op smartphones, zoals filters voor sociale media, dicteren, beveiliging en beveiliging. De Cortex-A78 gebruikt gemiddeld 8% minder stroom voor ML-gebaseerde taken vergeleken met de A77, wat leidt tot officiële efficiëntieverbeteringen van 10%.

ARM Cortex-A78 - Architectuur

De ARM Cortex-A78 heeft dezelfde architectuur als de vorige generatie (het is nog steeds een ARM v8.2-kern). ARM heeft echter microarchitecturale kenmerken toegevoegd die tot doel hebben de prestaties op een gebieds- en energie-efficiënte manier naar een hoger niveau te tillen. ARM bespaart ruimte en kracht terwijl de benodigde prestatieniveaus behouden blijven. Nogmaals, ARM's focus op de Cortex-A-serie blijft liggen op oppervlakte- en energie-efficiëntie in plaats van op topprestaties, wat nu een taak is die wordt opgepakt door het Cortex-X-programma.

De prestatieverbeteringen van de Cortex-A78 worden mogelijk gemaakt door extra microarchitecturale kenmerken die de breedte en diepte optimaliseren. De instructiedecodeerbreedte blijft 4-breed, hetzelfde als bij de A77 en de A76. (De decodeerbreedte van de Cortex-X1 is daarentegen 5 breed, terwijl de A13 een decodeerbreedte van 7 heeft.) ARM heeft een grotere vertakkingsvoorspelling voor bandbreedte en nauwkeurigheid toegevoegd, evenals gevallen van instructiefusie. Deze architectonische verbeteringen maken een toename van 7% in single-thread-prestaties mogelijk ten opzichte van de A77.

De efficiëntie is gemaximaliseerd door het verminderen van structuren met lage prestaties en lage oppervlakte, zoals op de L1-I- en L1-D-caches. ARM heeft bestaande structuren geoptimaliseerd om minder stroom te verbruiken, zoals de merkvoorspellingsstructuren. ARM zegt dat dit leidt tot 4% minder vermogen voor prestaties per mW en 5% minder oppervlak voor prestaties per mm2 vergeleken met de A77.

De A78 houdt de focus op duurzame prestaties en de beste efficiëntie in zijn klasse op clusterniveau. Een DynamIQ-cluster van 4x Cortex-A77 en 4x Cortex-A55 CPU's kan worden geüpgraded naar 4x A78-kernen en 4x A55-kernen. Dit zorgt voor 20% duurzame prestatieverbeteringen op 15% minder oppervlak. Toepassingen die meerdere hoogwaardige threads parallel nodig hebben, zoals high-fidelity gaming, zullen profiteren van de aanhoudende prestatieverbetering.

ARM merkt op dat de verbeterde oppervlakte-efficiëntie van het A78 DynamIQ-cluster het ideaal maakt voor opvouwbare telefoons en meerdere en grotere beeldschermen. Een andere focus ligt op het 5G-klaar maken van smartphones door middel van prestatie- en energieverbeteringen. 5G zou “veel hogere snelheden”, “veel lagere latentie” en “veel snellere en alomtegenwoordiger connectiviteit voor mobiele apparaten voor toepassingen met hoge bandbreedte” bieden. Over een paar jaar kan dit het geval zijn, maar op dit moment zijn de meeste van deze voordelen niet merkbaar voor de eindgebruikers.

Over het algemeen is de Cortex-A78 een solide product. De vlaggenschip-SoC's van de volgende generatie zullen meerdere A78-kernen bevatten als aanvulling op de enkele Cortex-X1-kern heeft hogere vermogens- en oppervlaktevereisten, en sommige waardegerichte SoC's zullen er zelfs voor kiezen om de Cortex-X1 over te slaan geheel. Voor de middenklasse SoC-markt zal de A78 de favoriete CPU-kern zijn voor SoC's van 2021, en de focus op duurzame prestaties is welkom.


ARM Mali-G78

ARM's Mali-serie GPU's is op zijn zachtst gezegd lang niet zo succesvol geweest als de Cortex-serie CPU's. De Mali GPU's presteren zowel qua prestaties als qua energie-efficiëntie consistent beter dan de aangepaste GPU's van Apple en de aangepaste Adreno GPU's van Qualcomm, jaar na jaar. De lancering van vorig jaar van de nieuwe Valhall-architectuur en de Mali-G77 GPU heeft daar helaas niets aan veranderd. SoC's met de Mali-G77 omvatten de Exynos 990 en de MediaTek-afmeting 1000L respectievelijk. Helaas leken ze allebei zwakke implementaties te hebben, wat betekende dat hun GPU-prestaties dat wel konden niet concurreren met Qualcomm's Adreno 650 GPU, laat staan ​​Apple's toonaangevende GPU's in de Apple A12 en A13. Mali loopt al jaren achter, en de verbeteringen zijn niet voldoende geweest om de status quo op het gebied van mobiele GPU's te veranderen.

Niettemin is ARM niets anders dan optimistisch. Het merkt op dat zijn partners jaarlijks meer dan een miljard Mali-GPU's hebben verzonden, waardoor Mali de nummer één verscheepte GPU ter wereld is. Dit aantal zal vermoedelijk alleen maar toenemen, omdat veel meer verschillende soorten apparaten grafisch intensieve gebruiksscenario's mogelijk maken, zoals geavanceerde mobiele gaming en XR (VR en AR). Volgens ARM maakt dit Mali de meest gebruikte GPU voor mobiele ontwikkeling in het hele ecosysteem.

ARM merkt op dat het in 2019 zijn eerste GPU heeft aangekondigd op basis van de Valhall-architectuur: de Mali-G77. In 2020 wordt de G77 opgevolgd door de Mali-G78, die eveneens gebaseerd is op de Valhall-architectuur. Hoewel ARM zegt dat het de meest performante GPU voor premium mobiele apparaten tot nu toe is, ondersteunen de cijfers dit niet, ondanks wat ARM ironisch genoeg zegt dat dit een feit is dat door de cijfers wordt ondersteund. De G78 zorgt voor een prestatieverbetering van 25% ten opzichte van de G77, wat op zijn zachtst gezegd mager is. Het verschil in maximale GPU-prestaties tussen de G77 en de GPU van de Apple A13 was aanzienlijk, wat betekent dat de G78 de A13 niet zal kunnen inhalen, laat staan ​​de GPU van de aankomende Apple A14. Qualcomm zal ook een stap voor blijven dankzij zijn eigen stapsgewijze prestatieverbeteringen.

Spelveranderende graphics en de hele dag gamen op mobiel zijn al mogelijk op andere GPU's, dus de marketing van ARM klinkt hier een beetje hol.

Volgens ARM is de Mali-G78 gebouwd met ontwikkelaars en de eindgebruiker in gedachten. Het maakt mobiele game-ervaringen van hoge kwaliteit mogelijk met consolegames die nu beschikbaar zijn op mobiel. De G78 zorgt voor een langere batterijduur voor premium mobiele apparaten. Het zorgt ook voor een verdere ML-prestatieverbetering voor complexere gaming-, video-, camera- en beveiligings-ML-functies op mobiele apparaten.

ARM is optimistisch over het vooruitzicht van mobiel gamen. Mobiel gamen was in 2019 goed voor meer dan 46% van de wereldwijde gamesmarkt en bereikte een omzet van $68,2 miljard. Het zal ook de komende jaren blijven groeien, omdat het zowel pc- als console-gaming zal overtreffen. Er komen steeds meer premium gamingtitels naar mobiel en gebruikers verwachten op mobiel een vergelijkbare ervaring als op consoles.

Om deze ervaringen mogelijk te maken, wordt de Mali-G78 geleverd met de nodige prestatieverbetering. Het heeft een prestatiedichtheidsverbetering van 15% voor gaminginhoud vergeleken met de G77. Voor dezelfde hoeveelheid ruimte als de vorige generatie zal de G78 meer prestaties leveren. Deze boost wordt mogelijk gemaakt door vier belangrijke kenmerken:

  • Ondersteuning voor maximaal 24 kernen
  • Asynchroon topniveau
  • Verbeteringen aan de tegelzetter
  • Verbeterde tracking van fragmentafhankelijkheid

Terwijl het maximale aantal kernen van de G77 16 was, heeft ARM het maximale aantal kernen op de G78 verhoogd tot maximaal 24 kernen. Het feit dat er een maximum is, betekent natuurlijk niet dat leveranciers van mobiele chips ook daadwerkelijk 24 cores zullen gebruiken. De breedste kernvariant van de G77 die we tot nu toe hebben gezien is de Mali-G77MP11 op de Exynos 990, terwijl de Dimensity 1000 een Mali-G77MC9 heeft.

ARM is van mening dat Asynchronous Top Level een baanbrekende functie is voor GPU-prestaties. Er wordt gezegd dat dit zoveel mogelijk prestaties uit mobiele games haalt, waardoor maximale prestaties worden gegarandeerd.

Verbeteringen aan de tegelzetter voegen daarentegen een extra laag kwaliteit toe aan mobiele games. Games die zijn overgebracht van pc en console hebben vaak uiterst gecompliceerde elementen en geavanceerde scènes, die knelpunten en knelpunten in de prestaties veroorzaken. Verbeteringen in de tegelfunctie verminderen de vertexbelasting op de GPU voor deze complexe scènes en assets. Dit verbetert de prestaties voor gecompliceerde console-achtige game-inhoud.

ARM heeft ook het volgen van fragmentafhankelijkheid op de G78 verbeterd. Dit heeft vooral gevolgen voor mobiele games met complexe spelscènes met rook, bomen en gras. De resultaten zijn dat ARM tot 17% prestatieverbeteringen heeft gezien bij de beste mobiele games vergeleken met de G77.

De Mali-G78 heeft een 10% betere energie-efficiëntie dan zijn voorganger. Nogmaals, dat zal niet genoeg zijn om Qualcomm of Apple in te halen. De doelstellingen van ARM lijken hier bijzonder conservatief. De Asynchronous Top Level-functie speelt een belangrijke rol bij de energie-efficiëntie, omdat het een vermindering van het vermogen mogelijk maakt, waardoor inhoud op een duurzame manier kan worden gegenereerd. Wanneer een apparaat inhoud met de gewenste framesnelheid uitvoert, kan het daarom terugklokken om energie te besparen. Het verhogen van het topniveau voor deze taak kost wat meer energie, maar de energiebesparing door het verminderen van de frequentie van de shader cores is veel hoger. Dat komt omdat de shader cores 90-95% van het energiebudget van de GPU gebruiken.

Een betere energie-efficiëntie in de G78 wordt ook bereikt dankzij Fused multiply-add (FMA). Het is volledig opnieuw ontworpen vanaf de basis, wat heeft geleid tot een energiebesparing van 30% voor de unit. De FMA-eenheid is verantwoordelijk voor de meeste berekeningen die binnen een GPU plaatsvinden, en daarom was het logisch dat ARM zich hierop richtte op energiereducties.

De parallelle gegevensverwerkingscapaciteit van een GPU maakt hem geschikt voor het uitvoeren van ML-workloads, hoewel ARM erkent dat CPU en GPU de primaire processors voor ML blijven. Naarmate gebruiksscenario's complexer worden, zullen sommige werklasten naar de GPU worden overgebracht. De belangrijkste ML-gebruiksscenario's voor de GPU zijn gekoppeld aan beveiligingsfuncties op het apparaat, verschillende camera- en videomodi, evenals applicaties met AR-functies.

De rol van ML op de GPU maakt ervaringen mogelijk zoals face-tracking binnen het foto- of videoframe, games die AR-functies gebruiken en meer. Voor deze op ML gebaseerde taken biedt de Mali-G78 een gemiddelde prestatieverbetering van 15% voor verschillende ML-workloads vergeleken met de G77. De G77 zorgde voor een verbetering van 60% in de ML-prestaties ten opzichte van voorgaande generaties, dus de verbetering op jaarbasis is dit jaar veel kleiner. Asynchroon topniveau is van cruciaal belang voor het verbeteren van de ML-prestaties, omdat het klokken van de shader-kernen helpt bij de verschillende ML-gebruiksscenario's op de GPU.

Dan is er de aankondiging van de Mali-G68. Dit is niets anders dan een smallere variant van de Mali-G78, net zoals de Mali-G57 een smallere variant was van de Mali-G77. ARM zegt dat dit de eerste sub-premium Mali GPU is voor 2021-apparaten. Het heeft alle functies van de G78, zoals tegelverbeteringen en de nieuwe FMA-eenheid in de uitvoeringsengine, maar ondersteunt maximaal 6 cores in plaats van 24. Bijna premium prestaties tegen lagere kosten is het doel van deze GPU.

ARM ontwikkelde deze sub-premium GPU-laag na te hebben geluisterd naar feedback van partners die premiumfuncties wilden voor hun hele portfolio van apparaten. De G68 heeft, zoals verwacht, een lager siliciumoppervlak en brengt hoogwaardige gaming naar een breder publiek van ontwikkelaars en consumenten.

Ten slotte vermeldt ARM zijn ontwikkelaarspartnerschappen. Het maakt het voor ontwikkelaars gemakkelijk om hun inhoud te optimaliseren, zodat deze (in theorie) beter werkt op Mali GPU's. Een voorbeeld is de Prestatieadviseur. Ten tweede is er de samenwerking van ARM met Unity om de Burst Compiler op de markt te brengen. Details hierover zijn te lezen in het bronartikel.

Mali-G78 - Vooruitzichten

De vooruitzichten voor de Mali-G78 zijn somber. Het lijkt erop dat ARM gewoon niet geïnteresseerd is in het maken van substantiële prestatieverbeteringen op jaarbasis in dezelfde vorm die Apple maakt, in dezelfde vorm die Qualcomm in het verleden maakte. Hoewel het tempo van de verbetering van Qualcomm ook is afgenomen, bevindt de basislijn zich op een hogere plaats dan ARM. Het ziet er slecht uit voor het Android-ecosysteem als recensenten met numeriek bewijs beweren dat de aanhoudende prestaties van de GPU van de A13 hoger zijn dan de topprestaties van de Snapdragon 865. De prestatiedelta tussen Apple- en Android-GPU's groeit, en wordt alleen maar groter.

De G78 is daarom geen magische oplossing om de Mali GPU-problemen van ARM op te lossen en ze naar de top van de prestatiegrafieken te brengen. Het zal nog steeds onder de GPU's van Apple en Qualcomm staan. Voor sommige SoC's zal dit de standaardkeuze zijn alleen omdat het ARM's standaard GPU IP is, en op maat gemaakte oplossingen toegangsdrempels hebben en meer kosten Goed.

Volgend jaar is het twijfelachtig of Samsung Systems LSI daadwerkelijk de Mali-G78 zal gaan gebruiken. Samsung was een spraakmakende klant van Mali GPU's, maar vorig jaar het tekende een partnerschap met AMD om de RDNA GPU-architectuur te brengen naar zijn mobiele SoC's in 2021. Als die routekaart op koers blijft - en op dit moment hebben we geen reden om te vermoeden dat deze niet op koers ligt - dan zal de opvolger van de Exynos 990 beschikken over een AMD RDNA GPU in plaats van een Mali GPU. Het zal inderdaad een groot ontwerpverlies zijn voor ARM. Zelfs andere leveranciers zoals MediaTek hebben tegenwoordig meer opties. Verbeeldingstechnologieën zijn nieuw GPU-architectuur uit de A-serie heeft een ontwerpdoel voor hogere prestaties dan de G78, en het is mogelijk dat MediaTek in de toekomst afwijkt van Mali. Qualcomm heeft uiteraard geen reden om zijn Adreno GPU-inspanningen, die nog steeds bestaan, op te geven de beste in zijn klasse op het gebied van prestaties en efficiëntie als het uitsluitend over Android gaat smartphone-markt.

Het is dus duidelijk dat ARM het tempo van de jaarlijkse verbeteringen in Mali GPU's zal moeten verhogen om een ​​echt verschil te maken in de mobiele GPU-markt. Als het dit niet kan, loopt het het risico een bijzaak te worden in de mobiele GPU-ruimte van het premium vlaggenschip.


ARM Ethos N78

Ten slotte heeft ARM ook de Ethos N78 neurale verwerkingseenheid (NPU) aangekondigd. Het is de opvolger van de N77 NPU. Het levert grotere ML-mogelijkheden op het apparaat en tot 25% meer prestatie-efficiëntie. Configureerbaarheid is ook een sterk punt, aangezien de beschikbare configuraties variëren van 1 TOP/s tot 10 TOP/s. Voor meer details, kijk op ARM's blogpost. Deze NPU zal waarschijnlijk beperkte ontwerpwinsten behalen, aangezien Qualcomm, Samsung, HiSilicon en MediaTek allemaal hun eigen Neural Processing Units/AI Engines hebben.


Bronnen: ARM (1, 2), AnandTech (1, 2)