Arm's nieuwe Cortex X4, A720 en A520 zijn alleen 64-bit cores met een grote focus op efficiëntie

De nieuwe cores van Arm als onderdeel van de Total Compute Solution voor 2023 zijn aangekondigd, en ze zijn behoorlijk interessant.

Snelle koppelingen

Alleen 64-bit: "Missie volbracht"

Arm Cortex-X4: nog meer prestaties en betere efficiëntie

Arm Cortex-A720: balans tussen prestaties en energieverbruik

Arm Cortex A520: Verdubbeling van de efficiëntie

DSU-120: Tot 14 cores met rekenkracht

Efficiëntie is het nieuwe doel

Arm is het bedrijf dat vrijwel alle CPU-kernen ontwerpt die uiteindelijk in je Android-smartphone worden gebruikt, en elk jaar kondigt nieuwe iteraties aan die later hun weg zullen vinden naar chipsets zoals het vlaggenschip Snapdragon van dat jaar of het volgende vlaggenschip MediaTek Dimensie. Dit jaar brengt het een vlaggenschip Cortex-X4-kern, een Cortex-A720-prestatiekern en een Cortex-A520-efficiëntiekern uit. Deze kernen vormen de basis van de nieuwe Arm v9.2-compatibele ontwerpen van het bedrijf en de Total Compute Solution van het bedrijf voor 2023, of TCS23. Bovendien zien we ook een nieuwe DynamIQ Shared Unit en een bijgewerkte Immortalis-G720 GPU. Nog groter is een volledige overgang naar 64-bit computergebruik, waarbij geen van deze kernen 32-bit ondersteunt.

Alle drie de nieuwe kernen zijn microarchitectonische opvolgers van die van vorig jaar en zijn vooral gericht op het introduceren van IPC en efficiëntiewinsten.

Alleen 64-bit: "Missie volbracht"

Een van de grootste veranderingen in de Total Compute Solution van Arm van dit jaar is de overgang naar alleen 64-bit. Terwijl de A510R1 van vorig jaar de 32-bits AArch32-uitvoeringsmodus ondersteunde, net als de A710 die vorig jaar met TCS22 werd gelanceerd, zijn de kernen van Arm dit jaar alleen AArch64. Vooral sindsdien tikt de klok voor 32-bits applicaties op Android Google zelf heeft verplicht gesteld dat alle apps sinds 2019 worden geüpdatet worden geüpload als 64-bits binaire bestanden.

Zoals Arm het stelt, wordt de 64-bits transitie als 'missie volbracht' beschouwd. De reden hiervoor is dat de Chinese app-markt wat is hield de rest van de industrie tegen bij de transitie, maar de overgrote meerderheid van de apps in de Chinese appstores zijn nu 64-bit-compatibel, te.

De reden voor de vertraging was het ontbreken van een gehomogeniseerd applicatie-ecosysteem, wat betekent dat verschillende app-stores verschillende normen van ontwikkelaars vereisten. Omdat Arm echter met verschillende app-winkels in China heeft samengewerkt, samen met herhaalde waarschuwingen dat er een verschuiving zou plaatsvinden, hebben die app-winkels ontwikkelaars aangemoedigd om ook over te stappen.

De tijd is nu schijnbaar gekomen om die transitie in zijn geheel te laten plaatsvinden, en het zal sowieso nog een paar maanden duren voordat we deze Arm-kernen in nieuwe chipsets zien.

Arm Cortex-X4: nog meer prestaties en betere efficiëntie

Arm's X-serie kernen week een aantal jaren geleden af van zijn A-serie, met als filosofie dat het een krachtige kern is die wat meer kracht mag opslurpen wanneer hij dat nodig heeft. Normaal gesproken zullen chipsetfabrikanten er maximaal één of twee van gebruiken, omdat ze hongerig zijn naar energie, ondanks de mogelijkheden die ze ook hebben.

Zoals je in de bovenstaande grafiek kunt zien, is de Cortex-X4 de krachtigste Arm-kern tot nu toe, maar die rekenmogelijkheden gaan ten koste van het stroomverbruik. De Cortex-X4 is vergelijkbaar met de X3 van vorig jaar, en kan, zoals Arm het zegt, zelfs op dezelfde frequenties draaien als de core van vorig jaar en tot 40% minder stroom verbruiken. Het is minder dan 10% groter qua fysieke afmetingen en de meest efficiënte Cortex-X-kern ooit gebouwd.

Wat betreft waar deze IPC-verbeteringen vandaan komen: er zijn een aantal front-end- en back-endverbeteringen aan de X4. Bij deze verbeteringen aan de voorkant is veel werk gestoken in het herschrijven en verbeteren van vertakkingsvoorspellingen, omdat onjuiste vertakkingsvoorspellingen prestatietechnisch duur zijn. Arm belooft ook dat een L2-cachegrootte van 2 MB hogere prestaties oplevert, niet zozeer in benchmarks maar bij gebruik in de echte wereld.

De nieuwe Cortex-X4-kern verhoogt het aantal Arithmetic Logic Units (ALU's) van 6 naar 8 en voegt een extra tak toe eenheid (voor een totaal van 3), voegt een extra Multiply-Accumulator-eenheid toe en pijpleidingen met drijvende komma en vierkantswortel activiteiten.

Wat de achterkant betreft, zijn er ook een aantal verbeteringen. Het genereren van laadopslagadressen is van drie naar vier instructies per cyclus gegaan, omdat de laadopslagpijp werd genomen en opgesplitst. Er is ook een dubbele vertalingsbuffer in L1, samen met verbeteringen in bankconflicten.

Dit alles komt samen om een indrukwekkende prestatieverbetering te bewerkstelligen in Arm's Cortex-X4. Al met al kun je bij de Cortex-X4 gemiddeld een prestatieverbetering van 15% verwachten. In de vermogens- en prestatiecurve die Arm deelt, ligt de X4 zowel qua prestaties als qua energieverbruik voor op de X3. Met andere woorden: die prestatieverbetering van 15% brengt een behoorlijk aanzienlijk stroomverbruik met zich mee. Het is echter ook de moeite waard om te vermelden dat het niet echt een vergelijking tussen appels en appels is; de Cortex-X3 werd vorig jaar geleverd met 1 MB L2-cache, wat betekent dat als een fabrikant dit jaar aan dezelfde L2-cachegrootte vasthoudt, er niet noodzakelijkerwijs een prestatieverbetering van 15% hoeft te zijn.

Eén ding is echter zeker: als je de X4 op maximale snelheid gebruikt, zal hij waarschijnlijk een grote stroomslurper zijn. Mogelijk zien we dat sommige OEM's dit jaar blijven doen wat ze vorig jaar deden en veel van de chipsets van dit jaar uit de doos halen. OnePlus en Oppo doen dit bijvoorbeeld allebei, en met die energie-efficiëntiewinst als ze tegelijkertijd werken prestatiepunten als de X3, is het waarschijnlijk dat er voordelen zullen zijn voor deze bedrijven om te blijven doen Dus. We zien die prestatieverbetering van 15% misschien niet over de hele linie, maar in plaats daarvan kunnen we in plaats daarvan verdere efficiëntieverbeteringen zien voor de chipsets van volgend jaar.

Arm Cortex-A720: balans tussen prestaties en energieverbruik

Terwijl Arm's X-serie cores doorgaans een beetje wild worden gelaten, is de A-serie cores doorgaans bedoeld om het energieverbruik in evenwicht te brengen met de prestaties. Met de Cortex-A720 belooft Arm een 20% efficiëntere kern, met betere prestaties bij hetzelfde vermogen als de A715 van vorig jaar.

Wat betreft waar de verbeteringen aan de A720 van dit jaar vandaan komen: de meeste bevinden zich aan de voorkant. De pijpleidingen zijn ingekort, waarbij één cyclus is verwijderd uit de verkeerd voorspelde motor, waarbij deze daling van één cyclus verantwoordelijk zou zijn voor een stijging van de benchmarks met 1%. Benchmarks resulteren doorgaans in de minste verkeerde voorspellingen van de branche, wat betekent dat dit de algehele prestaties in de praktijk waarschijnlijk met een aanzienlijker (maar grotendeels onmeetbaar) bedrag zal verbeteren.

In de out-of-order kern zien we een aantal structurele verbeteringen die helpen de prestaties te verbeteren zonder dat dit gevolgen heeft voor het gebied dat door de kern wordt ingenomen of voor de efficiëntie ervan. Om te beginnen zijn nu, net als in de X4, drijvende-kommaverdelingen en vierkantswortelbewerkingen in de pijplijn opgenomen. Er zijn ook snellere overdrachten van drijvende-komma-, NEON- en SVE2-nummers naar gehele getallen en andere algemene verbeteringen om de verwerking te versnellen.

Arm deelde de bovenstaande grafiek om te illustreren hoe de A720 zich qua prestaties en efficiëntie verhoudt tot de A715 van vorig jaar, waarbij een ISO-proces en ISO-frequentie worden gebruikt in SPECint_base2006. De cachegroottes blijven ook hetzelfde, dus het is echt een vergelijking van appels met appels.

Qua energieverbruik blijft de A720 grotendeels in lijn met het model van vorig jaar, hoewel hij iets meer prestaties levert bij hetzelfde vermogensniveau. Met de A720 lijkt Arm zich, net als bij de X4, meer te concentreren op het benadrukken van hoe het beter wordt prestaties buiten de vermogensbeperkingen van vorig jaar in plaats van het vermogen van deze kernen voortdurend te vergroten in staat tot.

Arm Cortex A520: Verdubbeling van de efficiëntie

Als het om de kernen van Arm gaat, gaat het natuurlijk niet alleen om prestaties. Omdat de X-serie alles in brute rekenkracht steekt en de A7xx de rekenbehoeften en het stroomverbruik in evenwicht houdt, richt de A5xx-serie zich puur op efficiënte verwerking. Het is de Arm v9.2-kern met het laagste vermogen per gebied en bouwt voort op dezelfde samengevoegde kernarchitectuur die we bij de A510 zagen geïntroduceerd.

Wat deze samengevoegde kernarchitectuur betekent, is dat sommige bronnen kunnen worden gedeeld tussen twee kernen, waar twee kernen kunnen zijn gegroepeerd in een ‘complex’. De L2-cache, de L2-vertaal-lookaside-buffer en vectordatapaden worden hierin gedeeld complex. Voor de duidelijkheid: dit betekent niet dat het zo is heeft gebundeld in twee kernen, en een complex met één kern kan worden samengesteld voor topprestaties. In feite betrof een van Arm's TCS2023-kernlay-outs die ze ons lieten zien een enkele X4-kern, vijf A720-kernen en drie A520-kernen, wat betekent dat ten minste één A520-kern geïsoleerd is.

De A520 is een ontwerp waarbij efficiëntie voorop staat, en net als de andere kernen concentreerde Arm zich grotendeels op het verbeteren van die efficiëntie op dezelfde stopcontacten als de vorige generatie. Dit omvat het verbeteren van vertakkingsvoorspellingen en het verwijderen of verkleinen van enkele prestatiekenmerken. Deze prestatie werd terugverdiend door een grotere efficiëntie. Interessant is ook dat Arm de derde ALU uit de A510 heeft verwijderd, waardoor energie werd bespaard bij het uitgeven van logica en het doorsturen van resultaten.

In de praktijk lijkt het erop dat de A520 niet zo'n grote sprong maakt ten opzichte van zijn voorgangers als de A720 en de X4. Een groot deel van zijn mogelijkheden bij lagere vermogensintervallen overlapt met de A510 uit de bovenstaande grafiek, en alleen op de hogere niveaus van prestaties zien we efficiëntiewinsten. Het verschil in prestaties en kracht tussen de twee kernen is veelbelovend, maar het is onduidelijk of we daadwerkelijke voordelen in de echte wereld zullen zien als we de A520 met de A510 vergelijken. Het is immers moeilijk om de prestatie- en efficiëntieverschillen tussen de twee in de echte wereld daadwerkelijk goed te meten.

DSU-120: Tot 14 cores met rekenkracht

De DynamIQ Shared Unit, of DSU, integreert een of meer cores met een L3-geheugensysteem, besturingslogica en externe interfaces om een multicore-cluster te vormen. Het is in wezen het weefsel van Arm dat ervoor zorgt dat al deze kernen met elkaar kunnen communiceren en bronnen kunnen delen, en zo Het is dus een vrij belangrijk stukje van de puzzel voor elke chipsetmaker die een chip wil bouwen met de kernontwerpen van Arm.

Voortbouwend op de DSU-110 heeft Arm een aantal verbeteringen aan de DSU-120 aangebracht die ten goede zullen komen aan de hele chip waarop deze is opgenomen. Om te beginnen zijn er nu maximaal 14 cores per cluster (was 12) en ondersteuning voor maximaal 32 MB L3-cache. Het verbetert ook de efficiëntie op een aantal belangrijke gebieden aanzienlijk, waaronder in het geval van cache-missers, terwijl ook het stroomverlies wordt verminderd.

In zekere zin is Arm's DSU de ruggengraat van TCS23, omdat het de basis vormt voor de manier waarop elk van deze kernen met elkaar interageert en gegevens deelt. Eventuele verbeteringen hier zullen het hele cluster ten goede komen, maar het lijkt erop dat de meeste veranderingen verband houden met energieverbruik en efficiëntie.

Efficiëntie is het nieuwe doel

De industrie lijkt al een tijdje aan het veranderen, maar de belangrijkste eerste indruk die ik krijg van deze kernen is dat efficiëntie nu de naam van het spel is. Terwijl ons werd verteld hoeveel sneller de X4-kern is en hoe dit de snelste kern van het bedrijf ooit is, ze merkten al snel de efficiëntieverbeteringen op als gevolg van het draaien op de topprestaties van vorig jaar in plaats van.

Over de hele linie werd elke prestatiewinst ondersteund door hoeveel efficiënter dat onderdeel ook was, en min of meer hadden alle veranderingen van de DSU betrekking op efficiëntie en stroomlekkage. Prestaties zijn belangrijk, maar het voelt echt alsof de industrie als geheel actueel probeert te worden rekenniveaus efficiënter in plaats van jaar na jaar te streven naar enorme prestatieverbeteringen.

We verwachten dat deze kernen de basis zullen vormen van de MediaTek Dimensity 9400 en de Qualcomm Snapdragon 8 Gen 3, maar in welke formatie valt nog te bezien. Zoals eerder vermeld sprak Arm over het gebruik van een 1+5+3 kernlay-out bij zijn eigen interne tests, maar dat betekent niet dat dit is wat partners als MediaTek en Qualcomm zelf willen doen.