Arms nya Cortex X4, A720 och A520 är endast 64-bitars kärnor med stort fokus på effektivitet

Arms nya kärnor som en del av dess Total Compute Solution för 2023 har tillkännages, och de är ganska intressanta.

snabblänkar

Endast 64-bitars: "Uppdrag fullbordat"

Arm Cortex-X4: Ännu mer prestanda och bättre effektivitet

Arm Cortex-A720: Balanserar prestanda och strömförbrukning

Arm Cortex A520: Fördubbling av effektiviteten

DSU-120: Upp till 14 kärnor av beräkningsmässigt goda egenskaper

Effektivitet är det nya målet

Arm är företaget som designar i stort sett alla CPU-kärnor som kommer att användas i din Android-smarttelefon, och varje år tillkännager nya iterationer som senare kommer att hitta sin väg in i chipset som årets flaggskepp Snapdragon eller nästa flaggskepp MediaTek Dimensitet. I år släpper den ett flaggskepp Cortex-X4-kärna, en Cortex-A720-prestandakärna och en Cortex-A520 effektivitetskärna. Dessa kärnor utgör grunden för företagets nya Arm v9.2-kompatibla design och företagets Total Compute Solution för 2023, eller TCS23. Utöver det ser vi också en ny DynamIQ Shared Unit och en uppdaterad Immortalis-G720 GPU. Ännu större är en fullständig övergång till 64-bitars datorer, med ingen av dessa kärnor som stöder 32-bitars.

Alla tre nya kärnor är mikroarkitektoniska efterföljare till fjolårets och är främst inriktade på att introducera IPC och effektivitetsvinster.

Endast 64-bitars: "Uppdrag fullbordat"

En av de största förändringarna i årets Total Compute Solution från Arm är övergången till endast 64-bit. Medan förra årets A510R1 stödde 32-bitars AArch32 exekveringsläge, liksom A710 som lanserades med TCS22 förra året, i år är Arms kärnor endast AArch64. Klockan har tickat för 32-bitars applikationer på Android, särskilt sedan dess Google har självt beordrat att alla appar ska uppdateras sedan 2019 laddas upp som 64-bitars binärer.

Som Arm uttrycker det anses 64-bitarsövergången vara "uppdraget fullbordat". Anledningen till detta är att den kinesiska appmarknaden är vad höll tillbaka resten av branschen i övergången, men de allra flesta appar i kinesiska appbutiker är nu 64-bitars kompatibla, för.

Anledningen till förseningen var avsaknaden av ett homogeniserat applikationsekosystem, vilket innebär att olika appbutiker krävde olika standarder för utvecklare. Eftersom Arm har arbetat med olika appbutiker i Kina, tillsammans med upprepade varningar om att ett skifte skulle ske, har dessa appbutiker uppmuntrat utvecklare att byta också.

Tiden har nu till synes kommit för den övergången att ske i sin helhet, och det kommer att dröja några månader till innan vi ser dessa Arm-kärnor i nya styrkretsar, i alla fall.

Arm Cortex-X4: Ännu mer prestanda och bättre effektivitet

Arms X-serie av kärnor avvek från sin A-serie för ett antal år sedan, med filosofin att det är en kraftfull kärna som får suga i sig lite mer kraft när den behöver den. Vanligtvis kommer tillverkare av chipset bara att inkludera en eller två av dessa högst, eftersom de är strömsugna, även trots de möjligheter som de också har.

Som du kan se från diagrammet ovan är Cortex-X4 den mest kraftfulla Arm-kärnan hittills, men dessa beräkningsmöjligheter kommer på bekostnad av strömförbrukning. Cortex-X4 liknar förra årets X3, och som Arm uttrycker det kan den till och med köras på samma frekvenser som förra årets kärna och använda upp till 40 % mindre ström. Den är mindre än 10 % större i fysisk storlek och den mest effektiva Cortex-X-kärnan som någonsin byggts.

När det gäller var dessa IPC-förbättringar kommer ifrån finns det ett antal front-end- och back-end-förbättringar till X4. I dessa front-end-förbättringar lades ett stort arbete ner på att skriva om och förbättra grenförutsägelser, eftersom felaktiga grenförutsägelser är kostsamma, prestandamässigt. Arm lovar också att en L2-cachestorlek på 2MB ger högre prestanda, inte så mycket i benchmarks utan i verklig användning.

Den nya Cortex-X4-kärnan ökar antalet aritmetiska logiska enheter (ALU) från 6 till 8, lägger till en ytterligare gren enhet (för totalt 3), lägger till en extra Multiply-Accumulator-enhet och rörledningar med flyttal och kvadratrot operationer.

När det gäller baksidan finns det ett antal förbättringar också. Generering av lastlageradress har gått från tre instruktioner till fyra per cykel, eftersom lastlagerröret togs och delas upp. Det finns också en fördubblad översättningsbuffert i L1, tillsammans med förbättringar av bankkonflikt.

Allt detta kommer tillsammans för att ge en imponerande prestandahöjning i Arm's Cortex-X4. Sammantaget kan du förvänta dig i genomsnitt 15 % prestandaförbättring med Cortex-X4. I kraft- och prestandakurvan som delas av Arm sträcker sig X4 före X3 både vad gäller prestanda och strömförbrukning. Med andra ord, den 15 % prestandaförbättringen kommer vid ett ganska betydande strömförbrukning. Det är också värt att nämna att det inte är en jämförelse mellan äpplen och äpplen. Cortex-X3 kom med 1 MB L2-cache förra året, vilket betyder att om en tillverkare skulle hålla sig till samma L2-cache-storlek i år, kanske det inte nödvändigtvis blir en prestandahöjning på 15 %.

En sak är dock säker, och det är att om du kör X4 i maximal hastighet, kommer den sannolikt att bli en stor kraftslukare. Vi kan se några OEM-tillverkare i år fortsätta att göra vad de gjorde förra året och strypa många av årets chipset ur lådan. Till exempel, OnePlus och Oppo gör båda detta, och med dessa energieffektivitetsvinster när de körs samtidigt prestandapoäng som X3, är det troligt att det kommer att finnas fördelar för dessa företag att fortsätta göra så. Vi kanske inte ser den 15-procentiga prestandahöjningen över hela linjen, men vi kan se ytterligare effektivitetsförbättringar istället för nästa års styrkretsar.

Arm Cortex-A720: Balanserar prestanda och strömförbrukning

Medan Arms X-serie av kärnor vanligtvis släpps lite vilda, syftar A-serien av kärnor vanligtvis till att balansera strömförbrukning mot prestanda. Med Cortex-A720 lovar Arm en 20 % effektivare kärna, med ökad prestanda vid samma effekt som A715 från förra året.

När det gäller var årets A720-förbättringar kommer ifrån, de flesta av dem finns i fronten. Rörledningar har förkortats med en cykel borttagen från grenfelsförutsägningsmotorn, med detta encykelfall som sägs stå för en ökning med 1 % i riktmärken. Benchmarks resulterar vanligtvis i de minsta felförutsägelserna i grenarna, vilket innebär att detta sannolikt kommer att förbättra den totala verkliga prestandan med en mer betydande (men i stort sett omätbar) mängd.

I den out-of-order kärnan ser vi ett antal strukturella förbättringar som hjälper till att förbättra prestandan utan att påverka området som tas upp av kärnan eller dess effektivitet. Till att börja med, precis som i X4, är flyttalsdelningar och kvadratrotsoperationer nu pipelinerade. Det finns också snabbare överföringar från flyttal, NEON och SVE2-tal till heltal och andra övergripande förbättringar för att påskynda bearbetningen.

Arm delade grafen ovan för att illustrera hur A720 kan jämföras med förra årets A715 i prestanda och effektivitet, där en ISO-process och ISO-frekvens används i SPECint_base2006. Cachestorlekarna förblir också desamma, så det är mycket en jämförelse mellan äpplen och äpplen.

När det gäller strömförbrukning är A720 fortfarande mycket i linje med förra årets modell, även om den ger ut lite mer prestanda vid samma effektnivåer. Med A720, som med X4, verkar Arm fokusera mer på att belysa hur det blir bättre prestanda från förra årets kraftbegränsningar snarare än att kontinuerligt öka kraften som dessa kärnor är kapabel att.

Arm Cortex A520: Fördubbling av effektiviteten

Naturligtvis, när det kommer till Arms kärnor, handlar det inte bara om prestanda. Med X-serien som lägger allt i rå beräkningskraft och A7xx balanserar beräkningsbehov och kraftförbrukning, fokuserar A5xx-serien enbart på effektiv bearbetning. Det är den lägsta effekten per område Arm v9.2-kärnan och bygger på samma sammanslagna kärna-arkitektur som vi såg introducerad med A510.

Vad denna sammanslagna kärnarkitektur innebär är att vissa resurser kan delas mellan två kärnor, där två kärnor kan delas grupperas i ett "komplex". L2-cachen, L2-översättningsbufferten och vektordatavägarna delas inom detta komplex. För att vara tydlig betyder det inte det har att buntas till två kärnor, och ett enkärnigt komplex kan sättas ihop för bästa prestanda. Faktum är att en av Arms TCS2023-kärnlayouter som de visade oss involverade en enda X4-kärna, fem A720-kärnor och tre A520-kärnor, vilket betyder att minst en A520-kärna är isolerad.

A520 är en effektivitet-först design, och precis som de andra kärnorna fokuserade Arm till stor del på att förbättra den effektiviteten vid samma kraftpunkter som den senaste generationen. Detta inkluderar att förbättra grenförutsägelser och samtidigt ta bort eller skala ner vissa prestandafunktioner. Denna prestanda återvanns genom ökad effektivitet som ett resultat. Intressant nog har Arm tagit bort den tredje ALU: n som fanns i A510, vilket sparar ström när det gäller att utfärda logik och vidarebefordra resultat.

I verkliga resultat verkar det som att A520 inte är ett lika stort hopp från sina föregångare som A720 och X4 är. Mycket av dess kapacitet vid lägre effektintervall överlappar A510 från ovanstående graf, och det är bara på de övre nivåerna av prestanda vi ser effektivitetsvinster. Skillnaden i prestanda och kraft mellan de två kärnorna är lovande, men det är oklart om vi kommer att se några verkliga fördelar när vi jämför A520 med A510. När allt kommer omkring är det svårt att faktiskt mäta prestanda och effektivitetsskillnader mellan de två i den verkliga världen.

DSU-120: Upp till 14 kärnor av beräkningsmässigt goda egenskaper

DynamIQ Shared Unit, eller DSU, är en integrerar en eller flera kärnor med ett L3-minnessystem, kontrolllogik och externa gränssnitt för att bilda ett flerkärnigt kluster. Det är i huvudsak Arms tyg som gör att alla dessa kärnor kan kommunicera med varandra och dela resurser, och som så, det är en ganska viktig pusselbit för alla chipsettillverkare som vill bygga ett chip med Arms kärndesigner.

Med utgångspunkt i DSU-110 har Arm gjort ett antal förbättringar av DSU-120 som kommer att gynna hela kretsen som den ingår på. Till att börja med finns det nu upp till 14 kärnor per kluster (upp från 12) och stöd för upp till 32 MB L3-cache. Det förbättrar också effektiviteten avsevärt inom ett antal nyckelområden, inklusive i händelse av cachemissar, samtidigt som det minskar strömläckage.

På ett sätt är Arms DSU ryggraden i TCS23, eftersom den utgör grunden för hur var och en av dessa kärnor interagerar med varandra och delar data. Eventuella förbättringar här kommer att gynna hela klustret, men det verkar som om de flesta förändringarna är relaterade till strömförbrukning och effektivitet.

Effektivitet är det nya målet

Branschen verkar ha förändrats ett tag, men det främsta första intrycket jag får från dessa kärnor är att effektivitet nu är namnet på spelet. Medan vi fick höra hur mycket snabbare X4-kärnan är och hur den är företagets snabbaste kärna någonsin, de var mycket snabba med att notera effektivitetsförbättringarna med att köra den vid förra årets toppprestanda istället.

Överlag underbyggdes varje prestandavinst av hur mycket effektivare den komponenten också var, och mer eller mindre var alla förändringar av DSU: n i effektivitet och strömläckage. Prestanda är viktigt, men det känns verkligen som att branschen som helhet försöker bli aktuell beräkningsnivåer mer effektiva snarare än att satsa på massiva prestandaökningar från år till år.

Vi förväntar oss att dessa kärnor kommer att utgöra grunden för MediaTek Dimensity 9400 och Qualcomm Snapdragon 8 Gen 3, men i vilken form återstår att se. Som tidigare nämnts pratade Arm om att använda en 1+5+3 kärnlayout i sin egen interna testning, men det betyder inte att det är vad partners som MediaTek och Qualcomm vill göra själva.