Arms nye Cortex X4, A720 og A520 er kun 64-bit kerner med stort fokus på effektivitet

Arms nye kerner som en del af dens Total Compute Solution for 2023 er blevet annonceret, og de er ret interessante.

hurtige links

Kun 64-bit: "Mission fuldført"

Arm Cortex-X4: Endnu mere ydeevne og bedre effektivitet

Arm Cortex-A720: Afbalancerer ydeevne og strømforbrug

Arm Cortex A520: Fordobling af effektiviteten

DSU-120: Op til 14 kerner af beregningsmæssig godhed

Effektivitet er det nye mål

Arm er firmaet, der designer stort set alle de CPU-kerner, der ender med at blive brugt i din Android-smartphone, og hvert år annoncerer nye iterationer, der senere vil finde vej til chipsæt som dette års flagskib Snapdragon eller det næste flagskib MediaTek Dimensitet. I år udgiver det en flagskib Cortex-X4-kerne, en Cortex-A720 ydeevnekerne og en Cortex-A520 effektivitetskerne. Disse kerner danner grundlaget for virksomhedens nye Arm v9.2-kompatible design og virksomhedens Total Compute Solution for 2023, eller TCS23. Oven i det ser vi også en ny DynamIQ Shared Unit og en opdateret Immortalis-G720 GPU. Endnu større er en komplet overgang til 64-bit computere, hvor ingen af disse kerner understøtter 32-bit.

Alle tre af de nye kerner er mikroarkitektoniske efterfølgere til sidste års og er primært fokuseret på at introducere IPC og effektivitetsgevinster.

Kun 64-bit: "Mission fuldført"

En af de største ændringer i dette års Total Compute Solution fra Arm er overgangen til kun 64-bit. Mens sidste års A510R1 understøttede 32-bit AArch32-udførelsestilstanden, ligesom A710, der blev lanceret med TCS22 sidste år, i år er Arms kerner kun AArch64. Uret har tikket for 32-bit applikationer på Android, især siden Google har selv påbudt, at alle apps skal opdateres siden 2019 uploades som 64-bit binære filer.

Som Arm udtrykker det, betragtes 64-bit overgangen som "mission accomplished". Grunden til dette er, at det kinesiske app-marked er hvad holdt resten af industrien tilbage i overgangen, men langt de fleste apps i kinesiske app-butikker er nu 64-bit kompatible, også.

Årsagen til forsinkelsen var manglen på et homogeniseret applikationsøkosystem, hvilket betyder, at forskellige appbutikker krævede forskellige standarder for udviklere. Da Arm har arbejdet med forskellige app-butikker i Kina, sammen med gentagne advarsler om, at der ville ske et skift, har disse app-butikker opmuntret udviklere til også at skifte.

Tiden er nu tilsyneladende inde til, at den overgang skal ske i sin helhed, og der går alligevel et par måneder endnu, før vi ser disse Arm-kerner i nye chipsæt.

Arm Cortex-X4: Endnu mere ydeevne og bedre effektivitet

Arms X-serie af kerner afveg fra sin A-serie for et antal år siden, med filosofien, at det er en kraftig kerne, der får lov til at suge lidt mere kraft, når den har brug for det. Typisk vil chipsetproducenter kun inkludere en eller to af disse maksimalt, da de er strømkrævende, selv på trods af de muligheder, de også har.

Som du kan se fra ovenstående graf, er Cortex-X4 den mest kraftfulde Arm-kerne til dato, men disse beregningsmuligheder kommer på bekostning af strømforbruget. Cortex-X4 ligner sidste års X3, og som Arm udtrykker det, kan den endda køres på samme frekvenser som sidste års kerne og bruge op til 40 % mindre strøm. Den er mindre end 10 % større i fysisk størrelse og den mest effektive Cortex-X-kerne, der nogensinde er bygget.

Med hensyn til hvor disse IPC-forbedringer kommer fra, er der en række front-end- og back-end-forbedringer til X4. I disse frontend-forbedringer blev der lagt et stort arbejde i at omskrive og forbedre grenforudsigelser, da forkerte grenforudsigelser er dyre, præstationsmæssigt. Arm lover også, at en L2-cachestørrelse på 2MB giver højere ydeevne, ikke så meget i benchmarks, men i den virkelige verden.

Den nye Cortex-X4-kerne øger antallet af aritmetiske logiske enheder (ALU'er) fra 6 til 8, tilføjer en ekstra gren enhed (i alt 3), tilføjer en ekstra Multiply-Accumulator-enhed og rørledninger med flydende komma og kvadratrod operationer.

Hvad angår bagenden, er der også en række forbedringer. Generering af lastlageradresser er gået fra tre instruktioner til fire per cyklus, efterhånden som lastlagerrøret blev taget og delt op. Der er også en fordoblet oversættelsesbuffer i L1 sammen med forbedringer af bankkonflikt.

Alt dette kommer sammen for at bringe nogle imponerende præstationsløft i Arm's Cortex-X4. Alt i alt kan du forvente et gennemsnit på 15 % ydeevneforbedring med Cortex-X4. I kraft- og ydeevnekurven, der deles af Arm, strækker X4 sig foran X3 i både ydeevne og strømforbrug. Med andre ord kommer den 15% ydeevneforbedring ved et ret betydeligt strømforbrug. Det er dog også værd at nævne, at det ikke helt er en æble-til-æbler sammenligning; Cortex-X3 kom med 1 MB L2-cache sidste år, hvilket betyder, at hvis en producent skulle holde sig til den samme L2-cache-størrelse i år, er der ikke nødvendigvis en 15% ydelsesforøgelse.

En ting er dog sikker, og det er, at hvis du kører X4 ved maksimal hastighed, vil den sandsynligvis være en stor magtsluger. Vi vil muligvis se nogle OEM'er i år fortsætte med at gøre, hvad de gjorde sidste år og drosle mange af dette års chipsæt ud af kassen. For eksempel gør OnePlus og Oppo begge dette, og med disse strømeffektivitetsgevinster, når de kører samtidig præstationspoint som X3, er det sandsynligt, at der vil være fordele for disse virksomheder at fortsætte med så. Vi kan måske ikke se den 15 % ydelsesforøgelse over hele linjen, men vi kan se yderligere effektivitetsforbedringer i stedet for næste års chipsæt.

Arm Cortex-A720: Afbalancerer ydeevne og strømforbrug

Mens Arms X-serie af kerner typisk lader sig løbe lidt vildt, har A-serien af kerner typisk til formål at balancere strømforbruget mod ydeevnen. Med Cortex-A720 lover Arm en 20 % mere effektiv kerne med øget ydeevne med samme effekt som A715 fra sidste år.

Med hensyn til hvor dette års A720-forbedringer kommer fra, er de fleste af dem i frontend. Rørledninger er blevet forkortet med én cyklus fjernet fra grenen misforudsige motoren, hvor dette enkelt cyklus fald siges at tegne sig for en stigning på 1 % i benchmarks. Benchmarks resulterer typisk i de færreste brancheforudsigelser, hvilket betyder, at dette sandsynligvis vil forbedre den samlede præstation i den virkelige verden med en mere betydelig (men stort set umådelig) mængde.

I den ude af drift kernen ser vi en række strukturelle forbedringer, der hjælper med at forbedre ydeevnen uden at påvirke det område, som kernen optager, eller dens effektivitet. For det første, ligesom i X4, er floating point divider og kvadratrodsoperationer nu pipelinet. Der er også hurtigere overførsler fra flydende komma-, NEON- og SVE2-tal til heltal og andre overordnede forbedringer for at fremskynde behandlingen.

Arm delte ovenstående graf for at illustrere, hvordan A720 sammenligner sig med sidste års A715 i ydeevne og effektivitet, hvor en ISO-proces og ISO-frekvens er brugt i SPECint_base2006. Cachestørrelser forbliver også de samme, så det er meget en æble-til-æbler-sammenligning.

Med hensyn til strømforbrug forbliver A720 meget på linje med sidste års model, selvom den giver en lille smule mere ydeevne ved de samme effektniveauer. Med A720, ligesom med X4, ser Arm ud til at fokusere mere på at fremhæve, hvordan det bliver bedre ydeevne ud af sidste års strømbegrænsninger i stedet for løbende at øge den effekt, som disse kerner er i stand til.

Arm Cortex A520: Fordobling af effektiviteten

Når det kommer til Arms kerner, handler det selvfølgelig ikke kun om ydeevne. Med X-serien, der sætter alt i rå beregningskraft og A7xx-balancering af beregningsbehov og strømforbrug, fokuserer A5xx-serien udelukkende på effektiv behandling. Det er den laveste effekt pr. område Arm v9.2 kerne og bygger på den samme fusionerede kerne-arkitektur, som vi så introduceret med A510.

Hvad denne fusionerede kernearkitektur betyder, er, at nogle ressourcer kan deles mellem to kerner, hvor to kerner kan deles. grupperet i et "kompleks". L2-cachen, L2-oversættelses-lookaside-bufferen og vektordatastier deles inden for denne kompleks. For at være klar, betyder dette ikke det har at blive bundtet i to kerner, og et one-core kompleks kan samles for maksimal ydeevne. Faktisk involverede et af Arms TCS2023-kernelayouts, som de viste os, en enkelt X4-kerne, fem A720-kerner og tre A520-kerner, hvilket betyder, at mindst én A520-kerne er isoleret.

A520 er et effektivitet-først-design, og ligesom de andre kerner fokuserede Arm i høj grad på at forbedre effektiviteten ved de samme power points som sidste generation. Dette inkluderer forbedring af grenforudsigelser, mens du også fjerner eller nedskalerer nogle ydeevnefunktioner. Denne præstation blev genvundet gennem større effektivitet som et resultat. Det er også interessant, at Arm har fjernet den tredje ALU, der var i A510, hvilket sparer strøm ved at udstede logik og videresende resultater.

I resultater fra den virkelige verden ser det ud til, at A520 ikke er et så stort spring fra sine forgængere, som A720 og X4 er. Meget af dens muligheder ved lavere strømintervaller overlapper med A510 fra ovenstående graf, og det er kun i de øverste niveauer af ydeevne, vi ser effektivitetsgevinster. Forskellen i ydeevne og kraft mellem de to kerner er lovende, men det er uklart, om vi vil se nogle faktiske fordele i den virkelige verden, når vi sammenligner A520 med A510. Når alt kommer til alt, er det svært at måle ydelses- og effektivitetsforskelle mellem de to i den virkelige verden.

DSU-120: Op til 14 kerner af beregningsmæssig godhed

DynamIQ Shared Unit, eller DSU, er en integrerer en eller flere kerner med et L3-hukommelsessystem, kontrollogik og eksterne grænseflader for at danne en multicore-klynge. Det er i bund og grund Arms stof, der gør det muligt for alle disse kerner at kommunikere med hinanden og dele ressourcer, og som sådan er det en ret vigtig brik i puslespillet for enhver chipsetproducent, der ønsker at bygge en chip med Arms kernedesign.

Med udgangspunkt i DSU-110 har Arm foretaget en række forbedringer til DSU-120, som vil tjene til gavn for hele den chip, den er inkluderet på. Til at begynde med er der nu op til 14 kerner pr. klynge (op fra 12) og understøttelse af op til 32 MB L3-cache. Det forbedrer også i høj grad effektiviteten på en række nøgleområder, herunder i tilfælde af cache-misser, samtidig med at den reducerer strømlækage.

På en måde er Arm's DSU rygraden i TCS23, da den danner grundlaget for, hvordan hver af disse kerner interagerer med hinanden og deler data. Eventuelle forbedringer her vil gavne hele klyngen, men det ser ud til, at de fleste ændringer er relateret til strømforbrug og effektivitet.

Effektivitet er det nye mål

Branchen har tilsyneladende ændret sig i et stykke tid, men det vigtigste første indtryk, jeg får fra disse kerner, er, at effektivitet nu er navnet på spillet. Mens vi fik at vide, hvor meget hurtigere X4-kernen er, og hvordan den er virksomhedens hurtigste kerne nogensinde, de var meget hurtige til at bemærke effektivitetsforbedringerne ved at køre den ved sidste års højeste ydeevne i stedet.

Over hele linjen blev enhver præstationsgevinst underbygget af, hvor meget mere effektiv den komponent også var, og mere eller mindre var alle ændringerne i DSU'en i effektivitet og strømlækage. Ydeevne er vigtig, men det føles virkelig som om branchen som helhed forsøger at blive aktuel beregningsniveauer mere effektive i stedet for at gå efter massive præstationsstigninger år-til-år.

Vi forventer, at disse kerner vil danne grundlaget for MediaTek Dimensity 9400 og Qualcomm Snapdragon 8 Gen 3, men i hvilken form er det endnu uvist. Som tidligere nævnt talte Arm om at bruge et 1+5+3 kernelayout i sin egen interne test, men det betyder ikke, at det er, hvad partnere som MediaTek og Qualcomm selv ønsker at gøre.