Arms nye Cortex X4, A720 og A520 er kun 64-bits kjerner med stort fokus på effektivitet

Arms nye kjerner som en del av Total Compute Solution for 2023 har blitt annonsert, og de er ganske interessante.

Hurtigkoblinger

  • Kun 64-bit: "Oppdrag fullført"
  • Arm Cortex-X4: Enda mer ytelse og bedre effektivitet
  • Arm Cortex-A720: Balanserer ytelse og strømforbruk
  • Arm Cortex A520: Dobling av effektiviteten
  • DSU-120: Opptil 14 kjerner med beregningsmessig godhet
  • Effektivitet er det nye målet

Arm er selskapet som designer stort sett alle CPU-kjernene som ender opp med å bli brukt i Android-smarttelefonen din, og hvert år kunngjør nye iterasjoner som senere vil finne veien til brikkesett som årets flaggskip Snapdragon eller det neste flaggskipet MediaTek Dimensjon. I år slipper den en flaggskip Cortex-X4-kjerne, en Cortex-A720 ytelseskjerne og en Cortex-A520 effektivitetskjerne. Disse kjernene danner grunnlaget for selskapets nye Arm v9.2-kompatible design og selskapets Total Compute Solution for 2023, eller TCS23. På toppen av det ser vi også en ny DynamIQ Shared Unit og en oppdatert Immortalis-G720 GPU. Større fortsatt er en fullstendig overgang mot 64-bit databehandling, med ingen av disse kjernene som støtter 32-bit.

Alle de tre nye kjernene er mikroarkitektoniske etterfølgere til fjorårets og er først og fremst fokusert på å introdusere IPC og effektivitetsgevinster.

Kun 64-bit: "Oppdrag fullført"

En av de største endringene i årets Total Compute Solution fra Arm er overgangen til kun 64-bit. Mens fjorårets A510R1 støttet 32-biters AArch32-utførelsesmodus, det samme gjorde A710 som ble lansert med TCS22 i fjor, i år er Arms kjerner bare AArch64. Klokken har tikker for 32-bits applikasjoner på Android, spesielt siden Google har selv pålagt at alle apper skal oppdateres siden 2019 lastes opp som 64-bits binærfiler.

Som Arm uttrykker det, anses 64-biters overgangen som "oppdraget fullført". Grunnen til dette er at det kinesiske appmarkedet er hva holdt tilbake resten av industrien i overgangen, men de aller fleste appene i kinesiske appbutikker er nå 64-biters kompatible, også.

Årsaken til forsinkelsen var mangelen på et homogenisert applikasjonsøkosystem, noe som betyr at forskjellige appbutikker krevde forskjellige standarder for utviklere. Ettersom Arm har jobbet med forskjellige appbutikker i Kina, sammen med gjentatte advarsler om at et skifte ville skje, har disse appbutikkene oppmuntret utviklere til å bytte også.

Tiden har nå tilsynelatende kommet for at overgangen skal skje i sin helhet, og det vil uansett gå noen måneder til vi ser disse Arm-kjernene i nye brikkesett.

Arm Cortex-X4: Enda mer ytelse og bedre effektivitet

Arms X-serie med kjerner skilte seg fra A-serien for flere år siden, med filosofien at det er en kraftig kjerne som får sluke litt mer kraft når den trenger det. Vanligvis vil brikkesettprodusenter bare inkludere én eller to av disse maksimalt, siden de er strømsyke, selv til tross for mulighetene de også har.

Som du kan se fra grafen ovenfor, er Cortex-X4 den kraftigste Arm-kjernen til nå, men disse beregningsmulighetene går på bekostning av strømforbruk. Cortex-X4 ligner fjorårets X3, og som Arm uttrykker det, kan den til og med kjøres på samme frekvenser som fjorårets kjerne og bruke opptil 40 % mindre strøm. Den er mindre enn 10 % større i fysisk størrelse og den mest effektive Cortex-X-kjernen som noen gang er bygget.

Når det gjelder hvor disse IPC-forbedringene kommer fra, er det en rekke front-end- og back-end-forbedringer til X4. I disse frontend-forbedringene ble det lagt ned mye arbeid i å omskrive og forbedre grenprediksjoner, ettersom feil grenprediksjoner er kostbare, ytelsesmessig. Arm lover også at en L2-bufferstørrelse på 2MB gir høyere ytelse, ikke så mye i benchmarks, men i bruk i den virkelige verden.

Den nye Cortex-X4-kjernen øker antallet aritmetiske logiske enheter (ALU) fra 6 til 8, legger til en ekstra gren enhet (for totalt 3), legger til en ekstra Multiply-Accumulator-enhet, og rørledninger med flytepunkt og kvadratrot operasjoner.

Når det gjelder bakenden, er det også en rekke forbedringer. Generering av lastlageradresser har gått fra tre instruksjoner til fire per syklus, ettersom lastlagerrøret ble tatt og delt opp. Det er også en doblet oversettelsesbuffer i L1, sammen med forbedringer av bankkonflikt.

Alt dette kommer sammen for å gi noen imponerende ytelsesløft i Arms Cortex-X4. Alt i alt kan du forvente et gjennomsnitt på 15 % ytelsesforbedring med Cortex-X4. I kraft- og ytelseskurven som deles av Arm, strekker X4 seg foran X3 både i ytelse og strømforbruk. Med andre ord, den 15 % ytelsesforbedringen kommer ved et ganske betydelig strømforbruk. Det er også verdt å nevne at det ikke er en sammenligning mellom epler og epler. Cortex-X3 kom med 1 MB L2-cache i fjor, noe som betyr at dersom en produsent holder seg til den samme L2-cache-størrelsen i år, vil det ikke nødvendigvis være en ytelsesøkning på 15 %.

En ting er imidlertid sikkert, og det er at hvis du kjører X4 med maksimal hastighet, vil det sannsynligvis være en stor kraftsluker. Vi kan se noen OEM-er i år fortsette å gjøre det de gjorde i fjor og strupe mange av årets brikkesett ut av esken. For eksempel gjør både OnePlus og Oppo dette, og med disse gevinstene når de kjører samtidig ytelsespoeng som X3, er det sannsynlig at det vil være fordeler for disse selskapene å fortsette å gjøre så. Vi ser kanskje ikke den 15 % ytelsesøkningen over hele linja, men vi kan se ytterligere effektivitetsforbedringer i stedet for neste års brikkesett.

Arm Cortex-A720: Balanserer ytelse og strømforbruk

Mens Arms X-serie med kjerner vanligvis lar seg løpe litt vilt, har A-serien med kjerner vanligvis som mål å balansere strømforbruk mot ytelse. Med Cortex-A720 lover Arm en 20 % mer effektiv kjerne, med økt ytelse med samme kraft som A715 fra i fjor.

Når det gjelder hvor årets A720-forbedringer kommer fra, er de fleste av dem i frontenden. Rørledninger har blitt forkortet med én syklus fjernet fra grenen feilforutsig motor, med dette enkelt syklus fall sies å stå for en 1% økning i benchmarks. Benchmarks resulterer vanligvis i færrest feilforutsigelser av grenen, noe som betyr at dette sannsynligvis vil forbedre den generelle ytelsen i den virkelige verden med en mer betydelig (men stort sett umålelig) mengde.

I den uordnede kjernen ser vi en rekke strukturelle forbedringer som bidrar til å forbedre ytelsen uten å påvirke området som tas opp av kjernen eller dens effektivitet. For det første, akkurat som i X4, er flytende punktdelinger og kvadratrotoperasjoner nå rørlagt. Det er også raskere overføringer fra flyttall-, NEON- og SVE2-tall til heltall og andre generelle forbedringer for å øke hastigheten på behandlingen.

Arm delte grafen ovenfor for å illustrere hvordan A720 sammenligner med fjorårets A715 i ytelse og effektivitet, der en ISO-prosess og ISO-frekvens brukes i SPECint_base2006. Bufferstørrelser forblir også de samme, så det er mye en epler-til-epler-sammenligning.

Når det gjelder strømforbruk, forblir A720 mye på linje med fjorårets modell, selv om den gir litt mer ytelse på de samme effektnivåene. Med A720, som med X4, ser det ut til at Arm fokuserer mer på å fremheve hvordan den blir bedre ytelse ut av fjorårets kraftbegrensninger i stedet for å kontinuerlig øke kraften som disse kjernene er i stand til.

Arm Cortex A520: Dobling av effektiviteten

Når det kommer til Arms kjerner, handler det selvfølgelig ikke om ytelse. Med X-serien som legger alt inn i rå datakraft og A7xx balanserer beregningsbehov og krafttrekk, fokuserer A5xx-serien utelukkende på effektiv prosessering. Det er den laveste kraften per område Arm v9.2-kjernen og bygger på den samme sammenslåtte kjernearkitekturen som vi så introdusert med A510.

Hva denne sammenslåtte kjernearkitekturen betyr er at noen ressurser kan deles mellom to kjerner, der to kjerner kan deles gruppert i et "kompleks". L2-bufferen, L2-oversettelsesbufferen og vektordatabaner deles innenfor denne kompleks. For å være tydelig, betyr ikke dette det har skal pakkes sammen i to kjerner, og et enkjernekompleks kan settes sammen for topp ytelse. Faktisk involverte en av Arms TCS2023-kjerneoppsett som de viste oss en enkelt X4-kjerne, fem A720-kjerner og tre A520-kjerner, noe som betyr at minst én A520-kjerne er isolert.

A520 er en effektivitet-først-design, og i likhet med de andre kjernene, fokuserte Arm i stor grad på å forbedre effektiviteten ved de samme kraftpunktene som forrige generasjon. Dette inkluderer å forbedre grenprediksjoner samtidig som du fjerner eller skalerer ned noen ytelsesfunksjoner. Denne ytelsen ble gjenvunnet gjennom større effektivitet som et resultat. Interessant nok har Arm også fjernet den tredje ALU-en som var i A510, og sparer strøm ved å gi logikk og videresending av resultater.

I virkelige resultater ser det ut til at A520 ikke er et like stort hopp fra forgjengerne som A720 og X4 er. Mye av dens evner ved lavere strømintervaller overlapper med A510 fra grafen ovenfor, og det er kun i de øvre sjiktene av ytelse vi ser effektivitetsgevinster. Divergensen i ytelse og kraft mellom de to kjernene er lovende, men det er uklart om vi vil se noen faktiske fordeler i den virkelige verden når vi sammenligner A520 med A510. Tross alt er det vanskelig å faktisk måle ytelse og effektivitetsforskjeller mellom de to i den virkelige verden.

DSU-120: Opptil 14 kjerner med beregningsmessig godhet

DynamIQ Shared Unit, eller DSU, er en integrerer en eller flere kjerner med et L3-minnesystem, kontrolllogikk og eksterne grensesnitt for å danne en flerkjerneklynge. Det er i hovedsak Arms stoff som gjør at alle disse kjernene kan kommunisere med hverandre og dele ressurser, og som slik, det er en ganske viktig del av puslespillet for enhver brikkesettprodusent som ønsker å bygge en brikke med Arms kjernedesign.

Arm har bygget på DSU-110 og har gjort en rekke forbedringer til DSU-120 som vil tjene til fordel for hele brikken den er inkludert på. For det første er det nå opptil 14 kjerner per klynge (opp fra 12) og støtte for opptil 32 MB L3-cache. Det forbedrer også effektiviteten betydelig på en rekke nøkkelområder, inkludert i tilfelle cache-misser, samtidig som det reduserer strømlekkasje.

På en måte er Arms DSU ryggraden i TCS23, da den danner grunnlaget for hvordan hver av disse kjernene samhandler med hverandre og deler data. Eventuelle forbedringer her vil komme hele klyngen til gode, men det ser ut til at de fleste endringene er relatert til strømforbruk og effektivitet.

Effektivitet er det nye målet

Bransjen har tilsynelatende endret seg en stund, men det viktigste førsteinntrykket jeg får fra disse kjernene er at effektivitet nå er navnet på spillet. Mens vi ble fortalt om hvor mye raskere X4-kjernen er og hvordan den er selskapets raskeste kjerne noensinne, de var veldig raske til å merke seg effektivitetsforbedringene ved å kjøre den ved fjorårets toppytelse i stedet.

Over hele linjen ble hver ytelsesgevinst underbygget av hvor mye mer effektiv den komponenten også var, og mer eller mindre var alle endringene i DSU-en i effektivitet og strømlekkasje. Ytelse er viktig, men det føles virkelig som om bransjen som helhet prøver å bli aktuell beregningsnivåer mer effektive i stedet for å gå for massive ytelsesøkninger fra år til år.

Vi forventer at disse kjernene vil danne grunnlaget for MediaTek Dimensity 9400 og Qualcomm Snapdragon 8 Gen 3, men i hvilken form gjenstår å se. Som tidligere nevnt snakket Arm om å bruke en 1+5+3 kjernelayout i sin egen interne testing, men det betyr ikke at det er det partnere som MediaTek og Qualcomm ønsker å gjøre selv.