Armovi novi Cortex X4, A720 in A520 so samo 64-bitna jedra z velikim poudarkom na učinkovitosti

Armova nova jedra kot del njegove Total Compute Solution za leto 2023 so bila objavljena in so precej zanimiva.

hitre povezave

  • Samo 64-bitni: "Misija opravljena"
  • Arm Cortex-X4: Še večja zmogljivost in boljša učinkovitost
  • Arm Cortex-A720: Uravnoteženje zmogljivosti in porabe energije
  • Arm Cortex A520: podvojitev učinkovitosti
  • DSU-120: Do 14 jeder računalniške kakovosti
  • Učinkovitost je novi cilj

Arm je podjetje, ki oblikuje skoraj vsa jedra procesorja, ki se na koncu uporabljajo v vašem pametnem telefonu Android, in vsako leto napoveduje nove ponovitve, ki bodo pozneje našle pot v nabore čipov, kot sta vodilni Snapdragon tistega leta ali naslednji vodilni MediaTek Razsežnost. Letos izdaja vodilno jedro Cortex-X4, zmogljivo jedro Cortex-A720 in učinkovito jedro Cortex-A520. Ta jedra tvorijo osnovo za nove združljive zasnove podjetja Arm v9.2 in celotno računalniško rešitev podjetja za leto 2023 ali TCS23. Poleg tega vidimo tudi novo skupno enoto DynamIQ in posodobljen GPU Immortalis-G720. Še večji pa je popoln prehod na 64-bitno računalništvo, pri čemer nobeno od teh jeder ne podpira 32-bitnega.

Vsa tri nova jedra so mikroarhitekturni nasledniki lanskih in so osredotočena predvsem na uvedbo IPC in povečanje učinkovitosti.

Samo 64-bitni: "Misija opravljena"

Ena največjih sprememb letošnje rešitve Total Compute Solution podjetja Arm je prehod na samo 64-bitno različico. Medtem ko je lanskoletni A510R1 podpiral 32-bitni način izvajanja AArch32, tako kot A710, ki je bil lansiran s TCS22 lani, so letos Armova jedra samo AArch64. Ura tiktaka za 32-bitne aplikacije v sistemu Android, zlasti od takrat Google je sam zahteval posodobitev vseh aplikacij od leta 2019 so naloženi kot 64-bitne binarne datoteke.

Kot pravi Arm, se 64-bitni prehod šteje za "misija opravljena." Razlog za to je, da je kitajski trg aplikacij kaj zadržala preostalo industrijo pri tranziciji, vendar je velika večina aplikacij v kitajskih trgovinah z aplikacijami zdaj 64-bitno skladnih, preveč.

Razlog za zamudo je bilo pomanjkanje homogeniziranega ekosistema aplikacij, kar pomeni, da so različne trgovine z aplikacijami zahtevale različne standarde razvijalcev. Ker je Arm sodeloval z različnimi trgovinami z aplikacijami na Kitajskem, so te trgovine z aplikacijami poleg ponavljajočih se opozoril, da bo prišlo do spremembe, spodbujale tudi razvijalce, da zamenjajo.

Zdi se, da je zdaj prišel čas, da se ta prehod zgodi v celoti, in tako ali tako bo minilo še nekaj mesecev, dokler ne bomo videli teh jeder Arm v novih naborih čipov.

Arm Cortex-X4: Še večja zmogljivost in boljša učinkovitost

Armova serija jeder X se je pred nekaj leti ločila od serije A, pri čemer je bila filozofija, da gre za zmogljivo jedro, ki lahko požre nekaj več moči, ko jo potrebuje. Običajno bodo proizvajalci naborov čipov vključili največ enega ali dva od teh, saj so lačni energije, kljub zmogljivostim, ki jih imajo.

Kot lahko vidite iz zgornjega grafa, je Cortex-X4 najzmogljivejše jedro Arm doslej, vendar te računske zmogljivosti prihajajo na račun porabe energije. Cortex-X4 je podoben lanskoletnemu X3 in, kot pravi Arm, lahko celo deluje na enakih frekvencah kot lansko jedro in porabi do 40 % manj energije. Je manj kot 10 % večji v fizični velikosti in najučinkovitejše jedro Cortex-X, kar jih je bilo kdaj zgrajeno.

Glede tega, od kod prihajajo te izboljšave IPC, obstajajo številne izboljšave sprednjega in zadnjega dela X4. Pri teh sprednjih izboljšavah je bilo veliko dela vloženega v ponovno pisanje in izboljšanje napovedi vej, saj so nepravilne napovedi vej drage, kar zadeva zmogljivost. Arm tudi obljublja, da velikost predpomnilnika L2 2 MB zagotavlja višjo zmogljivost, ne toliko v merilih uspešnosti, ampak v resnični uporabi.

Novo jedro Cortex-X4 poveča število aritmetično logičnih enot (ALU) s 6 na 8, doda dodatno vejo enoto (za skupno 3), doda dodatno enoto Multiply-Accumulatator in napelje plavajočo vejico in kvadratni koren operacije.

Kar zadeva zadnji del, je tudi tu nekaj izboljšav. Generiranje naslovov shranjevanja nalaganja se je spremenilo s treh navodil na štiri na cikel, saj je bila cev shranjevanja vzeta in razdeljena. V L1 je tudi podvojen medpomnilnik za prevajanje, skupaj z izboljšavami glede bančnih sporov.

Vse to se združi, da prinese nekaj impresivnega dviga zmogljivosti v Arm's Cortex-X4. Na splošno lahko pričakujete povprečno 15-odstotno izboljšanje zmogljivosti s Cortex-X4. V krivulji moči in zmogljivosti, ki si jo deli Arm, je X4 pred X3 tako glede zmogljivosti kot porabe energije. Z drugimi besedami, ta 15-odstotna izboljšava zmogljivosti je povezana s precejšnjo porabo energije. Omeniti velja tudi, da to ni ravno primerjava jabolk z jabolki; Cortex-X3 je bil lani opremljen z 1 MB predpomnilnika L2, kar pomeni, da če se proizvajalec letos drži enake velikosti predpomnilnika L2, ni nujno, da bo prišlo do 15-odstotnega povečanja zmogljivosti.

Ena stvar pa je gotova, in to je, da če uporabljate X4 pri največji hitrosti, bo verjetno velik požiralec energije. Letos bomo morda videli, da bodo nekateri proizvajalci originalne opreme nadaljevali s tem, kar so počeli lani, in zadušili številne letošnje nabore čipov takoj po začetku. Na primer, OnePlus in Oppo to počneta in s temi povečanji energetske učinkovitosti, ko delujeta istočasno točk zmogljivosti kot X3, je verjetno, da bodo ta podjetja še naprej imela koristi torej. Morda ne bomo opazili tega 15-odstotnega povečanja zmogljivosti na vseh področjih, lahko pa bomo videli nadaljnje izboljšave učinkovitosti za nabore čipov naslednje leto.

Arm Cortex-A720: Uravnoteženje zmogljivosti in porabe energije

Medtem ko so Armova serija jeder X običajno nekoliko divja, je cilj serije jeder A običajno uravnotežiti porabo energije in zmogljivost. Z Cortex-A720 Arm obljublja 20 % bolj učinkovito jedro, s povečano zmogljivostjo pri enaki moči kot A715 iz lanskega leta.

Glede na to, od kod izvirajo letošnje izboljšave A720, jih je večina v sprednjem delu. Cevovodi so bili skrajšani z enim ciklom, odstranjenim iz mehanizma napačnega predvidevanja vej, pri čemer naj bi ta padec v enem ciklu predstavljal 1-odstotno zvišanje meril uspešnosti. Primerjalna merila običajno povzročijo najmanj napačnih napovedi veje, kar pomeni, da bo to verjetno izboljšalo splošno uspešnost v realnem svetu za pomembnejši (vendar večinoma neizmerljiv) znesek.

V jedru, ki ni v redu, vidimo številne strukturne izboljšave, ki pomagajo izboljšati zmogljivost, ne da bi to vplivalo na območje, ki ga jedro zaseda, ali njegovo učinkovitost. Za začetek, tako kot v X4, so operacije deljenja s plavajočo vejico in kvadratnega korena zdaj cevovodne. Na voljo so tudi hitrejši prenosi iz števil s plavajočo vejico, NEON in SVE2 na cela števila ter druge splošne izboljšave za pospešitev obdelave.

Arm je delil zgornji graf za ponazoritev primerjave A720 z lanskoletnim A715 glede zmogljivosti in učinkovitosti, kjer sta v SPECint_base2006 uporabljena postopek ISO in frekvenca ISO. Tudi velikosti predpomnilnika ostajajo enake, tako da gre v veliki meri za primerjavo jabolk z jabolki.

Kar zadeva porabo energije, A720 ostaja precej v skladu z lanskim modelom, čeprav zagotavlja nekoliko večjo zmogljivost pri enakih ravneh moči. Zdi se, da se Arm pri A720, tako kot pri X4, bolj osredotoča na poudarjanje, kako postaja boljši zmogljivosti glede na lanskoletne omejitve moči, namesto da bi nenehno povečevali moč teh jeder zmožen.

Arm Cortex A520: podvojitev učinkovitosti

Seveda, ko gre za Armova jedra, ni vse v zmogljivosti. S serijo X, ki vse postavlja v surovo računalniško moč, A7xx pa uravnoteži računalniške potrebe in porabo energije, se serija A5xx osredotoča izključno na učinkovito obdelavo. To je jedro Arm v9.2 z najnižjo porabo energije na območje in temelji na isti arhitekturi združenega jedra, ki smo jo videli predstavljeno z A510.

Ta združena jedrna arhitektura pomeni, da se lahko nekateri viri delijo med dvema jedroma, kjer sta lahko dve jedri združeni v "kompleks". Znotraj tega so v skupni rabi predpomnilnik L2, vmesni pomnilnik L2 za ogled prevajanja in vektorske podatkovne poti kompleksen. Da bo jasno, to ne pomeni ima združiti v dve jedri, enojedrni kompleks pa je mogoče sestaviti za vrhunsko zmogljivost. Pravzaprav je ena od postavitev jedra Arm TCS2023, ki so nam jo pokazali, vključevala eno jedro X4, pet jeder A720 in tri jedra A520, kar pomeni, da je vsaj eno jedro A520 izolirano.

A520 je zasnova, ki je na prvem mestu učinkovitost, in tako kot druga jedra se je Arm osredotočil predvsem na izboljšanje te učinkovitosti pri enakih točkah moči kot zadnja generacija. To vključuje izboljšanje napovedi vej, hkrati pa tudi odstranitev ali zmanjšanje nekaterih funkcij delovanja. Ta zmogljivost je bila posledično obnovljena z večjo učinkovitostjo. Zanimivo je tudi to, da je Arm odstranil tretji ALU, ki je bil v A510, s čimer je prihranil energijo pri izdajanju logike in posredovanju rezultatov.

Glede na rezultate v resničnem svetu se zdi, da A520 ni tako velik skok od svojih predhodnikov kot A720 in X4. Velik del njegovih zmogljivosti pri nižjih intervalih moči se prekriva z A510 iz zgornjega grafa in le pri višjih stopnjah zmogljivosti vidimo povečanje učinkovitosti. Razlika v zmogljivosti in moči med obema jedroma je obetavna, vendar ni jasno, ali bomo pri primerjavi A520 z A510 videli kakršne koli dejanske prednosti v resničnem svetu. Navsezadnje je težko dejansko pravilno izmeriti razlike v zmogljivosti in učinkovitosti med obema v resničnem svetu.

DSU-120: Do 14 jeder računalniške kakovosti

Skupna enota DynamIQ ali DSU združuje eno ali več jeder s pomnilniškim sistemom L3, krmilno logiko in zunanjimi vmesniki, da se tvori večjedrna gruča. V bistvu je Armova tkanina tista, ki vsem tem jedrom omogoča medsebojno komunikacijo in skupno rabo virov ter tako je dokaj pomemben del sestavljanke za vsakega proizvajalca čipov, ki želi zgraditi čip z Armovimi osnovnimi zasnovami.

Na podlagi DSU-110 je Arm naredil številne izboljšave DSU-120, ki bodo koristile celotnemu čipu, v katerega je vključen. Za začetek je zdaj na voljo do 14 jeder na gručo (z 12) in podpora za do 32 MB predpomnilnika L3. Prav tako močno izboljša učinkovitost na številnih ključnih področjih, vključno v primeru napak v predpomnilniku, hkrati pa zmanjša uhajanje energije.

Na nek način je Armov DSU hrbtenica TCS23, saj tvori osnovo, kako vsako od teh jeder medsebojno deluje in si izmenjuje podatke. Vse izboljšave tukaj bodo koristile celotnemu grozdu, vendar se zdi, da je večina sprememb povezanih s porabo energije in učinkovitostjo.

Učinkovitost je novi cilj

Zdi se, da se industrija že nekaj časa spreminja, vendar je glavni prvi vtis, ki ga dobim od teh jeder, ta, da je učinkovitost zdaj glavna stvar. Medtem ko so nam povedali, koliko hitrejše je jedro X4 in kako je to najhitrejše jedro podjetja doslej, zelo hitro so opazili izboljšave učinkovitosti, ki jih je povzročila lanskoletna največja uspešnost namesto tega.

Na splošno je bilo vsako povečanje zmogljivosti podprto s tem, koliko bolj učinkovita je bila tudi ta komponenta, bolj ali manj pa so bile vse spremembe DSU v učinkovitosti in uhajanju moči. Učinkovitost je pomembna, vendar se resnično zdi, kot da si industrija kot celota prizadeva postati aktualna ravneh računalništva učinkovitejši, namesto da bi šli k ogromnemu povečanju zmogljivosti iz leta v leto.

Pričakujemo, da bodo ta jedra oblikovala osnovo MediaTek Dimensity 9400 in Qualcomm Snapdragon 8 Gen 3, v kakšni obliki pa bomo še videli. Kot je bilo že omenjeno, je Arm govoril o uporabi jedrne postavitve 1+5+3 v lastnem notranjem testiranju, vendar to ne pomeni, da partnerji, kot sta MediaTek in Qualcomm, to želijo narediti sami.