Armin uudet Cortex X4, A720 ja A520 ovat vain 64-bittisiä ytimiä, joissa on suuri painopiste tehokkuudessa

Armin uudet ytimet osana sen Total Compute Solution for 2023 -ratkaisua on julkistettu, ja ne ovat melko mielenkiintoisia.

Pikalinkit

Vain 64-bittinen: "Tehtävä suoritettu"

Varsi Cortex-X4: Vielä enemmän suorituskykyä ja parempi tehokkuus

Varsi Cortex-A720: Tasapainottaa suorituskykyä ja virrankulutusta

Varsi Cortex A520: Kaksinkertaistaa tehokkuuden

DSU-120: Jopa 14 ydintä laskennallisesti

Tehokkuus on uusi tavoite

Arm on yritys, joka suunnittelee lähes kaikki prosessoriytimet, joita lopulta käytetään Android-älypuhelimeesi, ja joka vuosi ilmoittaa uusia iteraatioita, jotka löytävät myöhemmin tiensä piirisarjoihin, kuten kyseisen vuoden lippulaiva Snapdragon tai seuraava lippulaiva MediaTek Mittasuhteet. Tänä vuonna se julkaisee lippulaivan Cortex-X4-ytimen, Cortex-A720-suorituskykyytimen ja Cortex-A520-tehokkuusytimen. Nämä ytimet muodostavat perustan yhtiön uusille Arm v9.2 -yhteensopiville suunnitelmille ja yhtiön Total Compute Solution for 2023 -ratkaisulle eli TCS23:lle. Tämän lisäksi näemme myös uuden DynamIQ Shared Unit -yksikön ja päivitetyn Immortalis-G720 GPU: n. Isompi vielä on täydellinen siirtyminen 64-bittiseen tietojenkäsittelyyn, eikä mikään näistä ytimistä tue 32-bittistä.

Kaikki kolme uutta ydintä ovat viime vuoden mikroarkkitehtonisia seuraajia, ja ne keskittyvät ensisijaisesti IPC: n käyttöönottoon ja tehokkuuden parantamiseen.

Vain 64-bittinen: "Tehtävä suoritettu"

Yksi suurimmista muutoksista Armin tämän vuoden Total Compute Solutionissa on siirtyminen vain 64-bittiseen. Vaikka viime vuoden A510R1 tuki 32-bittistä AArch32-suoritustilaa, samoin kuin A710, joka julkaistiin TCS22:n kanssa viime vuonna, tänä vuonna Armin ytimet ovat vain AArch64. Kello on tikittänyt Androidin 32-bittisten sovellusten kohdalla varsinkin siitä lähtien Google on itse velvoittanut päivittämään kaikki sovellukset vuodesta 2019 lähtien ladataan 64-bittisinä binäärinä.

Kuten Arm sanoo, 64-bittistä siirtymää pidetään "tehtävä suoritettuna". Syynä tähän on se, että Kiinan sovellusmarkkinat ovat mitä jarrutti muuta alaa siirtymävaiheessa, mutta suurin osa kiinalaisten sovelluskauppojen sovelluksista on nyt 64-bittisiä, liian.

Syynä viivästymiseen oli homogenisoidun sovellusekosysteemin puute, mikä tarkoittaa, että eri sovelluskaupat vaativat kehittäjiltä erilaisia standardeja. Koska Arm on työskennellyt useiden sovelluskauppojen kanssa Kiinassa, mutta toistuvien varoitusten lisäksi, että muutos tapahtuisi, myös nämä sovelluskaupat ovat rohkaisseet kehittäjiä vaihtamaan.

Nyt on ilmeisesti tullut aika, jolloin tämä siirtymä tapahtuu kokonaisuudessaan, ja kestää vielä muutama kuukausi ennen kuin näemme nämä Arm-ytimet uusissa piirisarjoissa.

Varsi Cortex-X4: Vielä enemmän suorituskykyä ja parempi tehokkuus

Armin X-sarjan ytimet erosivat A-sarjasta useita vuosia sitten, ja filosofiana oli, että se on voimakas ydin, jonka annetaan niellä hieman enemmän tehoa, kun se sitä tarvitsee. Tyypillisesti piirisarjan valmistajat sisällyttävät vain yhden tai kaksi näistä korkeintaan, koska ne ovat tehonnälkäisiä, vaikka heilläkin on kykyjä.

Kuten yllä olevasta kaaviosta näet, Cortex-X4 on tähän mennessä tehokkain Arm-ydin, mutta nämä laskentaominaisuudet tulevat virrankulutuksen kustannuksella. Cortex-X4 on samanlainen kuin viime vuoden X3, ja Armin sanan mukaan sitä voidaan käyttää jopa samoilla taajuuksilla kuin viime vuoden ydin ja kuluttaa jopa 40 % vähemmän virtaa. Se on alle 10 % suurempi fyysisesti kooltaan ja tehokkain koskaan rakennettu Cortex-X-ydin.

Mitä tulee siihen, mistä nämä IPC-parannukset tulevat, X4: een on useita etu- ja taustaparannuksia. Näissä käyttöliittymän parannuksissa tehtiin paljon työtä haaraennusteiden uudelleenkirjoittamiseen ja parantamiseen, koska virheelliset haaraennusteet ovat kallista suorituskyvyn kannalta. Arm lupaa myös, että L2-välimuistin koko 2 Mt tuottaa paremman suorituskyvyn, ei niinkään vertailuissa, vaan tosielämässä.

Uusi Cortex-X4-ydin lisää aritmeettisten logiikkayksiköiden (ALU) määrää kuudesta kahdeksaan ja lisää ylimääräisen haaran yksikkö (yhteensä 3), lisää ylimääräisen Multiply-Accumulatator -yksikön ja liukuviivat liukuluku ja neliöjuuri toiminnot.

Mitä tulee takapäähän, myös useita parannuksia. Kuormavaraston osoitteen luominen on muuttunut kolmesta käskystä neljään sykliä kohden, kun kuormavarastoputki otettiin ja jaettiin. L1:ssä on myös kaksinkertainen käännöspuskuri sekä pankkikonfliktiparannukset.

Kaikki tämä yhdessä tuo vaikuttavaa suorituskykyä Arm's Cortex-X4:ssä. Kaiken kaikkiaan voit odottaa keskimäärin 15 % suorituskyvyn parannusta Cortex-X4:n kanssa. Armin yhteisellä teho- ja suorituskykykäyrällä X4 on X3:a edellä sekä suorituskyvyn että virrankulutuksen osalta. Toisin sanoen tuo 15 % suorituskyvyn parannus tulee melko merkittävään virrankulutukseen. On kuitenkin syytä mainita myös, että se ei ole aivan omenoista omenoihin -vertailu; Cortex-X3:ssa oli viime vuonna 1 Mt L2-välimuistia, mikä tarkoittaa, että jos valmistaja pysyy samana L2-välimuistin kokona tänä vuonna, suorituskyky ei välttämättä paranna 15 prosenttia.

Yksi asia on kuitenkin varma, ja se, että jos käytät X4:ää maksiminopeudella, se on todennäköisesti suuri tehonmurtaja. Saatamme nähdä, että jotkin OEM-valmistajat jatkavat tänä vuonna samoin kuin viime vuonna ja poistavat monia tämän vuoden piirisarjoja laatikosta. Esimerkiksi OnePlus ja Oppo molemmat tekevät tämän, ja näillä tehokkuuden lisäyksillä, kun ne toimivat samalla suorituskykypisteitä kuten X3, on todennäköistä, että näille yrityksille on hyötyä jatkossakin niin. Emme ehkä huomaa 15 %:n suorituskyvyn parantumista kautta linjan, mutta sen sijaan saatamme nähdä lisää tehokkuutta ensi vuoden piirisarjoissa.

Varsi Cortex-A720: Tasapainottaa suorituskykyä ja virrankulutusta

Vaikka Armin X-sarjan ytimien annetaan tyypillisesti pyöriä hieman villiin, A-sarjan ytimien tavoitteena on yleensä tasapainottaa virrankulutus suorituskykyä vastaan. Cortex-A720:lla Arm lupaa 20 % tehokkaamman ytimen, jossa on parannettu suorituskyky samalla teholla kuin viime vuoden A715.

Mitä tulee tämän vuoden A720-parannuksiin, suurin osa niistä on etupäässä. Putkilinjoja on lyhennetty yhdellä syklillä, joka on poistettu haaran väärin ennustemoottorista, ja tämän yhden syklin pudotuksen sanotaan lisäävän vertailuarvoja 1 %. Vertailuarvot johtavat tyypillisesti vähiten sivukonttoreiden vääriin ennusteisiin, mikä tarkoittaa, että tämä todennäköisesti parantaa yleistä reaalimaailman suorituskykyä huomattavasti (mutta suurelta osin mittaamattoman) paljon.

Epäkuntoisessa ytimessä näemme useita rakenteellisia parannuksia, jotka auttavat parantamaan suorituskykyä vaikuttamatta ytimen viemään alueeseen tai sen tehokkuuteen. Ensinnäkin, aivan kuten X4:ssä, liukulukujaot ja neliöjuurioperaatiot on nyt liukuhihnassa. On myös nopeampia siirtoja liukuluku-, NEON- ja SVE2-luvuista kokonaislukuihin ja muita yleisiä parannuksia käsittelyn nopeuttamiseksi.

Arm jakoi yllä olevan kaavion havainnollistaakseen, kuinka A720 verrattuna viime vuoden A715:een suorituskyvyn ja tehokkuuden suhteen, jossa ISO-prosessia ja ISO-taajuutta käytetään SPECint_base2006:ssa. Myös välimuistin koot pysyvät samoina, joten se on pitkälti omenoista omenoihin -vertailu.

Tehonkulutuksen suhteen A720 pysyy pitkälti viime vuoden mallin mukaisena, vaikka se tuo esiin hieman enemmän suorituskykyä samoilla tehotasoilla. A720:ssa, kuten X4:ssä, Arm näyttää keskittyvän enemmän korostamaan, miten se paranee suorituskykyä viime vuoden tehorajoituksista sen sijaan, että jatkuvasti lisättäisiin näiden ytimien tehoa kykenevä.

Varsi Cortex A520: Kaksinkertaistaa tehokkuuden

Tietenkin, kun on kyse Armin ytimistä, kyse ei tietenkään ole suorituskyvystä. Kun X-sarja laittaa kaiken raakaan laskentatehoon ja A7xx tasapainottaa laskentatarpeita ja tehonkulutusta, A5xx-sarja keskittyy puhtaasti tehokkaaseen käsittelyyn. Se on pienin teho aluetta kohti Arm v9.2 -ytimen ja se perustuu samaan yhdistettyyn ytimen arkkitehtuuriin, jonka näimme esitellyn A510:n kanssa.

Tämä yhdistetty ydinarkkitehtuuri tarkoittaa, että jotkin resurssit voidaan jakaa kahden ytimen välillä, joissa voi olla kaksi ydintä ryhmitelty "kompleksiksi". L2-välimuisti, L2-käännöspuskuri ja vektoritietoreitit jaetaan tässä monimutkainen. Selvyyden vuoksi tämä ei tarkoita sitä on niputetaan kahteen ytimeen, ja yhden ytimen kompleksi voidaan koota huippusuorituskykyä varten. Itse asiassa yksi Armin TCS2023-ydinasetteluista, jonka he osoittivat meille, sisälsi yhden X4-ytimen, viisi A720-ydintä ja kolme A520-ydintä, mikä tarkoittaa, että ainakin yksi A520-ydin on erillään.

A520 on tehokkuus etusijalla, ja kuten muutkin ytimet, Arm keskittyi suurelta osin tehokkuuden parantamiseen samoissa tehopisteissä kuin edellinen sukupolvi. Tämä sisältää haaraennusteiden parantamisen ja joidenkin suorituskykyominaisuuksien poistamisen tai pienentämisen. Tämä suorituskyky palautui paremman tehokkuuden ansiosta. Mielenkiintoista on myös, että Arm on poistanut kolmannen ALU: n, joka oli A510:ssä, mikä säästää virtaa logiikan antamisessa ja tulosten välittämisessä.

Tosimaailman tuloksissa näyttää siltä, että A520 ei ole niin suuri hyppy edeltäjiinsä kuin A720 ja X4 ovat. Suuri osa sen ominaisuuksista pienemmillä tehoväleillä menee päällekkäin yllä olevan kaavion A510:n kanssa, ja vain suorituskyvyn ylemmillä tasoilla näemme tehokkuutta. Kahden ytimen suorituskyvyn ja tehon ero on lupaava, mutta on epäselvää, näemmekö todellisia etuja, kun verrataan A520:tä A510:een. Loppujen lopuksi on vaikea mitata kunnolla näiden kahden suorituskyvyn ja tehokkuuden eroja todellisessa maailmassa.

DSU-120: Jopa 14 ydintä laskennallisesti

DynamIQ Shared Unit eli DSU on integroi yksi tai useampi ydin L3-muistijärjestelmään, ohjauslogiikkaan ja ulkoisiin liitäntöihin moniytimisen klusterin muodostamiseksi. Se on pohjimmiltaan Arm's-kudos, jonka avulla kaikki nämä ytimet voivat kommunikoida keskenään ja jakaa resursseja Se on melko tärkeä palapeli jokaiselle piirisarjan valmistajalle, joka haluaa rakentaa sirun Armin ydinmalleilla.

DSU-110:een perustuen Arm on tehnyt DSU-120:een useita parannuksia, jotka hyödyttävät koko sirua, johon se sisältyy. Ensinnäkin klusteria kohden on nyt jopa 14 ydintä (12:sta) ja tuki jopa 32 megatavulle L3-välimuistille. Se myös parantaa huomattavasti tehokkuutta useilla keskeisillä alueilla, mukaan lukien välimuistin puuttuessa, ja vähentää samalla tehovuotoja.

Armin DSU on tavallaan TCS23:n selkäranka, koska se muodostaa perustan sille, miten kukin näistä ytimistä on vuorovaikutuksessa toistensa kanssa ja jakaa tietoja. Kaikki parannukset hyödyttävät koko klusteria, mutta näyttää siltä, että suurin osa muutoksista liittyy virrankulutukseen ja tehokkuuteen.

Tehokkuus on uusi tavoite

Toimiala on ilmeisesti muuttunut jonkin aikaa, mutta tärkein ensivaikutelma, jonka saan näistä ytimistä, on, että tehokkuus on nyt pelin nimi. Samalla kun meille kerrottiin kuinka paljon nopeampi X4-ydin on ja kuinka se on yhtiön kaikkien aikojen nopein ydin, he huomasivat erittäin nopeasti sen käytön tehokkuuden parannukset viime vuoden huipputeholla sen sijaan.

Kaiken kaikkiaan jokainen suorituskyvyn lisäys perustui siihen, kuinka paljon tehokkaampi tämä komponentti oli, ja enemmän tai vähemmän kaikki DSU: n muutokset liittyivät tehokkuuteen ja tehovuotoon. Suorituskyky on tärkeä, mutta tuntuu todella siltä, että koko toimiala yrittää tehdä ajankohtaista laskentatasot tehokkaampia kuin massiivisen suorituskyvyn kasvu vuosi vuodelta.

Odotamme näiden ytimien muodostavan MediaTek Dimensity 9400:n ja Qualcomm Snapdragon 8 Gen 3:n perustan, mutta jää nähtäväksi, missä muodossa. Kuten aiemmin mainittiin, Arm puhui 1+5+3-ydinasettelun käyttämisestä omassa sisäisessä testauksessaan, mutta se ei tarkoita, että kumppanit, kuten MediaTek ja Qualcomm, haluavat tehdä sitä itse.