Arm jaunie Cortex X4, A720 un A520 ir tikai 64 bitu kodoli ar lielu uzsvaru uz efektivitāti

Ir paziņoti par Arm jaunajiem kodoliem, kas ir daļa no tā Total Compute Solution 2023. gadam, un tie ir diezgan interesanti.

Ātrās saites

  • Tikai 64 bitu versija: "Uzņēmums izpildīts"
  • Arm Cortex-X4: vēl lielāka veiktspēja un labāka efektivitāte
  • Arm Cortex-A720: līdzsvaro veiktspēju un enerģijas patēriņu
  • Arm Cortex A520: efektivitātes dubultošana
  • DSU-120: līdz 14 skaitļošanas kodoliem
  • Efektivitāte ir jaunais mērķis

Arm ir uzņēmums, kas izstrādā gandrīz visus CPU kodolus, kas galu galā tiek izmantoti jūsu Android viedtālrunī, un katru gadu paziņo par jaunām iterācijām, kas vēlāk nonāks mikroshēmojumos, piemēram, tā gada vadošajā Snapdragon vai nākamajā vadošajā MediaTek Izmērs. Šogad tas izlaiž vadošo Cortex-X4 kodolu, Cortex-A720 veiktspējas kodolu un Cortex-A520 efektivitātes kodolu. Šie kodoli veido pamatu uzņēmuma jaunajiem ar Arm v9.2 saderīgiem dizainparaugiem un uzņēmuma Total Compute Solution 2023. gadam jeb TCS23. Papildus tam mēs redzam arī jaunu DynamIQ Shared Unit un atjauninātu Immortalis-G720 GPU. Vēl svarīgāk ir pilnīga pāreja uz 64 bitu skaitļošanu, un neviens no šiem kodoliem neatbalsta 32 bitu.

Visi trīs jaunie kodoli ir pagājušā gada mikroarhitektūras pēcteči, un tie galvenokārt ir vērsti uz IPC ieviešanu un efektivitātes palielināšanu.

Tikai 64 bitu versija: "Uzņēmums izpildīts"

Viena no lielākajām izmaiņām šī gada Arm Total Compute Solution ir pāreja tikai uz 64 bitu versiju. Lai gan pagājušā gada A510R1 atbalstīja 32 bitu AArch32 izpildes režīmu, tāpat kā A710, kas tika palaists ar TCS22 pagājušajā gadā, šogad Arm kodoli ir tikai AArch64. Pulkstenis ir tikšķējis 32 bitu lietojumprogrammām operētājsistēmā Android, īpaši kopš tā laika Pats Google ir noteicis, ka visas lietotnes ir jāatjaunina kopš 2019. gada tiek augšupielādēti kā 64 bitu binārie faili.

Kā Arms saka, 64 bitu pāreja tiek uzskatīta par "misiju izpildītu". Iemesls tam ir tas, ka Ķīnas lietotņu tirgus ir kas pārejas posmā kavēja pārējo nozari, taču lielākā daļa Ķīnas lietotņu veikalos esošo lietotņu tagad ir saderīgas ar 64 bitiem, arī.

Kavēšanās iemesls bija homogenizētas lietojumprogrammu ekosistēmas trūkums, kas nozīmē, ka dažādiem lietotņu veikaliem bija nepieciešami atšķirīgi izstrādātāju standarti. Tā kā Arm ir sadarbojies ar dažādiem lietotņu veikaliem Ķīnā, tomēr līdz ar atkārtotiem brīdinājumiem, ka notiks pārmaiņas, šie lietotņu veikali ir mudinājuši arī izstrādātājus mainīties.

Šķietami ir pienācis laiks šai pārejai pilnībā notikt, un jebkurā gadījumā paies vēl daži mēneši, līdz mēs redzēsim šos Arm kodolus jaunos mikroshēmojumos.

Arm Cortex-X4: vēl lielāka veiktspēja un labāka efektivitāte

Arm's X serdeņu sērija atšķīrās no tās A sērijas pirms vairākiem gadiem, un filozofija bija tāda, ka tas ir jaudīgs kodols, kam ir atļauts uzņemt mazliet vairāk enerģijas, kad tas ir nepieciešams. Parasti mikroshēmojumu veidotāji iekļaus tikai vienu vai divus no tiem, jo ​​tie ir izsalkuši no enerģijas, pat neskatoties uz to iespējām.

Kā redzams no iepriekšējā grafika, Cortex-X4 ir pagaidām jaudīgākais Arm kodols, taču šīs skaitļošanas iespējas ir saistītas ar enerģijas patēriņa cenu. Cortex-X4 ir līdzīgs pagājušā gada X3, un, kā izteicies Arms, to pat var darbināt ar tādām pašām frekvencēm kā pagājušā gada kodols un izmantot līdz pat 40% mazāk enerģijas. Tas ir mazāk nekā par 10% lielāks fiziskajā izmērā un visefektīvākais Cortex-X kodols, kāds jebkad ir uzbūvēts.

Runājot par to, no kurienes nāk šie IPC uzlabojumi, X4 ir vairāki priekšgala un aizmugures uzlabojumi. Šajos priekšgala uzlabojumos tika ieguldīts liels darba apjoms, lai pārrakstītu un uzlabotu filiāles prognozes, jo nepareizas filiāles prognozes ir dārgas un veiktspējas ziņā. Arm arī sola, ka L2 kešatmiņas lielums 2 MB nodrošina lielāku veiktspēju ne tik daudz etalonos, bet gan reālajā lietošanā.

Jaunais Cortex-X4 kodols palielina aritmētisko loģisko vienību (ALU) skaitu no 6 līdz 8, pievieno papildu atzaru vienība (kopā 3), pievieno papildu reizināšanas akumulatoru bloku un cauruļvadus peldošā komata un kvadrātsaknes operācijas.

Attiecībā uz aizmuguri ir arī vairāki uzlabojumi. Iekraušanas noliktavas adreses ģenerēšana ir mainījusies no trim instrukcijām līdz četrām instrukcijām ciklā, jo tika paņemta un sadalīta iekraušanas krātuves caurule. L1 versijā ir arī dubultots tulkošanas buferis, kā arī banku konfliktu uzlabojumi.

Tas viss kopā rada iespaidīgu Arm's Cortex-X4 veiktspējas uzlabošanos. Kopumā ar Cortex-X4 var sagaidīt veiktspējas uzlabošanos vidēji par 15%. Arm kopīgā jaudas un veiktspējas līknē X4 apsteidz X3 gan veiktspējas, gan enerģijas patēriņa ziņā. Citiem vārdiem sakot, šis 15% veiktspējas uzlabojums rada diezgan ievērojamu enerģijas patēriņu. Tomēr ir vērts pieminēt arī to, ka tas nav gluži ābolu salīdzinājums; Cortex-X3 pagājušajā gadā tika aprīkots ar 1 MB L2 kešatmiņas, kas nozīmē, ka, ja ražotājs šogad pieturēsies pie tāda paša L2 kešatmiņas lieluma, veiktspēja var nebūt uzlabota par 15%.

Tomēr viena lieta ir droša, un, ja jūs braucat ar X4 ar maksimālo ātrumu, tas, iespējams, būs liels jaudas zaglis. Mēs varam redzēt, ka daži oriģinālo iekārtu ražotāji šogad turpinās darīt to pašu, ko viņi darīja pagājušajā gadā, un daudzus šī gada mikroshēmojumus izņem no kastes. Piemēram, gan OnePlus, gan Oppo to dara, kā arī palielina jaudas efektivitātes pieaugumu, vienlaikus darbojoties veiktspējas punktus, piemēram, X3, iespējams, ka šiem uzņēmumiem būs priekšrocības, ko turpināt darīt tātad. Mēs, iespējams, nepamanīsim šo 15% veiktspējas pieaugumu, taču tā vietā mēs varam redzēt turpmākus efektivitātes uzlabojumus nākamā gada mikroshēmojumos.

Arm Cortex-A720: līdzsvaro veiktspēju un enerģijas patēriņu

Lai gan Arm's X serdeņu sērija parasti ir nedaudz brīva, A sērijas kodolu mērķis parasti ir līdzsvarot enerģijas patēriņu un veiktspēju. Ar Cortex-A720 Arm sola par 20% efektīvāku kodolu ar lielāku veiktspēju ar tādu pašu jaudu kā A715 no pagājušā gada.

Runājot par to, no kurienes nāk šī gada A720 uzlabojumi, lielākā daļa no tiem ir priekšgalā. Cauruļvadi ir saīsināti ar vienu ciklu, kas noņemts no nepareizas prognozēšanas dzinēja, un tiek uzskatīts, ka šis viena cikla kritums ir saistīts ar etalonu pieaugumu par 1%. Etaloni parasti rada vismazāko filiāļu nepareizo prognozēšanu, kas nozīmē, ka tas, iespējams, uzlabos vispārējo reālo veiktspēju par būtiskāku (bet lielākoties neizmērojamu) summu.

Ārpus sakārtotā kodolā mēs redzam vairākus strukturālus uzlabojumus, kas palīdz uzlabot veiktspēju, neietekmējot kodola aizņemto laukumu vai tā efektivitāti. Iesācējiem, tāpat kā X4, peldošā komata dalīšanas un kvadrātsaknes darbības tagad ir konveijera. Ir arī ātrāka pārsūtīšana no peldošā komata, NEON un SVE2 skaitļiem uz veseliem skaitļiem un citi vispārēji uzlabojumi, lai paātrinātu apstrādi.

Arm dalījās ar iepriekš redzamo grafiku, lai ilustrētu, kā A720 salīdzinājumā ar pagājušā gada A715 veiktspēju un efektivitāti, kur SPECint_base2006 tiek izmantots ISO process un ISO frekvence. Kešatmiņas izmēri arī paliek nemainīgi, tāpēc tas ir ļoti daudz ābolu salīdzinājums.

Enerģijas patēriņa ziņā A720 joprojām lielā mērā atbilst pagājušā gada modelim, lai gan tas izceļas ar nedaudz lielāku veiktspēju ar tādiem pašiem jaudas līmeņiem. Ar A720, tāpat kā ar X4, Arm, šķiet, vairāk koncentrējas uz to, lai izceltu, kā tas kļūst labāks veiktspēju no pagājušā gada jaudas ierobežojumiem, nevis nepārtraukti palielinot šo kodolu jaudu spējīgs uz.

Arm Cortex A520: efektivitātes dubultošana

Protams, runājot par Arm's kodoliem, viss nav atkarīgs no veiktspējas. Ar X sēriju, kurā viss tiek izmantots neapstrādātajā skaitļošanas jaudā, un A7xx līdzsvaro skaitļošanas vajadzības un enerģijas patēriņu, A5xx sērija koncentrējas tikai uz efektīvu apstrādi. Tā ir Arm v9.2 kodola mazākā jauda uz apgabalu, un tā balstās uz to pašu apvienoto kodolu arhitektūru, ko mēs redzējām ar A510.

Šī apvienotā pamata arhitektūra nozīmē to, ka dažus resursus var koplietot starp diviem kodoliem, kur var būt divi kodoli sagrupēti "kompleksā". Tajā tiek koplietota L2 kešatmiņa, L2 tulkošanas buferis un vektoru datu ceļi komplekss. Lai būtu skaidrs, tas to nenozīmē ir jāapvieno divos kodolos, un var salikt viena kodola kompleksu, lai nodrošinātu maksimālu veiktspēju. Faktiski viens no Arm TCS2023 kodolu izkārtojumiem, kas mums parādīja, ietver vienu X4 kodolu, piecus A720 kodolus un trīs A520 kodolus, kas nozīmē, ka vismaz viens A520 kodols ir izolēts.

A520 ir dizains, kas vispirms ir efektīvs, un tāpat kā citi kodoli, Arm koncentrējās uz šīs efektivitātes uzlabošanu tajos pašos jaudas punktos kā pēdējā paaudze. Tas ietver filiāļu prognožu uzlabošanu, vienlaikus noņemot vai samazinot dažas veiktspējas funkcijas. Šī veiktspēja tika atgūta, pateicoties lielākai efektivitātei. Interesanti, ka Arm ir noņēmis trešo ALU, kas bija A510, ietaupot jaudu loģikas izsniegšanā un rezultātu pārsūtīšanā.

Reālos rezultātos šķiet, ka A520 nav tik liels lēciens no saviem priekšgājējiem kā A720 un X4. Liela daļa tā iespēju ar zemākiem jaudas intervāliem pārklājas ar A510, kas redzams iepriekš minētajā diagrammā, un efektivitātes pieaugumu mēs redzam tikai augstākajos veiktspējas līmeņos. Abu kodolu veiktspējas un jaudas atšķirības ir daudzsološas, taču nav skaidrs, vai, salīdzinot A520 ar A510, mēs redzēsim reālus ieguvumus. Galu galā ir grūti pareizi novērtēt veiktspējas un efektivitātes atšķirības starp abiem reālajā pasaulē.

DSU-120: līdz 14 skaitļošanas kodoliem

DynamIQ Shared Unit jeb DSU ir integrē vienu vai vairākus kodolus ar L3 atmiņas sistēmu, vadības loģiku un ārējām saskarnēm, lai izveidotu daudzkodolu kopu. Tas būtībā ir Arm's audums, kas ļauj visiem šiem kodoliem sazināties vienam ar otru un koplietot resursus, un kā tā ir diezgan svarīga mīkla jebkuram mikroshēmojumu veidotājam, kurš vēlas izveidot mikroshēmu ar Arm's pamata dizainu.

Balstoties uz DSU-110, Arm ir veicis vairākus DSU-120 uzlabojumus, kas sniegs labumu visai mikroshēmai, kurā tā ir iekļauta. Iesācējiem tagad ir līdz 14 kodoliem katrā klasterī (no 12) un atbalsts līdz 32 MB L3 kešatmiņai. Tas arī ievērojami uzlabo efektivitāti vairākās galvenajās jomās, tostarp kešatmiņas izlaišanas gadījumā, vienlaikus samazinot strāvas noplūdi.

Savā ziņā Arm's DSU ir TCS23 mugurkauls, jo tas veido pamatu tam, kā katrs no šiem kodoliem mijiedarbojas viens ar otru un koplieto datus. Visi šeit veiktie uzlabojumi dos labumu visam klasterim, taču šķiet, ka lielākā daļa izmaiņu ir saistītas ar enerģijas patēriņu un efektivitāti.

Efektivitāte ir jaunais mērķis

Šķietami, ka nozare kādu laiku ir mainījusies, taču galvenais pirmais iespaids, ko es gūstu no šiem kodoliem, ir tas, ka efektivitāte tagad ir spēles nosaukums. Kamēr mums tika stāstīts par to, cik daudz ātrāks ir X4 kodols un kā tas ir visu laiku ātrākais uzņēmuma kodols, viņi ļoti ātri pamanīja efektivitātes uzlabojumus, kas gūti, to darbinot pagājušā gada augstākajā sniegumā vietā.

Kopumā katru veiktspējas pieaugumu noteica tas, cik daudz efektīvāks bija arī šis komponents, un vairāk vai mazāk visas DSU izmaiņas bija saistītas ar efektivitāti un jaudas noplūdi. Veiktspēja ir svarīga, taču patiešām šķiet, ka nozare kopumā cenšas uzlabot savu darbību skaitļošanas līmeņi ir efektīvāki, nevis masveida veiktspējas palielināšanās, salīdzinot ar gadu.

Mēs sagaidām, ka šie kodoli veidos MediaTek Dimensity 9400 un Qualcomm Snapdragon 8 Gen 3 pamatu, taču tas vēl ir redzams. Kā minēts iepriekš, Arm runāja par 1+5+3 kodola izkārtojuma izmantošanu savā iekšējā testēšanā, taču tas nenozīmē, ka to vēlas darīt paši partneri, piemēram, MediaTek un Qualcomm.