„Arm“ naujieji „Cortex X4“, A720 ir A520 yra tik 64 bitų branduoliai, kuriuose didelis dėmesys skiriamas efektyvumui

click fraud protection

Buvo paskelbti nauji „Arm“ branduoliai, kurie yra „Total Compute Solution 2023“ dalis, ir jie yra gana įdomūs.

Greitos nuorodos

  • Tik 64 bitų: „Misija įvykdyta“
  • Arm Cortex-X4: dar didesnis našumas ir didesnis efektyvumas
  • Rankena Cortex-A720: našumo ir energijos suvartojimo balansavimas
  • Ranka Cortex A520: padvigubinamas efektyvumas
  • DSU-120: iki 14 branduolių skaičiavimo kokybės
  • Efektyvumas yra naujas tikslas

„Arm“ yra įmonė, kuri kuria beveik visus procesoriaus branduolius, kurie galiausiai bus naudojami jūsų „Android“ išmaniajame telefone, ir kiekvienais metais praneša apie naujas iteracijas, kurios vėliau atsidurs tokiuose mikroschemų rinkiniuose kaip tų metų flagmanas Snapdragon arba kitas flagmanas MediaTek Matmenys. Šiais metais jis išleidžia pavyzdinį Cortex-X4 branduolį, Cortex-A720 našumo branduolį ir Cortex-A520 efektyvumo branduolį. Šie branduoliai sudaro naujos bendrovės „Arm v9.2“ suderinamų dizainų ir bendrovės „Total Compute Solution for 2023“ arba TCS23 pagrindą. Be to, mes taip pat matome naują „DynamIQ Shared Unit“ ir atnaujintą „Immortalis-G720“ GPU. Dar svarbiau yra visiškas perėjimas prie 64 bitų skaičiavimo, kai nė vienas iš šių branduolių nepalaiko 32 bitų.

Visi trys nauji branduoliai yra praėjusių metų mikroarchitektūriniai įpėdiniai ir visų pirma yra skirti IPC įdiegimui ir efektyvumo didinimui.

Tik 64 bitų: „Misija įvykdyta“

Vienas didžiausių šių metų „Arm Total Compute Solution“ pakeitimų yra perėjimas tik prie 64 bitų. Nors praėjusių metų A510R1 palaikė 32 bitų AArch32 vykdymo režimą, kaip ir A710, kuris pernai buvo paleistas su TCS22, šiais metais Arm branduoliai yra tik AArch64. Laikrodis tiksi 32 bitų programoms „Android“, ypač nuo to laiko Pati „Google“ įpareigojo visas programas atnaujinti nuo 2019 m yra įkeliami kaip 64 bitų dvejetainiai failai.

Kaip sako Arm, 64 bitų perėjimas laikomas „misija įvykdyta“. To priežastis yra ta, kad Kinijos programų rinka yra kokia sulaikė likusią pramonės dalį pereinant, tačiau didžioji dauguma Kinijos programų parduotuvėse esančių programų dabar suderinamos su 64 bitais, taip pat.

Vėlavimo priežastis buvo homogenizuotos programų ekosistemos trūkumas, o tai reiškia, kad skirtingoms programų parduotuvėms buvo reikalingi skirtingi kūrėjų standartai. Kadangi Arm dirbo su įvairiomis programėlių parduotuvėmis Kinijoje, kartu su pakartotiniais įspėjimais, kad įvyks pokytis, šios programų parduotuvės taip pat skatino kūrėjus keistis.

Atrodo, kad atėjo laikas, kai šis perėjimas įvyks visiškai, ir vis tiek praeis keli mėnesiai, kol pamatysime šiuos Arm branduolius naujuose mikroschemų rinkiniuose.

Arm Cortex-X4: dar didesnis našumas ir didesnis efektyvumas

Arm's X branduolių serija prieš keletą metų skyrėsi nuo A serijos, o filosofija buvo tokia, kad tai yra galingas branduolys, kuriam prireikus leidžiama pasisavinti šiek tiek daugiau energijos. Paprastai mikroschemų rinkinių gamintojai įtraukia tik vieną ar du iš jų, nes jie reikalauja energijos, net nepaisant turimų galimybių.

Kaip matote iš aukščiau esančio grafiko, „Cortex-X4“ yra kol kas galingiausias „Arm“ branduolys, tačiau šios skaičiavimo galimybės kainuoja energijos sąnaudas. „Cortex-X4“ yra panašus į praėjusių metų X3 ir, kaip teigia Arm, netgi gali veikti tais pačiais dažniais, kaip ir praėjusių metų branduolys, ir naudoti iki 40% mažiau energijos. Jis yra mažiau nei 10 % didesnis savo fiziniu dydžiu ir efektyviausias kada nors sukurtas Cortex-X branduolys.

Kalbant apie tai, iš kur atsiranda tie IPC patobulinimai, X4 yra keletas priekinės ir galinės dalies patobulinimų. Atliekant šiuos patobulinimus, buvo įdėta daug darbo perrašant ir tobulinant šakų prognozes, nes neteisingos šakos prognozės yra brangios ir našumo požiūriu. Arm taip pat žada, kad L2 talpyklos dydis 2 MB užtikrina didesnį našumą ne tiek etalonuose, kiek naudojant realiame pasaulyje.

Naujasis Cortex-X4 branduolys padidina aritmetinių loginių vienetų (ALU) skaičių nuo 6 iki 8, prideda papildomą šaką vienetas (iš viso 3), pridedamas papildomas dauginimo akumuliatorius ir vamzdynai slankiojo kablelio bei kvadratinės šaknies operacijos.

Kalbant apie galinę dalį, taip pat yra keletas patobulinimų. Apkrovos-saugos adresų generavimas pasikeitė nuo trijų instrukcijų iki keturių per ciklą, nes buvo paimtas ir padalintas krovinių sandėlio vamzdis. Taip pat L1 yra dvigubai padidintas vertimo buferis, taip pat bankų konfliktų patobulinimai.

Visa tai kartu sukuria įspūdingą Arm's Cortex-X4 našumą. Apibendrinant galima tikėtis, kad naudojant „Cortex-X4“ našumas pagerės vidutiniškai 15%. Pagal galios ir našumo kreivę, kurią dalijasi Arm, X4 lenkia X3 tiek našumu, tiek energijos suvartojimu. Kitaip tariant, 15 % našumo pagerėjimas yra gana didelis energijos suvartojimas. Vis dėlto verta paminėti, kad tai nėra visiškai obuolių ir obuolių palyginimas; Praėjusiais metais „Cortex-X3“ buvo su 1 MB L2 talpyklos, o tai reiškia, kad jei gamintojas šiais metais laikysis tokio paties L2 talpyklos dydžio, našumas nebūtinai gali padidėti 15%.

Tačiau vienas dalykas yra aiškus: jei važiuosite X4 maksimaliu greičiu, jis greičiausiai bus didelis galios mėgėjas. Galime pastebėti, kad kai kurie originalios įrangos gamintojai šiais metais toliau darys tai, ką darė praėjusiais metais, ir pašalins daugelį šių metų mikroschemų rinkinių. Pavyzdžiui, „OnePlus“ ir „Oppo“ tai daro ir tuo pačiu padidina energijos vartojimo efektyvumą našumo taškų kaip X3, tikėtina, kad toms įmonėms bus naudinga ir toliau daryti taip. Galime nepastebėti, kad našumas padidės 15 %, tačiau kitų metų mikroschemų rinkinių efektyvumas gali padidėti.

Rankena Cortex-A720: našumo ir energijos suvartojimo balansavimas

Nors Arm's X serijos branduoliai paprastai yra šiek tiek paleisti, A serijos branduoliai paprastai siekia subalansuoti energijos suvartojimą ir našumą. Su „Cortex-A720“ „Arm“ žada 20 % efektyvesnį branduolį, padidintą našumą esant tokiai pat galiai kaip ir praėjusių metų A715.

Kalbant apie tai, iš kur atsirado šių metų A720 patobulinimai, dauguma jų yra priekinėje dalyje. Vamzdynai buvo sutrumpinti, pašalinus vieną ciklą iš klaidingai numatytų šakų variklio, o dėl šio vieno ciklo kritimo etaloniniai rodikliai padidėjo 1 %. Palyginimai paprastai lemia mažiausiai klaidingų šakų nuspėjimų, o tai reiškia, kad tai greičiausiai pagerins bendrą realaus pasaulio našumą reikšmingesniu (bet iš esmės neišmatuojamu) kiekiu.

Netinkamame branduolyje matome daugybę struktūrinių patobulinimų, kurie padeda pagerinti našumą nepažeidžiant branduolio užimamos srities ar jos efektyvumo. Pradedantiesiems, kaip ir X4, slankaus kablelio dalybos ir kvadratinės šaknies operacijos dabar yra konvejerinės. Taip pat yra greitesnis perkėlimas iš slankiojo kablelio, NEON ir SVE2 skaičių į sveikuosius skaičius ir kiti bendri patobulinimai, siekiant pagreitinti apdorojimą.

Arm pasidalino aukščiau pateikta diagrama, kad parodytų, kaip A720 yra lyginamas su praėjusių metų A715 našumu ir efektyvumu, kai SPECint_base2006 naudojamas ISO procesas ir ISO dažnis. Talpyklos dydžiai taip pat išlieka tokie patys, todėl tai labai panašu į obuolius su obuoliais.

Kalbant apie energijos suvartojimą, A720 išliko labai panašus į praėjusių metų modelį, nors jis pasižymi šiek tiek didesniu našumu esant tokiam pat galios lygiui. Atrodo, kad su A720, kaip ir su X4, Arm daugiau dėmesio skiria tam, kad pabrėžtų, kaip jis gerėja našumą iš praėjusių metų galios apribojimų, o ne nuolat didinant šių branduolių galią galintis.

Ranka Cortex A520: padvigubinamas efektyvumas

Žinoma, kalbant apie „Arm“ branduolius, tai ne viskas priklauso nuo našumo. Kadangi X serija viską sudėlioja į neapdorotą skaičiavimo galią, o A7xx subalansuoja skaičiavimo poreikius ir energijos suvartojimą, A5xx serija skirta tik efektyviam apdorojimui. Tai mažiausia galia viename plote Arm v9.2 branduolys ir pagrįsta ta pačia sujungtų branduolių architektūra, kurią matėme su A510.

Ši sujungta pagrindinė architektūra reiškia, kad kai kurie ištekliai gali būti dalijami tarp dviejų branduolių, kur gali būti du branduoliai sugrupuoti į „kompleksą“. Jame bendrinama L2 talpykla, L2 vertimo buferis ir vektoriniai duomenų keliai kompleksas. Kad būtų aišku, tai nereiškia turi sujungti į du branduolius, o vieno branduolio kompleksą galima surinkti maksimaliam našumui užtikrinti. Tiesą sakant, vienas iš Arm TCS2023 branduolių išdėstymų, kurį jie mums parodė, apima vieną X4 branduolį, penkis A720 branduolius ir tris A520 branduolius, o tai reiškia, kad bent vienas A520 branduolys yra izoliuotas.

„A520“ yra pirmiausia efektyvus dizainas, ir, kaip ir kiti branduoliai, „Arm“ daugiausia dėmesio skyrė šio efektyvumo didinimui naudojant tuos pačius maitinimo taškus, kaip ir paskutinės kartos. Tai apima filialų numatymo tobulinimą ir kai kurių našumo funkcijų pašalinimą arba sumažinimą. Šis našumas buvo atkurtas dėl didesnio efektyvumo. Įdomu tai, kad Arm pašalino trečiąjį ALU, kuris buvo A510, taip sutaupydamas energijos išduodant logiką ir persiunčiant rezultatus.

Realiuose rezultatuose atrodo, kad A520 nėra toks didelis šuolis nuo savo pirmtakų, kaip A720 ir X4. Didžioji dalis jo galimybių mažesniais galios intervalais sutampa su A510, kaip parodyta aukščiau pateiktame grafike, ir tik aukščiausiuose našumo lygiuose matome efektyvumo padidėjimą. Dviejų branduolių našumo ir galios skirtumai yra daug žadantys, tačiau neaišku, ar palyginus A520 su A510 pamatysime realią naudą. Galų gale, sunku iš tikrųjų tinkamai įvertinti našumo ir efektyvumo skirtumus tarp šių dviejų realiame pasaulyje.

DSU-120: iki 14 branduolių skaičiavimo kokybės

„DynamIQ Shared Unit“ arba DSU yra vienas ar daugiau branduolių su L3 atminties sistema, valdymo logika ir išorinėmis sąsajomis, kad sudarytų kelių branduolių klasterį. Iš esmės tai yra Arm's audinys, leidžiantis visoms šioms šerdims bendrauti tarpusavyje ir dalytis ištekliais tai gana svarbi galvosūkio dalis bet kuriam mikroschemų rinkinio gamintojui, norinčiam sukurti lustą su Arm's pagrindiniu dizainu.

Remdamasi DSU-110, Arm padarė keletą DSU-120 patobulinimų, kurie bus naudingi visam lustui, kuriame jis yra. Pradedantiesiems dabar yra iki 14 branduolių viename klasteryje (iki 12) ir palaikoma iki 32 MB L3 talpyklos. Tai taip pat labai pagerina efektyvumą daugelyje pagrindinių sričių, įskaitant talpyklos praleidimus, taip pat sumažina energijos nutekėjimą.

Tam tikra prasme Arm's DSU yra TCS23 pagrindas, nes jis sudaro pagrindą, kaip kiekvienas iš šių branduolių sąveikauja tarpusavyje ir dalijasi duomenimis. Bet kokie patobulinimai bus naudingi visam klasteriui, tačiau atrodo, kad dauguma pakeitimų yra susiję su energijos suvartojimu ir efektyvumu.

Efektyvumas yra naujas tikslas

Atrodo, kad pramonė kurį laiką keičiasi, tačiau pagrindinis pirmasis įspūdis, kurį susidarau iš šių branduolių, yra tai, kad efektyvumas dabar yra žaidimo pavadinimas. Nors mums buvo pasakyta, kiek greitesnis yra X4 branduolys ir koks jis yra greičiausias visų laikų bendrovės branduolys, jie labai greitai pastebėjo efektyvumo pagerėjimą, kai jis buvo eksploatuojamas per praėjusių metų didžiausius rezultatus vietoj to.

Apskritai kiekvienas našumo padidėjimas buvo pagrįstas tuo, kiek efektyvesnis buvo tas komponentas, ir daugiau ar mažiau visi DSU pakeitimai buvo susiję su efektyvumu ir galios nutekėjimu. Našumas yra svarbus, bet tikrai atrodo, kad visa pramonė bando tobulėti Skaičiavimo lygis yra efektyvesnis, o ne didžiulis našumas, kasmet didėja.

Tikimės, kad šie branduoliai sudarys „MediaTek Dimensity 9400“ ir „Qualcomm Snapdragon 8 Gen 3“ pagrindą, tačiau dar reikia išsiaiškinti, kokia forma bus. Kaip minėta anksčiau, Arm kalbėjo apie 1+5+3 branduolio išdėstymą savo vidiniuose bandymuose, tačiau tai nereiškia, kad partneriai, tokie kaip „MediaTek“ ir „Qualcomm“, nori padaryti patys.