Armov novi Cortex X4, A720 i A520 samo su 64-bitne jezgre s velikim fokusom na učinkovitost

click fraud protection

Armove nove jezgre kao dio Total Compute Solutiona za 2023. su najavljene i prilično su zanimljive.

Brze veze

  • Samo 64-bitni: "Misija obavljena"
  • Arm Cortex-X4: Još više performansi i bolja učinkovitost
  • Arm Cortex-A720: Usklađivanje performansi i potrošnje energije
  • Arm Cortex A520: Udvostručenje učinkovitosti
  • DSU-120: Do 14 računalnih jezgri
  • Učinkovitost je novi cilj

Arm je tvrtka koja dizajnira gotovo sve CPU jezgre koje se na kraju koriste u vašem Android pametnom telefonu, a svake godine najavljuje nove iteracije koje će kasnije pronaći svoj put do čipseta kao što je vodeći Snapdragon te godine ili sljedeći vodeći MediaTek Dimenzija. Ove godine izdaje glavnu jezgru Cortex-X4, jezgru performansi Cortex-A720 i jezgru učinkovitosti Cortex-A520. Ove jezgre čine osnovu tvrtkinog novog Arm v9.2 kompatibilnog dizajna i tvrtke Total Compute Solution za 2023. ili TCS23. Povrh toga, također vidimo novu DynamIQ Shared Unit i ažurirani Immortalis-G720 GPU. Još veći je potpuni prijelaz na 64-bitno računalstvo, pri čemu nijedna od ovih jezgri ne podržava 32-bitni.

Sve tri nove jezgre mikroarhitektonski su nasljednici prošlogodišnjih i prvenstveno su usmjerene na uvođenje IPC-a i povećanja učinkovitosti.

Samo 64-bitni: "Misija obavljena"

Jedna od najvećih promjena u ovogodišnjem Total Compute Solutionu iz Arma je prelazak samo na 64-bitnu verziju. Dok je prošlogodišnji A510R1 podržavao 32-bitni AArch32 način rada, kao i A710 koji je lansiran s TCS22 prošle godine, ove godine su Armove jezgre samo AArch64. Sat otkucava za 32-bitne aplikacije na Androidu, osobito od tada Sam Google je naredio da se sve aplikacije ažuriraju od 2019 učitavaju se kao 64-bitne binarne datoteke.

Kako Arm kaže, 64-bitni prijelaz se smatra "misijom obavljenom". Razlog tome je što je kinesko tržište aplikacija što kočio ostatak industrije u tranziciji, ali velika većina aplikacija u kineskim trgovinama aplikacija sada je 64-bitna, isto.

Razlog odgode bio je nedostatak homogeniziranog ekosustava aplikacija, što znači da su različite trgovine aplikacija zahtijevale različite standarde programera. Kako je Arm surađivao s raznim trgovinama aplikacija u Kini, uz opetovana upozorenja da će se dogoditi promjena, te trgovine aplikacija poticale su i programere da se prebace.

Čini se da je sada došlo vrijeme da se ta tranzicija dogodi u cijelosti, a proći će još nekoliko mjeseci dok ne vidimo ove Arm jezgre u novim čipsetima, u svakom slučaju.

Arm Cortex-X4: Još više performansi i bolja učinkovitost

Armova X serija jezgri odvojila se od svoje A serije prije nekoliko godina, s filozofijom da je to snažna jezgra kojoj je dopušteno gutati malo više snage kada joj je potrebno. Tipično, proizvođači čipseta će uključiti samo jedan ili dva od njih maksimalno, jer su gladni energije, čak i unatoč mogućnostima koje također imaju.

Kao što možete vidjeti iz gornjeg grafikona, Cortex-X4 je najmoćnija Arm jezgra dosad, ali te računalne mogućnosti dolaze po cijenu potrošnje energije. Cortex-X4 sličan je prošlogodišnjem X3, a kako kaže Arm, može čak raditi na istim frekvencijama kao i prošlogodišnja jezgra i troši do 40% manje energije. Fizičke je veličine manje od 10% i najučinkovitija Cortex-X jezgra ikad napravljena.

Što se tiče odakle dolaze ta poboljšanja IPC-a, postoje brojna prednja i stražnja poboljšanja X4. U tim front-end poboljšanjima, velika količina posla je uložena u ponovno pisanje i poboljšanje predviđanja grana, jer su netočna predviđanja grana skupa, što se tiče izvedbe. Arm također obećava da veličina L2 predmemorije od 2 MB daje bolje performanse, ne toliko u mjerilima već u stvarnom korištenju.

Nova jezgra Cortex-X4 povećava broj aritmetičko-logičkih jedinica (ALU) sa 6 na 8, dodaje dodatnu granu jedinicu (za ukupno 3), dodaje dodatnu jedinicu Multiply-Accumulatator i cjevovode s pomičnim zarezom i kvadratnim korijenom operacije.

Što se tiče stražnjeg dijela, tu su također brojna poboljšanja. Generiranje adresa učitavanja pohrane je prešlo s tri instrukcije na četiri po ciklusu, budući da je cijev učitavanja pohrane uzeta i podijeljena. Tu je i udvostručeni međuspremnik za gledanje prijevoda u L1, zajedno s poboljšanjima bankovnog sukoba.

Sve ovo dolazi zajedno kako bi donijelo impresivno poboljšanje performansi u Armovom Cortex-X4. Sve u svemu, možete očekivati ​​prosječno poboljšanje performansi od 15% s Cortex-X4. U krivulji snage i performansi koju dijeli Arm, X4 je ispred X3 u performansama i potrošnji energije. Drugim riječima, tih 15% poboljšanja performansi dolazi uz prilično značajan utrošak energije. Također je vrijedno spomenuti da to nije baš usporedba jabuka s jabukama; Cortex-X3 je prošle godine došao s 1 MB L2 predmemorije, što znači da ako se proizvođač ove godine drži iste veličine L2 predmemorije, možda neće nužno doći do povećanja performansi od 15%.

Jedno je ipak sigurno, a to je da će X4, ako ga pokrećete maksimalnom brzinom, vjerojatno biti veliki gutač energije. Možda ćemo ove godine vidjeti neke OEM proizvođače koji će nastaviti raditi ono što su radili prošle godine i prigušiti mnoge od ovogodišnjih čipseta iz kutije. Na primjer, OnePlus i Oppo rade to i s tim dobicima energetske učinkovitosti kada rade na istom performansi kao što je X3, vjerojatno će postojati koristi za te tvrtke da nastave raditi tako. Možda nećemo vidjeti povećanje performansi od 15% u cijelosti, ali ćemo umjesto toga vidjeti dodatna poboljšanja učinkovitosti za sljedeće godine skupova čipova.

Arm Cortex-A720: Usklađivanje performansi i potrošnje energije

Dok se Armova X serija jezgri obično pusti na volju, serija A jezgri obično ima za cilj uravnotežiti potrošnju energije i performanse. S Cortex-A720, Arm obećava 20% učinkovitiju jezgru, s povećanim performansama pri istoj snazi ​​kao A715 iz prošle godine.

Što se tiče toga odakle dolaze ovogodišnja poboljšanja A720, većina njih je u prednjem dijelu. Cjevovodi su skraćeni s jednim ciklusom uklonjenim iz mehanizma za pogrešno predviđanje grana, pri čemu se kaže da ovaj pad u jednom ciklusu predstavlja povećanje od 1% u referentnim vrijednostima. Referentne vrijednosti obično rezultiraju s najmanje pogrešnih predviđanja grana, što znači da će ovo vjerojatno poboljšati ukupnu izvedbu u stvarnom svijetu za značajniji (ali uglavnom nemjerljiv) iznos.

U jezgri izvan reda vidimo brojna strukturna poboljšanja koja pomažu u poboljšanju performansi bez utjecaja na područje koje jezgra zauzima ili njezinu učinkovitost. Za početak, baš kao u X4, operacije dijeljenja s pomičnim zarezom i kvadratnog korijena sada su cjevovodne. Tu su i brži prijenosi iz brojeva s pomičnim zarezom, NEON i SVE2 na cijele brojeve i druga opća poboljšanja za ubrzavanje obrade.

Arm je podijelio gornji grafikon kako bi ilustrirao kako se A720 uspoređuje s prošlogodišnjim A715 u performansama i učinkovitosti, gdje se ISO proces i ISO frekvencija koriste u SPECint_base2006. Veličine predmemorije također ostaju iste, tako da je to zapravo usporedba jabuka s jabukama.

Što se tiče potrošnje energije, A720 ostaje u skladu s prošlogodišnjim modelom, iako ima malo više performansi pri istim razinama snage. Čini se da se s A720, kao i s X4, Arm više usredotočuje na isticanje toga kako postaje bolji performanse u odnosu na prošlogodišnja ograničenja snage, a ne kontinuirano povećavanje snage ovih jezgri sposoban za.

Arm Cortex A520: Udvostručenje učinkovitosti

Naravno, kada je riječ o Armovim jezgrama, nije sve u performansama. Uz X seriju koja sve stavlja u sirovu računsku snagu i A7xx koji balansira računalne potrebe i potrošnju energije, A5xx serija fokusira se isključivo na učinkovito procesiranje. To je jezgra Arm v9.2 s najmanjom snagom po području i temelji se na istoj arhitekturi spojene jezgre koju smo vidjeli predstavljenu s A510.

Ono što ova arhitektura spojene jezgre znači jest da se neki resursi mogu dijeliti između dvije jezgre, pri čemu dvije jezgre mogu biti grupirani u "kompleks". L2 predmemorija, L2 translacijski međuspremnik i vektorski podatkovni putovi dijele se unutar ovoga kompleks. Da budemo jasni, to ne znači to ima biti spojen u dvije jezgre, a jednojezgreni kompleks može se sastaviti za vrhunske performanse. Zapravo, jedan od Armovih rasporeda jezgri TCS2023 koji su nam pokazali uključuje jednu jezgru X4, pet jezgri A720 i tri jezgre A520, što znači da je barem jedna jezgra A520 u izolaciji.

A520 je dizajn na prvom mjestu učinkovitosti, a kao i ostale jezgre, Arm se uglavnom usredotočio na poboljšanje te učinkovitosti na istim točkama snage kao i prošla generacija. To uključuje poboljšanje predviđanja grananja uz uklanjanje ili smanjivanje nekih značajki izvedbe. Ova izvedba je vraćena kroz veću učinkovitost kao rezultat. Također je zanimljivo da je Arm uklonio treći ALU koji je bio u A510, štedeći energiju u izdavanju logike i prosljeđivanju rezultata.

U rezultatima iz stvarnog svijeta, čini se da A520 nije toliko odmaknuo od svojih prethodnika kao A720 i X4. Velik dio njegovih mogućnosti pri nižim intervalima snage preklapa se s A510 iz gornjeg grafikona, a samo na višim stupnjevima performansi vidimo povećanje učinkovitosti. Razlika u performansama i snazi ​​između dviju jezgri je obećavajuća, ali nije jasno hoćemo li vidjeti stvarne prednosti u stvarnom svijetu kada uspoređujemo A520 s A510. Uostalom, teško je zapravo pravilno izmjeriti razlike u performansama i učinkovitosti između njih dvoje u stvarnom svijetu.

DSU-120: Do 14 računalnih jezgri

DynamIQ Shared Unit, ili DSU, integrira jednu ili više jezgri s L3 memorijskim sustavom, kontrolnom logikom i vanjskim sučeljima kako bi se formirao višejezgreni klaster. To je u biti Arm's fabric koji omogućuje svim tim jezgrama da međusobno komuniciraju i dijele resurse, i kao kao takav, to je prilično važan dio slagalice za svakog proizvođača čipseta koji želi izgraditi čip s Armovim osnovnim dizajnom.

Nadovezujući se na DSU-110, Arm je napravio brojna poboljšanja na DSU-120 koja će poslužiti za dobrobit cijelog čipa na kojem je uključen. Za početak, sada postoji do 14 jezgri po klasteru (u odnosu na 12) i podrška za do 32 MB L3 predmemorije. Također uvelike poboljšava učinkovitost u brojnim ključnim područjima, uključujući slučajeve promašaja predmemorije, dok također smanjuje curenje energije.

Na neki način, Armov DSU je okosnica TCS23, jer čini osnovu kako svaka od ovih jezgri međusobno komunicira i dijeli podatke. Sva poboljšanja ovdje će koristiti cijelom klasteru, ali čini se da se većina promjena odnosi na potrošnju energije i učinkovitost.

Učinkovitost je novi cilj

Čini se da se industrija već neko vrijeme mijenja, ali glavni prvi dojam koji stječem iz ovih jezgri je da je učinkovitost sada glavna stvar. Dok su nam govorili koliko je jezgra X4 brža i kako je najbrža jezgra tvrtke ikada, vrlo su brzo uočili poboljšanja učinkovitosti zahvaljujući prošlogodišnjoj vrhunskoj izvedbi umjesto toga.

Općenito, svako povećanje performansi bilo je potkrijepljeno time koliko je i ta komponenta bila učinkovitija, a više-manje sve promjene DSU-a bile su u učinkovitosti i gubitku energije. Izvedba je važna, ali doista se čini da industrija u cjelini pokušava biti aktualna računalne razine učinkovitije nego ići na masivna povećanja performansi iz godine u godinu.

Očekujemo da će ove jezgre formulirati osnovu MediaTek Dimensity 9400 i Qualcomm Snapdragon 8 Gen 3, ali u kakvom obliku ostaje za vidjeti. Kao što je ranije spomenuto, Arm je govorio o korištenju rasporeda jezgri 1+5+3 u vlastitom internom testiranju, ali to ne znači da je to ono što partneri poput MediaTeka i Qualcomma žele sami napraviti.