Nové Cortex X4, A720 a A520 od spoločnosti Arm sú iba 64-bitové jadrá s veľkým zameraním na efektivitu

Nové jadrá spoločnosti Arm ako súčasť jej Total Compute Solution pre rok 2023 boli oznámené a sú celkom zaujímavé.

Rýchle odkazy

  • Len 64-bitová verzia: "Misia splnená"
  • Arm Cortex-X4: Ešte väčší výkon a lepšia účinnosť
  • Arm Cortex-A720: Vyvažuje výkon a spotrebu energie
  • Arm Cortex A520: Zdvojnásobenie efektívnosti
  • DSU-120: Až 14 výpočtových jadier
  • Novým cieľom je efektívnosť

Arm je spoločnosť, ktorá navrhuje takmer všetky jadrá CPU, ktoré sa nakoniec používajú vo vašom smartfóne s Androidom, a každý rok oznamuje nové iterácie, ktoré si neskôr nájdu cestu do čipsetov, ako je tohtoročná vlajková loď Snapdragon alebo ďalšia vlajková loď MediaTek Rozmer. Tento rok uvádza na trh vlajkovú loď Cortex-X4, výkonné jadro Cortex-A720 a efektívne jadro Cortex-A520. Tieto jadrá tvoria základ nových dizajnov kompatibilných s Arm v9.2 spoločnosti a firemného Total Compute Solution pre rok 2023, alebo TCS23. Okrem toho vidíme aj novú zdieľanú jednotku DynamIQ a aktualizovaný GPU Immortalis-G720. Ešte väčší je úplný prechod na 64-bitové výpočty, pričom žiadne z týchto jadier nepodporuje 32-bitové.

Všetky tri nové jadrá sú mikroarchitektonickými nástupcami minuloročných jadier a sú primárne zamerané na zavedenie IPC a zvýšenie efektívnosti.

Len 64-bitová verzia: "Misia splnená"

Jednou z najväčších zmien v tohtoročnom Total Compute Solution od Arm je prechod len na 64-bitové. Zatiaľ čo minuloročný A510R1 podporoval 32-bitový režim vykonávania AArch32, rovnako ako A710, ktorý bol uvedený na trh s TCS22 minulý rok, tento rok sú jadrá Arm len AArch64. Hodiny tikajú pre 32-bitové aplikácie v systéme Android, najmä odvtedy Samotný Google nariadil, aby sa všetky aplikácie aktualizovali od roku 2019 sa nahrávajú ako 64-bitové binárne súbory.

Ako hovorí Arm, 64-bitový prechod sa považuje za „úlohu splnenú“. Dôvodom je to, že čínsky trh s aplikáciami je čo zdržal zvyšok odvetvia pri prechode, ale veľká väčšina aplikácií v čínskych obchodoch s aplikáciami je teraz kompatibilná so 64-bitovou verziou, tiež.

Dôvodom oneskorenia bol nedostatok homogenizovaného aplikačného ekosystému, čo znamená, že rôzne obchody s aplikáciami vyžadovali rôzne štandardy vývojárov. Keďže Arm spolupracoval s rôznymi obchodmi s aplikáciami v Číne, spolu s opakovanými varovaniami, že dôjde k posunu, tieto obchody s aplikáciami povzbudzovali vývojárov, aby tiež prešli.

Zdá sa, že teraz nastal čas, aby sa tento prechod uskutočnil v celom rozsahu a bude trvať ešte niekoľko mesiacov, kým tieto jadrá Arm uvidíme v nových čipsetoch.

Arm Cortex-X4: Ešte väčší výkon a lepšia účinnosť

Séria X jadier od spoločnosti Arm sa pred niekoľkými rokmi odklonila od série A, pričom filozofia je, že ide o výkonné jadro, ktoré môže hltať o niečo viac energie, keď to potrebuje. Výrobcovia čipových súprav zvyčajne zahrnú maximálne len jednu alebo dve z nich, pretože sú energeticky hladní, a to aj napriek schopnostiam, ktoré majú.

Ako môžete vidieť z vyššie uvedeného grafu, Cortex-X4 je doteraz najvýkonnejším jadrom Arm, ale tieto výpočtové možnosti sú na úkor spotreby energie. Cortex-X4 je podobný minuloročnému X3 a ako hovorí Arm, môže dokonca bežať na rovnakých frekvenciách ako minuloročné jadro a spotrebuje až o 40 % menej energie. Je o menej ako 10 % väčší, pokiaľ ide o fyzickú veľkosť a najefektívnejšie jadro Cortex-X, aké bolo kedy skonštruované.

Pokiaľ ide o to, odkiaľ tieto vylepšenia IPC pochádzajú, existuje niekoľko vylepšení front-endu a back-endu X4. V týchto vylepšeniach front-endu bolo vynaložené veľké množstvo práce na prepisovanie a zlepšovanie predpovedí vetiev, pretože nesprávne predpovede vetiev sú z hľadiska výkonu nákladné. Arm tiež sľubuje, že veľkosť vyrovnávacej pamäte L2 s veľkosťou 2 MB prináša vyšší výkon, a to ani nie tak v benchmarkoch, ale pri používaní v reálnom svete.

Nové jadro Cortex-X4 zvyšuje počet aritmetických logických jednotiek (ALU) zo 6 na 8, pridáva ďalšiu vetvu jednotka (celkom 3), pridáva ďalšiu jednotku Multiply-Acumulatator a potrubia s pohyblivou rádovou čiarkou a druhou odmocninou operácií.

Čo sa týka zadnej časti, je tu aj niekoľko vylepšení. Generovanie adresy uloženia záťaže sa zmenilo z troch inštrukcií na štyri na cyklus, pretože potrubie na uloženie záťaže bolo vybraté a rozdelené. V L1 je tiež zdvojená vyrovnávacia pamäť pre preklad spolu s vylepšeniami bankových konfliktov.

Toto všetko sa spája, aby prinieslo pôsobivé zvýšenie výkonu v Arm's Cortex-X4. Celkovo môžete s Cortex-X4 očakávať v priemere 15% zlepšenie výkonu. V krivke výkonu a výkonu, ktorú zdieľa Arm, X4 predbieha X3 vo výkone aj spotrebe energie. Inými slovami, toto 15% zlepšenie výkonu prichádza pri pomerne významnom odbere energie. Za zmienku však stojí aj to, že to nie je celkom porovnanie medzi jablkami; Cortex-X3 prišiel s 1 MB vyrovnávacej pamäte L2 minulý rok, čo znamená, že ak by výrobca tento rok dodržal rovnakú veľkosť vyrovnávacej pamäte L2, nemusí nevyhnutne dôjsť k zvýšeniu výkonu o 15 %.

Jedna vec je však istá, a to, že ak X4 jazdíte na maximálnu rýchlosť, bude to pravdepodobne veľký žrút energie. Možno uvidíme, že niektorí výrobcovia OEM budú tento rok pokračovať v tom, čo robili minulý rok, a priškrtia mnohé tohtoročné čipsety hneď po vybalení. Napríklad OnePlus a Oppo to robia a s týmito ziskami energetickej účinnosti, keď bežia súčasne výkonnostných bodov ako X3, je pravdepodobné, že pre tieto spoločnosti to bude prínosom aj naďalej tak. Možno neuvidíme 15% zvýšenie výkonu vo všeobecnosti, ale namiesto toho môžeme vidieť ďalšie zlepšenia efektívnosti pre čipsety na budúci rok.

Arm Cortex-A720: Vyvažuje výkon a spotrebu energie

Zatiaľ čo jadrá radu X od spoločnosti Arm sú zvyčajne trochu divoké, jadrá radu A sa zvyčajne zameriavajú na vyváženie spotreby energie a výkonu. S Cortex-A720 Arm sľubuje o 20 % efektívnejšie jadro so zvýšeným výkonom pri rovnakom výkone ako A715 z minulého roka.

Pokiaľ ide o to, odkiaľ pochádzajú tohtoročné vylepšenia A720, väčšina z nich je v prednej časti. Potrubia boli skrátené, pričom jeden cyklus bol odstránený z motora s nesprávnou predpoveďou vetvy, pričom tento pokles v jedinom cykle údajne predstavuje 1 % nárast referenčných hodnôt. Benchmarky zvyčajne vedú k najmenšiemu počtu nesprávnych predpovedí pobočiek, čo znamená, že to pravdepodobne zlepší celkovú výkonnosť v reálnom svete o významnejšiu (ale do značnej miery nemerateľné) množstvo.

V jadre mimo prevádzky vidíme množstvo štrukturálnych vylepšení, ktoré pomáhajú zlepšiť výkon bez toho, aby to ovplyvnilo plochu, ktorú jadro zaberá, alebo jeho efektivitu. Pre začiatok, rovnako ako v X4, operácie delenia s pohyblivou rádovou čiarkou a druhej odmocniny sú teraz zreťazené. K dispozícii sú tiež rýchlejšie prevody z čísel s pohyblivou rádovou čiarkou, NEON a SVE2 na celé čísla a ďalšie celkové vylepšenia na urýchlenie spracovania.

Arm zdieľa vyššie uvedený graf, aby ilustroval porovnanie A720 s minuloročným A715 z hľadiska výkonu a účinnosti, kde sa v SPECint_base2006 používa proces ISO a frekvencia ISO. Veľkosť vyrovnávacej pamäte zostáva tiež rovnaká, takže ide do značnej miery o porovnanie medzi jablkami.

Pokiaľ ide o spotrebu energie, A720 zostáva veľmi v súlade s minuloročným modelom, aj keď pri rovnakých úrovniach výkonu dosahuje o niečo viac výkonu. Zdá sa, že pri A720, podobne ako pri X4, sa Arm zameriava viac na zdôraznenie toho, ako sa zlepšuje výkon z minuloročných energetických obmedzení, namiesto neustáleho zvyšovania výkonu, ktorým tieto jadrá sú schopný.

Arm Cortex A520: Zdvojnásobenie efektívnosti

Samozrejme, pokiaľ ide o jadrá Arm, nie je všetko len o výkone. Séria X, ktorá dáva všetko do čistého výpočtového výkonu a A7xx vyrovnáva výpočtové potreby a spotrebu energie, sa séria A5xx zameriava čisto na efektívne spracovanie. Je to najnižší výkon na oblasť jadra Arm v9.2 a stavia na rovnakej architektúre zlúčených jadier, akú sme videli predstavenú s A510.

Táto architektúra zlúčeného jadra znamená, že niektoré zdroje môžu byť zdieľané medzi dvoma jadrami, pričom dve jadrá môžu byť zoskupené do „komplexu“. V rámci toho sú zdieľané vyrovnávacia pamäť L2, vyrovnávacia pamäť pre preklad L2 a vektorové dátové cesty komplexné. Aby bolo jasné, to neznamená zlúčiť do dvoch jadier a pre špičkový výkon je možné zostaviť jednojadrový komplex. V skutočnosti jedno z rozložení jadra TCS2023 spoločnosti Arm, ktoré nám ukázali, zahŕňalo jedno jadro X4, päť jadier A720 a tri jadrá A520, čo znamená, že aspoň jedno jadro A520 je v izolácii.

A520 je dizajn s prvou účinnosťou a rovnako ako ostatné jadrá, aj Arm sa vo veľkej miere zameral na zlepšenie tejto účinnosti pri rovnakých výkonových bodoch ako posledná generácia. To zahŕňa zlepšenie predpovedí vetvy a zároveň odstránenie alebo zmenšenie niektorých funkcií výkonu. Tento výkon bol obnovený vďaka vyššej účinnosti ako výsledok. Je tiež zaujímavé, že Arm odstránil tretiu ALU, ktorá bola v A510, čím ušetril energiu pri vydávaní logiky a posielaní výsledkov.

V reálnych výsledkoch sa zdá, že A520 nie je taký veľký skok od svojich predchodcov ako A720 a X4. Veľa z jeho schopností pri nižších výkonových intervaloch sa prekrýva s A510 z vyššie uvedeného grafu a len v horných stupňoch výkonu vidíme zvýšenie efektivity. Rozdiel vo výkone a sile medzi týmito dvoma jadrami je sľubný, ale nie je jasné, či pri porovnaní A520 s A510 uvidíme nejaké skutočné výhody v reálnom svete. Koniec koncov, je ťažké skutočne správne merať rozdiely vo výkone a účinnosti medzi týmito dvoma v reálnom svete.

DSU-120: Až 14 výpočtových jadier

Zdieľaná jednotka DynamIQ, alebo DSU, integruje jedno alebo viac jadier s pamäťovým systémom L3, riadiacou logikou a externými rozhraniami s cieľom vytvoriť viacjadrový klaster. Je to v podstate tkanina Arm, ktorá umožňuje všetkým týmto jadrám komunikovať medzi sebou a zdieľať zdroje a ako tak je to pomerne dôležitý kúsok skladačky pre každého výrobcu čipsetov, ktorý chce postaviť čip s dizajnom jadra Arm.

Vychádzajúc z DSU-110, Arm urobil niekoľko vylepšení DSU-120, ktoré budú slúžiť v prospech celého čipu, na ktorom je zahrnutý. Pre začiatočníkov je teraz k dispozícii až 14 jadier na klaster (až z 12) a podpora až 32 MB vyrovnávacej pamäte L3. Tiež výrazne zlepšuje efektivitu v mnohých kľúčových oblastiach, vrátane prípadu zlyhaní vyrovnávacej pamäte, a zároveň znižuje únik energie.

Určitým spôsobom je DSU od spoločnosti Arm chrbticou TCS23, pretože tvorí základ toho, ako každé z týchto jadier navzájom interaguje a zdieľajú údaje. Akékoľvek vylepšenia tu budú prínosom pre celý klaster, ale zdá sa, že väčšina zmien súvisí so spotrebou energie a účinnosťou.

Novým cieľom je efektívnosť

Zdá sa, že priemysel sa na chvíľu zmenil, ale hlavný prvý dojem, ktorý mám z týchto jadier, je, že názov hry je teraz efektívnosť. Aj keď nám bolo povedané, o koľko rýchlejšie je jadro X4 a ako je to najrýchlejšie jadro spoločnosti vôbec, veľmi rýchlo zaznamenali zlepšenie efektívnosti prevádzkovania pri minuloročnom špičkovom výkone namiesto toho.

Vo všeobecnosti bolo každé zvýšenie výkonu podporené tým, o koľko účinnejšia bola táto súčiastka, a viac-menej všetky zmeny DSU boli v účinnosti a úniku energie. Výkon je dôležitý, ale naozaj sa zdá, že celé odvetvie sa snaží o aktuálnosť Výpočtové úrovne sú medziročne efektívnejšie než ísť na masívny nárast výkonu.

Očakávame, že tieto jadrá budú tvoriť základ MediaTek Dimensity 9400 a Qualcomm Snapdragon 8 Gen 3, ale v akej forme sa ešte uvidí. Ako už bolo spomenuté, Arm hovoril o použití rozloženia jadra 1+5+3 vo vlastnom internom testovaní, ale to neznamená, že to chcú partneri ako MediaTek a Qualcomm urobiť sami.