Byla oznámena nová jádra Arm jako součást jeho Total Compute Solution pro rok 2023 a jsou docela zajímavá.
Rychlé odkazy
- Pouze 64bitová verze: "Mise splněna"
- Arm Cortex-X4: Ještě větší výkon a lepší účinnost
- Arm Cortex-A720: Vyrovnává výkon a spotřebu energie
- Arm Cortex A520: Zdvojnásobení účinnosti
- DSU-120: Až 14 výpočetních jader
- Novým cílem je efektivita
Arm je společnost, která navrhuje téměř všechna jádra CPU, která se nakonec používají ve vašem smartphonu Android, a každý rok oznamuje nové iterace, které si později najdou cestu do čipsetů, jako je letošní vlajková loď Snapdragon nebo příští vlajková loď MediaTek Rozměr. V letošním roce uvádí na trh vlajkovou loď Cortex-X4, výkonné jádro Cortex-A720 a efektivní jádro Cortex-A520. Tato jádra tvoří základ nových firemních návrhů kompatibilních s Arm v9.2 a firemního Total Compute Solution pro rok 2023, neboli TCS23. Kromě toho také vidíme novou sdílenou jednotku DynamIQ a aktualizovaný GPU Immortalis-G720. Ještě větší je úplný přechod na 64bitové výpočty, přičemž žádné z těchto jader nepodporuje 32bitové.
Všechna tři nová jádra jsou mikroarchitektonickými nástupci loňských a jsou primárně zaměřena na zavedení IPC a zvýšení efektivity.
Pouze 64bitová verze: "Mise splněna"
Jednou z největších změn v letošním Total Compute Solution od Arm je přechod pouze na 64bitové. Zatímco loňský A510R1 podporoval 32bitový režim AArch32, stejně jako A710, který byl uveden na trh s TCS22 v loňském roce, letos jsou jádra Arm pouze AArch64. U 32bitových aplikací na Androidu hodiny běží, zejména od té doby Samotný Google nařídil aktualizaci všech aplikací od roku 2019 jsou nahrány jako 64bitové binární soubory.
Jak říká Arm, 64bitový přechod je považován za „misi splněnou“. Důvodem je to, že čínský trh s aplikacemi je co zdržel zbytek odvětví v přechodu, ale velká většina aplikací v čínských obchodech s aplikacemi je nyní kompatibilní s 64bitovou verzí, také.
Důvodem zpoždění byl nedostatek homogenizovaného aplikačního ekosystému, což znamená, že různé obchody s aplikacemi vyžadovaly různé standardy vývojářů. Protože Arm spolupracoval s různými obchody s aplikacemi v Číně, spolu s opakovanými varováními, že dojde k posunu, tyto obchody s aplikacemi povzbuzovaly vývojáře, aby také přešli.
Zdá se, že nyní nastal čas, aby k tomuto přechodu došlo v celém rozsahu, a bude trvat ještě několik měsíců, než tato jádra Arm uvidíme v nových čipových sadách.
Arm Cortex-X4: Ještě větší výkon a lepší účinnost
Řada jader X od společnosti Arm se před několika lety odchýlila od řady A, přičemž filozofií bylo, že jde o výkonné jádro, které může hltat trochu více energie, když to potřebuje. Výrobci čipových sad obvykle zahrnou maximálně jeden nebo dva z nich, protože mají hlad, i přes schopnosti, které také mají.
Jak můžete vidět z výše uvedeného grafu, Cortex-X4 je zatím nejvýkonnější jádro Arm, ale tyto výpočetní schopnosti jsou na úkor spotřeby energie. Cortex-X4 je podobný loňské X3 a jak říká Arm, může dokonce běžet na stejných frekvencích jako loňské jádro a využívat až o 40 % méně energie. Je o méně než 10 % větší, pokud jde o fyzickou velikost a nejúčinnější jádro Cortex-X, jaké kdy bylo postaveno.
Pokud jde o to, odkud tato vylepšení IPC pocházejí, existuje řada vylepšení front-endu a back-endu X4. V těchto vylepšeních front-endu bylo vynaloženo velké množství práce na přepisování a zlepšování předpovědí větví, protože nesprávné předpovědi větví jsou z hlediska výkonu nákladné. Arm také slibuje, že velikost mezipaměti L2 2 MB přináší vyšší výkon, ani ne tak v benchmarcích, ale v reálném světě.
Nové jádro Cortex-X4 zvyšuje počet aritmetických logických jednotek (ALU) ze 6 na 8 a přidává další větev jednotka (celkem 3), přidává další jednotku Multiply-Acumulatator a potrubí s plovoucí desetinnou čárkou a druhou odmocninou operace.
Pokud jde o zadní část, je zde také řada vylepšení. Generování adresy pro ukládání dat se změnilo ze tří instrukcí na čtyři na cyklus, protože potrubí pro ukládání dat bylo odebráno a rozděleno. V L1 je také zdvojený překladový buffer dopředného vyhledávání spolu s vylepšeními bankovních konfliktů.
To vše dohromady přináší působivé zvýšení výkonu v Arm's Cortex-X4. Celkově vzato můžete u Cortex-X4 očekávat v průměru 15% zlepšení výkonu. V křivce výkonu a výkonu, kterou sdílí Arm, X4 předčí X3 jak ve výkonu, tak ve spotřebě energie. Jinými slovy, toto 15% zlepšení výkonu přichází s poměrně významným odběrem energie. Za zmínku však také stojí, že to není tak docela srovnání jablek s jablky; Cortex-X3 přišel s 1 MB L2 cache v loňském roce, což znamená, že pokud by se výrobce letos držel stejné velikosti L2 cache, nemusí nutně dojít ke zvýšení výkonu o 15 %.
Jedna věc je však jistá, a to, že pokud X4 provozujete na maximální rychlost, bude to pravděpodobně velký žrout výkonu. Můžeme letos vidět, že někteří výrobci OEM budou pokračovat v tom, co dělali loni, a přiškrtí mnoho letošních čipsetů hned po vybalení. Například OnePlus a Oppo to dělají a s těmito zisky energetické účinnosti při současném běhu výkonnostních bodů jako u X3, je pravděpodobné, že pro tyto společnosti budou i nadále přínosy tak. Možná neuvidíme 15% zvýšení výkonu ve všech oblastech, ale místo toho můžeme vidět další zlepšení účinnosti u čipsetů příštího roku.
Arm Cortex-A720: Vyrovnává výkon a spotřebu energie
Zatímco jádra řady Arm X se obvykle nechávají běžet trochu divoce, jádra řady A se obvykle snaží vyvážit spotřebu energie a výkon. S Cortex-A720 Arm slibuje o 20 % efektivnější jádro, se zvýšeným výkonem při stejném výkonu jako A715 z minulého roku.
Pokud jde o to, odkud pocházejí letošní vylepšení A720, většina z nich je v přední části. Potrubí byla zkrácena s jedním cyklem odstraněným z motoru s chybnou prognózou větve, přičemž tento pokles v jediném cyklu údajně odpovídá 1% nárůstu referenčních hodnot. Benchmarky obvykle vedou k nejmenšímu počtu chybných předpovědí větví, což znamená, že to pravděpodobně zlepší celkový výkon v reálném světě o významnější (ale do značné míry neměřitelné) množství.
V jádru mimo provoz vidíme řadu strukturálních vylepšení, která pomáhají zlepšit výkon, aniž by to mělo dopad na plochu, kterou jádro zabírá, nebo jeho efektivitu. Pro začátek, stejně jako v X4, jsou nyní operace dělení s plovoucí desetinnou čárkou a odmocniny zřetězeny. K dispozici jsou také rychlejší převody z čísel s pohyblivou řádovou čárkou, NEON a SVE2 na celá čísla a další celková vylepšení pro urychlení zpracování.
Arm sdílel výše uvedený graf, aby ilustroval srovnání A720 s loňským A715 ve výkonu a efektivitě, kde se v SPECint_base2006 používá proces ISO a frekvence ISO. Velikosti mezipaměti zůstávají také stejné, takže jde do značné míry o srovnání jablek s jablky.
Pokud jde o spotřebu energie, A720 zůstává hodně v souladu s loňským modelem, i když při stejných úrovních výkonu poskytuje o něco více výkonu. U A720, stejně jako u X4, se Arm zdá, že se více zaměřuje na zdůraznění toho, jak se zlepšuje výkon z loňských energetických omezení, spíše než neustálé zvyšování výkonu, kterým tato jádra jsou schopný.
Arm Cortex A520: Zdvojnásobení účinnosti
Samozřejmě, pokud jde o jádra Arm, není vše jen o výkonu. S řadou X, která vkládá vše do hrubého výpočetního výkonu a A7xx vyvažuje výpočetní potřeby a spotřebu energie, se řada A5xx zaměřuje čistě na efektivní zpracování. Je to nejnižší výkon na oblast jádra Arm v9.2 a staví na stejné architektuře sloučených jader, kterou jsme viděli představenou u A510.
Tato architektura sloučeného jádra znamená, že některé zdroje mohou být sdíleny mezi dvěma jádry, přičemž dvě jádra mohou být seskupeny do „komplexu“. V rámci toho jsou sdíleny mezipaměť L2, vyrovnávací paměť pro překlad L2 a vektorové datové cesty komplex. Aby bylo jasno, to neznamená má být spojen do dvou jader a pro špičkový výkon lze sestavit jednojádrový komplex. Ve skutečnosti jedno z rozložení jádra Arm TCS2023, které nám ukázali, zahrnovalo jedno jádro X4, pět jader A720 a tři jádra A520, což znamená, že alespoň jedno jádro A520 je v izolaci.
A520 je design s nejvyšší účinností a stejně jako ostatní jádra se Arm zaměřil především na zlepšení této účinnosti při stejných výkonových bodech jako minulá generace. To zahrnuje zlepšení předpovědí větví a zároveň odstranění nebo zmenšení některých funkcí výkonu. Tento výkon byl obnoven díky vyšší účinnosti jako výsledek. Zajímavé také je, že Arm odstranil třetí ALU, která byla v A510, čímž ušetřil energii při vydávání logiky a předávání výsledků.
Ve výsledcích v reálném světě se zdá, že A520 není tak velký skok od svých předchůdců jako A720 a X4. Velká část jeho schopností při nižších výkonových intervalech se překrývá s A510 z výše uvedeného grafu a pouze v horních patrech výkonu vidíme zvýšení účinnosti. Rozdíl ve výkonu a síle mezi dvěma jádry je slibný, ale není jasné, zda při srovnání A520 s A510 uvidíme nějaké skutečné výhody v reálném světě. Koneckonců, je těžké skutečně správně změřit rozdíly ve výkonu a účinnosti mezi těmito dvěma v reálném světě.
DSU-120: Až 14 výpočetních jader
DynamIQ Shared Unit, neboli DSU, je integrací jednoho nebo více jader s paměťovým systémem L3, řídicí logikou a externími rozhraními za účelem vytvoření vícejádrového clusteru. Je to v podstatě tkanina Arm, která umožňuje všem těmto jádrům komunikovat mezi sebou a sdílet zdroje a jako tak je to poměrně důležitý kousek skládačky pro každého výrobce čipových sad, který chce postavit čip s designem jádra Arm.
V návaznosti na DSU-110 společnost Arm provedla řadu vylepšení DSU-120, která budou přínosem pro celý čip, na kterém je zahrnut. Pro začátek je nyní k dispozici až 14 jader na cluster (až 12) a podpora až 32 MB mezipaměti L3. Výrazně také zlepšuje efektivitu v řadě klíčových oblastí, včetně případu chybné vyrovnávací paměti, a zároveň snižuje únik energie.
Svým způsobem je DSU společnosti Arm páteří TCS23, protože tvoří základ toho, jak každé z těchto jader vzájemně interaguje a sdílí data. Jakákoli vylepšení zde budou přínosem pro celý cluster, ale zdá se, že většina změn souvisí se spotřebou energie a účinností.
Novým cílem je efektivita
Zdá se, že průmysl se na chvíli změnil, ale hlavní první dojem, který z těchto jader získávám, je, že účinnost je nyní název hry. Zatímco nám bylo řečeno, o kolik rychlejší je jádro X4 a jak je to vůbec nejrychlejší jádro společnosti, velmi rychle zaznamenali zlepšení efektivity provozu při nejvyšším výkonu v loňském roce namísto.
Všeobecně bylo každé zvýšení výkonu podpořeno tím, o kolik účinnější byla tato součást, a víceméně všechny změny DSU spočívaly v účinnosti a úniku energie. Výkon je důležitý, ale opravdu to vypadá, jako by se průmysl jako celek snažil zmodernizovat Výpočetní úrovně jsou efektivnější než jít na masivní nárůsty meziročního výkonu.
Očekáváme, že tato jádra budou tvořit základ MediaTek Dimensity 9400 a Qualcomm Snapdragon 8 Gen 3, ale v jaké podobě se teprve uvidí. Jak již bylo zmíněno, Arm hovořil o použití rozložení jádra 1+5+3 ve svém vlastním interním testování, ale to neznamená, že to je to, co partneři jako MediaTek a Qualcomm chtějí udělat sami.