Az Arm új Cortex X4, A720 és A520 csak 64 bites magok, amelyek nagy hangsúlyt fektetnek a hatékonyságra

Bejelentették az Arm új magjait a 2023-as Total Compute Solution részeként, és nagyon érdekesek.

Gyors linkek

Csak 64 bites: "Küldetés teljesítve"

Cortex-X4 kar: Még nagyobb teljesítmény és jobb hatékonyság

Cortex-A720 kar: A teljesítmény és az energiafogyasztás kiegyensúlyozása

Cortex A520 kar: A hatékonyság megduplázása

DSU-120: Akár 14 mag jó számítási teljesítmény

A hatékonyság az új cél

Az Arm az a cég, amely szinte az összes CPU magot megtervezi, amelyet végül az Android okostelefonjában használnak, és minden évben új iterációkat jelent be, amelyek később olyan lapkakészletekbe is bekerülnek, mint az év zászlóshajója a Snapdragon vagy a következő zászlóshajó MediaTek Méret. Idén egy zászlóshajó Cortex-X4 magot, egy Cortex-A720 teljesítménymagot és egy Cortex-A520 hatékonyságú magot ad ki. Ezek a magok képezik a vállalat új Arm v9.2-kompatibilis tervezésének és a vállalat 2023-as Total Compute Solution-jának vagy a TCS23-nak az alapját. Ezen felül egy új DynamIQ Shared Unit-t és egy frissített Immortalis-G720 GPU-t is láthatunk. Még ennél is nagyobb a teljes átállás a 64 bites számítástechnika felé, és ezen magok egyike sem támogatja a 32 bitet.

Mindhárom új mag a tavalyi mikroarchitektúra utódja, és elsősorban az IPC bevezetésére és a hatékonyság növelésére összpontosítanak.

Csak 64 bites: "Küldetés teljesítve"

Az egyik legnagyobb változás az Arm idei Total Compute Solution-jában a csak 64 bitesre való átállás. Míg a tavalyi A510R1 támogatta a 32 bites AArch32 végrehajtási módot, akárcsak a tavaly TCS22-vel induló A710, idén az Arm magjai csak AArch64. Különösen azóta ketyeg az óra az Android 32 bites alkalmazásainál A Google maga kötelezte az összes alkalmazás frissítését 2019 óta 64 bites binárisként vannak feltöltve.

Ahogy Arm fogalmaz, a 64 bites átmenetet "megvalósult küldetésnek" tekintik. Ennek az az oka, hogy a kínai alkalmazáspiac az, ami visszatartotta az iparág többi részét az átállásban, de a kínai alkalmazásboltokban található alkalmazások túlnyomó többsége már 64 bites kompatibilis, is.

A késés oka a homogenizált alkalmazásökoszisztéma hiánya volt, vagyis a különböző alkalmazásboltok eltérő szabványokat követeltek meg a fejlesztőktől. Mivel az Arm számos alkalmazásbolttal dolgozott együtt Kínában, az elmozdulásra vonatkozó többszöri figyelmeztetések mellett ezek az alkalmazásboltok is váltásra ösztönözték a fejlesztőket.

Úgy tűnik, eljött az idő, hogy ez az átállás teljes egészében megtörténjen, és mindenesetre még néhány hónapnak kell eltelnie, amíg meglátjuk ezeket az Arm magokat új lapkakészletekben.

Cortex-X4 kar: Még nagyobb teljesítmény és jobb hatékonyság

Az Arm X sorozatú magjai néhány évvel ezelőtt eltértek az A sorozattól, azzal a filozófiával, hogy ez egy erős mag, amely egy kicsit több energiát fogyaszthat el, amikor szüksége van rá. A lapkakészlet-gyártók általában legfeljebb egy-kettőt tartalmaznak ezekből, mivel energiaéhesek, még a képességeik ellenére is.

Amint a fenti grafikonon is látható, a Cortex-X4 az eddigi legerősebb Arm mag, de ezek a számítási képességek az energiafogyasztás árán vannak. A Cortex-X4 hasonló a tavalyi X3-hoz, és ahogy Arm fogalmazott, akár a tavalyi maggal megegyező frekvencián is futhat, és akár 40%-kal kevesebb energiát fogyaszt. Fizikai méretét tekintve kevesebb, mint 10%-kal nagyobb, és a valaha épített leghatékonyabb Cortex-X mag.

Ami azt illeti, hogy honnan származnak ezek az IPC fejlesztések, az X4 számos elő- és háttérfejlesztést tartalmaz. Ezekben a kezelőfelületi fejlesztésekben nagy mennyiségű munkát fektettek az elágazás-előrejelzések újraírására és javítására, mivel a hibás ág-előrejelzések költségesek és teljesítmény szempontjából költségesek. Az Arm azt is ígéri, hogy a 2 MB-os L2 gyorsítótár nagyobb teljesítményt nyújt, nem annyira a benchmarkokban, hanem a valós használatban.

Az új Cortex-X4 mag 6-ról 8-ra növeli az aritmetikai logikai egységek (ALU) számát, és egy további ágat ad hozzá egység (összesen 3), hozzáad egy extra szorzó-akkumulátor egységet, valamint lebegőpontos és négyzetgyök csővezetékeket tevékenységek.

Ami a hátlapot illeti, számos fejlesztés is történt. A betöltési-tároló címek generálása három utasításról ciklusonként négyre változott, mivel a rakománytároló csővezetéket felvették és felosztották. Az L1-ben megduplázott fordítási félreeső puffer is található, valamint a banki konfliktusok javítása.

Mindezek együttesen lenyűgöző teljesítménynövekedést hoznak az Arm's Cortex-X4-ben. Összességében átlagosan 15%-os teljesítményjavulásra lehet számítani a Cortex-X4-el. Az Arm által megosztott teljesítmény- és teljesítménygörbén az X4 mind teljesítményben, mind energiafogyasztásban megelőzi az X3-at. Más szavakkal, ez a 15%-os teljesítménynövekedés meglehetősen jelentős energiafogyasztással jár. Érdemes azonban azt is megemlíteni, hogy ez nem egészen alma-alma összehasonlítás; a Cortex-X3 tavaly 1 MB L2 gyorsítótárral érkezett, ami azt jelenti, hogy ha egy gyártó ragaszkodik ehhez az L2 gyorsítótár méretéhez idén, akkor nem feltétlenül lesz 15%-os teljesítménynövekedés.

Egy dolog azonban biztos, és az, hogy ha az X4-et maximális sebességgel futtatja, akkor az valószínűleg nagy teljesítményfaló lesz. Előfordulhat, hogy idén néhány OEM-gyártó továbbra is ugyanazt csinálja, mint tavaly, és sok idei lapkakészletet kidob a dobozból. Például a OnePlus és az Oppo is ezt teszi, és az energiahatékonyság növekedésével párhuzamosan fut teljesítménypontokat, mint az X3, valószínűleg előnyökkel jár majd ezeknek a vállalatoknak a folytatása így. Lehet, hogy nem látjuk azt a 15%-os teljesítménynövekedést az egész fórumon, de ehelyett további hatékonyságjavulást tapasztalhatunk a jövő évi lapkakészleteknél.

Cortex-A720 kar: A teljesítmény és az energiafogyasztás kiegyensúlyozása

Míg az Arm's X sorozatú magokat általában kissé vadul hagyják, az A sorozatú magok általában az energiafogyasztás és a teljesítmény közötti egyensúly megteremtését célozzák. A Cortex-A720-zal az Arm 20%-kal hatékonyabb magot ígér, a tavalyi A715-tel azonos teljesítmény mellett megnövelt teljesítmény mellett.

Ami az idei A720-as fejlesztéseket illeti, a legtöbbjük az előlapon található. A csővezetékeket lerövidítették, és egy ciklust eltávolítottak a félrejósló ágból, és ez az egyetlen ciklusú csökkenés állítólag 1%-os növekedést jelent a referenciaértékekben. A benchmarkok általában a legkevesebb ági téves előrejelzést eredményezik, ami azt jelenti, hogy ez valószínűleg jelentősebb (de nagyrészt mérhetetlen) mértékben javítja az általános valós teljesítményt.

A renden kívüli magban számos olyan szerkezeti fejlesztést látunk, amelyek segítenek a teljesítmény javításában anélkül, hogy befolyásolnák a mag által elfoglalt területet vagy annak hatékonyságát. Kezdetnek, csakúgy, mint az X4-ben, a lebegőpontos osztások és a négyzetgyök műveletek most csővezetékesek. A lebegőpontos, NEON és SVE2 számokról egész számokra való gyorsabb átvitel, valamint egyéb általános fejlesztések a feldolgozás felgyorsítása érdekében.

Arm megosztotta a fenti grafikont, hogy szemléltesse, hogyan viszonyul az A720 a tavalyi A715-höz teljesítményben és hatékonyságban, ahol ISO-folyamatot és ISO-frekvenciát használ a SPECint_base2006. A gyorsítótár mérete is változatlan marad, tehát ez egy alma-alma összehasonlítás.

Az A720 energiafogyasztását tekintve nagyjából megegyezik a tavalyi modellel, bár egy kicsivel nagyobb teljesítményt produkál azonos teljesítményszint mellett. Az A720-nál, akárcsak az X4-nél, az Arm úgy tűnik, hogy jobban rávilágít arra, hogyan javul a teljesítményt a tavalyi teljesítménykorlátokból, ahelyett, hogy folyamatosan növelnék a magok teljesítményét képes.

Cortex A520 kar: A hatékonyság megduplázása

Természetesen, ha az Arm magjairól van szó, akkor nem minden a teljesítményen múlik. Mivel az X sorozat mindent a nyers számítási teljesítménybe tesz, és az A7xx kiegyensúlyozza a számítási igényeket és az energiafelvételt, az A5xx sorozat pusztán a hatékony feldolgozásra összpontosít. Ez a legalacsonyabb területi teljesítményű Arm v9.2 mag, és ugyanarra az egyesített magos architektúrára épül, amelyet az A510-nél láttunk.

Ez az egyesített magarchitektúra azt jelenti, hogy bizonyos erőforrásokat meg lehet osztani két mag között, ahol két mag lehet "komplexumba" csoportosítva. Az L2 gyorsítótár, az L2 fordítási külső puffer és a vektoros adatútvonalak ezen belül vannak megosztva összetett. Hogy világos legyen, ez nem azt jelenti van két magba kell kötni, és egy egymagos komplexet lehet összeállítani a csúcsteljesítmény érdekében. Valójában az Arm egyik TCS2023 mag-elrendezése, amelyről azt mutatták be, egyetlen X4 magot, öt A720 magot és három A520 magot tartalmaz, ami azt jelenti, hogy legalább egy A520 mag elszigetelten van.

Az A520 a hatékonyság szempontjából az első, és a többi maghoz hasonlóan az Arm is nagymértékben a hatékonyság javítására összpontosított ugyanazokon a teljesítménypontokon, mint az utolsó generáció. Ez magában foglalja az elágazás előrejelzésének javítását, valamint egyes teljesítményjellemzők eltávolítását vagy kicsinyítését. Ezt a teljesítményt a nagyobb hatékonyságnak köszönhetően sikerült helyreállítani. Érdekes módon az Arm eltávolította a harmadik ALU-t, amely az A510-ben volt, így energiát takarít meg a logika kiadásában és az eredmények továbbításában.

A valós eredményekben úgy tűnik, hogy az A520 nem olyan nagy ugrás az elődeihez képest, mint az A720 és az X4. A képességek nagy része kisebb teljesítményintervallumon átfedésben van az A510-el a fenti grafikonon, és csak a teljesítmény felső szintjén tapasztalunk hatékonyságnövekedést. A két mag teljesítményében és teljesítményében mutatkozó eltérés ígéretes, de nem világos, hogy az A520 és az A510 összehasonlítása során látunk-e tényleges, valós előnyöket. Végül is nehéz megfelelően mérni a kettő teljesítmény- és hatékonyságbeli különbségeit a való világban.

DSU-120: Akár 14 mag jó számítási teljesítmény

A DynamIQ Shared Unit (DSU) egy vagy több magot integrál egy L3 memóriarendszerrel, vezérlőlogikával és külső interfészekkel, hogy többmagos klasztert hozzon létre. Lényegében az Arm's szövete, amely lehetővé teszi, hogy ezek a magok kommunikáljanak egymással, és megosszák az erőforrásokat így ez egy meglehetősen fontos eleme a kirakósnak minden chipset-gyártó számára, aki az Arm alapvető terveivel szeretne chipet építeni.

A DSU-110-re építve az Arm számos fejlesztést hajtott végre a DSU-120-on, amelyek a benne lévő teljes chip javát szolgálják. Kezdetnek most már akár 14 mag is elérhető fürtönként (12-ről), és akár 32 MB L3 gyorsítótár is támogatott. Számos kulcsfontosságú területen is nagymértékben javítja a hatékonyságot, beleértve a gyorsítótár kihagyását, miközben csökkenti az áramszivárgást is.

Bizonyos értelemben az Arm's DSU a TCS23 gerince, mivel ez képezi az alapját annak, hogy az egyes magok hogyan kommunikálnak egymással és hogyan osztanak meg adatokat. Az itt végzett fejlesztések az egész klaszter számára előnyösek, de úgy tűnik, hogy a legtöbb változás az energiafogyasztáshoz és a hatékonysághoz kapcsolódik.

A hatékonyság az új cél

Az iparág látszólag átalakulóban van egy ideje, de az az első benyomásom, amit ezekről a magokról kapok, az az, hogy a hatékonyság a játék neve. Miközben azt mondták nekünk, hogy mennyivel gyorsabb az X4 mag, és hogy ez a cég valaha volt leggyorsabb magja, nagyon gyorsan észrevették a tavalyi csúcsteljesítmény melletti üzemeltetés hatékonyságának javulását helyette.

Mindent összevetve, minden teljesítménynövekedést az támasztott alá, hogy az alkatrész mennyivel hatékonyabb volt, és többé-kevésbé a DSU összes változása a hatékonyságban és az áramszivárgásban volt. A teljesítmény fontos, de nagyon úgy tűnik, hogy az iparág egésze megpróbálja aktuálissá tenni A számítási szintek hatékonyabbak a hatalmas teljesítmény helyett, évről évre nő.

Arra számítunk, hogy ezek a magok alkotják majd a MediaTek Dimensity 9400 és a Qualcomm Snapdragon 8 Gen 3 alapjait, de hogy milyen formában, az majd kiderül. Ahogy korábban említettük, Arm beszélt arról, hogy saját belső tesztelése során 1+5+3-as magelrendezést használ, de ez nem jelenti azt, hogy az olyan partnerek, mint a MediaTek és a Qualcomm maguk is ezt akarják tenni.