Az ARM bejelentette a Cortex-A78 CPU architektúrát, valamint a Mali-G78 GPU-t. A kettő a Cortex-A77 CPU és a Mali-G77 GPU utódja.
A TechDay 2020 keretében az ARM három fontos bejelentést tett. A fő bejelentés a Cortex-X Custom program (CXC), amely az újdonságot tartalmazza Cortex-X1 CPU mag. A Cortex-X1 nagyobb csúcsteljesítményt biztosít, mint bármely Cortex-A sorozatú CPU, miközben áttöri a Cortex-A sorozatú PPA-t. Az ARM másik két bejelentése sokkal rutinosabb volt. A Cortex-A78 CPU és a Mali-G78 CPU immár hivatalosak, és ezek a CPU utódjai. Cortex-A77 CPU és a Mali-G77 CPU ill. Nézzük ezeket a bejelentéseket egyenként:
ARM Cortex-A78
A Cortex-A78 esetében az ARM fő hangsúlyt a hatékonysági igényekre helyezte, mint például a hosszabb akkumulátor-élettartamra, az új mobil formákra és a szűkülő SoC-területekre. A Cortex-A78 esetében itt a tartós teljesítmény a kulcsszó, míg a Cortex-X1 a sztárokat célozza azzal a céllal, hogy maximális rövid távú csúcsteljesítményt érjen el.
Az ARM szerint a Cortex-78 a „legjobb” meghajtója a csúcsteljesítmény és a kategória legjobb hatékonysága érdekében. Ezek sem csak üres szavak. Az elmúlt néhány évben a Cortex-A76 és a Cortex-A77 kategóriájában a legjobb energiahatékonyságot és kategóriájában a legjobb PPA-t (teljesítmény, teljesítmény és terület) mutatta. Nem rendelkeztek az Apple A-sorozatú chipjeivel való versenyzéshez szükséges dizájnnal, hanem az alacsonyabb miatt megtermelt energiát, energiahatékonyságuk legrosszabb esetben megegyezett az Apple-éval, és jobb esetben még magasabb is volt, mint Alma.
Az A78 teljesítménybeli fejlesztései kiterjednek a termelékenység, a kommunikáció, a biztonság és a kameraalapú feladatok, a fejlett játék, az XR és az ML-alapú élmények felhasználási eseteire.
A tartós teljesítmény terén a Cortex-A78 kétszámjegyű fejlesztéseket hoz. 20%-kal jobb tartós teljesítményt nyújt elődjéhez, a Cortex-A77-hez képest, ugyanabban a mobil hőteljesítmény-burokban. AnandTech végigment a számokon, és elmagyarázta, hogy a 20%-os szám az A77-hez képest 7%-kal magasabb IPC kombinációja, míg a A fennmaradó 13%-os teljesítménynövekedés az 5 nm-es folyamatnak van betudva, amelyen a következő generációs SoC-k mindegyike kitalált. Az ARM megjegyzi a tartós teljesítmény fontosságát, mondván, hogy a mobileszközök korlátozott kapacitással rendelkeznek szétszórja az energiát, és a tartós teljesítmény elkerüli a teljesítményfojtást a nagy igényeket támasztó alkalmazásoknál erő. Ez viszont javítja az UX-t azáltal, hogy elkerüli a késéseket vagy a képkocka-eséseket.
Az energiahatékonyság növelése magasabb energiahatékonyságot eredményez, mivel a kettő rokon, de eltérő fogalom. Az ARM szerint a nagy teljesítményű pontokon, például azokon, amelyek a jelenlegi mobileszközök csúcsát jelentik, a Cortex-A78 50%-os energiamegtakarítást kínál a 2019-es eszközökhöz képest. ugyanazon az előadáson mint a Cortex-A77. Ez lenyűgöző, és ez teszi az A78-at a valaha tervezett legenergiahatékonyabb Cortex-A CPU ARM-má.
Az ARM tartós teljesítményre való összpontosítása a mobil innováció következő hullámának hasznára válik, mint például az új formai tényezők (összecsukható telefonok), valamint az 5G-n keresztüli továbbfejlesztett „digitális merítés”. A valóság az, hogy a jelenlegi generáció esetében ez nem így van, és ennek még a következő generációban sem lesz nagy jelentősége.
Az egyik felhasználási eset, amelyet a Cortex-A78 továbbfejleszt, az AAA mobiljáték, az ARM saját új Mali-G78 GPU-jával kombinálva. A kettő kombinációjának célja, hogy high-fidelity játékélményt vigyen a mobilra. Nagyobb teljesítményük, az 5G gyors sebességével és nagy sávszélességével párosulva, prémium játékot tesz lehetővé mobilon. Az A78 hatékonysága előnyt jelent, mivel hosszabb akkumulátor-élettartamot biztosít a hosszabb játékhoz. Az ARM azt állítja, hogy az ökoszisztémával is együttműködik a teljesítmény további javítása és gazdagabb játékélmény kialakítása érdekében, és példát mutat a Unity-vel végzett munkájára, amellyel a Burst Compilert Androidra juttatta.
A gépi tanulás (ML) teljesítménye az ARM másik prioritása. A CPU az első számú processzor az ML-számításhoz mobileszközökön, bár manapság a csúcskategóriás SoC-k külön neurális feldolgozó egységekkel (NPU-kkal) rendelkeznek. Az ARM CPU-i támogatják a legnépszerűbb valós ML-alkalmazásokat, és olyan okostelefonokon használható eseteket, mint a közösségimédia-szűrők, a diktálás, a biztonság és a biztonság. A Cortex-A78 átlagosan 8%-kal kevesebb energiát használ az ML-alapú feladatokhoz az A77-hez képest, ami 10%-os hivatalos hatékonyságjavuláshoz vezet.
ARM Cortex-A78 – Építészet
Az ARM Cortex-A78 ugyanazzal az architektúrával rendelkezik, mint az előző generációé (még mindig ARM v8.2 mag). Az ARM azonban hozzáadott olyan mikroarchitektúra funkciókat, amelyek célja a teljesítmény növelése területi és energiahatékony módon. Az ARM területet és energiát takarít meg, miközben fenntartja a szükséges teljesítményszinteket. Az ARM a Cortex-A sorozatra továbbra is a terület- és energiahatékonyságra összpontosít, nem pedig a csúcsteljesítményre, amely most a Cortex-X program feladata.
A Cortex-A78 teljesítménynövekedését további mikroarchitektúra funkciók teszik lehetővé, amelyek optimalizálják a szélességet és a mélységet. Az utasítás dekódolási szélessége 4 széles marad, ugyanaz, mint az A77-nél és az A76-nál. (A Cortex-X1 dekódolási szélessége ezzel szemben 5, míg az A13 dekódolási szélessége 7 széles.) Az ARM nagyobb elágazás-előrejelzést adott a sávszélesség és a pontosság, valamint az utasítás-fúziós esetek tekintetében. Ezek az építészeti fejlesztések 7%-kal növelik az egyszálas teljesítményt az A77-hez képest.
A hatékonyság maximalizálása az alacsony teljesítményű és területű struktúrák csökkentésével, például az L1-I és L1-D gyorsítótárak csökkentésével történt. Az ARM optimalizálta a meglévő struktúrákat, hogy kevesebb energiát fogyasztson, például a márka előrejelzési struktúráit. Az ARM szerint ez 4%-kal kevesebb mW-onkénti teljesítményt és 5%-kal kisebb területet jelent az A77-hez képest.
Az A78 továbbra is a tartós teljesítményre összpontosít, kategóriájában a legjobb hatékonyság mellett a klaszterek szintjén. A 4x Cortex-A77 és 4x Cortex-A55 CPU-ból álló DynamIQ-fürt 4x A78 és 4x A55 magosra bővíthető. Ez 20%-kal tartós teljesítménynövekedést biztosít 15%-kal kevesebb területen. Azok az alkalmazások, amelyek párhuzamosan több nagy teljesítményű szálat igényelnek, mint például a high-fidelity játékok, előnyösek a tartós teljesítménynövelésnek köszönhetően.
Az ARM megjegyzi, hogy az A78 DynamIQ klaszter megnövelt területhatékonysága ideálissá teszi az összecsukható telefonokhoz, valamint több és nagyobb kijelzőhöz. A másik hangsúly az okostelefonok 5G-re való felkészítésén van a teljesítmény- és energiafejlesztések révén. Az 5G állítólag "sokkal gyorsabb sebességet", "sokkal alacsonyabb késleltetést" és "sokkal gyorsabb és mindenütt elérhetőbb kapcsolatot biztosít a mobileszközök számára a nagy sávszélességű alkalmazásokhoz". Lehet, hogy ez a helyzet néhány év múlva, de jelenleg ezeknek az előnyöknek a többsége nem észrevehető a végfelhasználók számára.
Összességében a Cortex-A78 szilárd termék. A következő generációs zászlóshajó SoC-k több A78 magot tartalmaznak majd, hogy kiegészítsék az egyetlen Cortex-X1 magot, magasabb teljesítmény- és területigényekkel rendelkezik, és egyes értékorientált SoC-k még a Cortex-X1 kihagyását is választják teljesen. A középkategóriás SoC-piacon az A78 lesz a választott CPU mag a 2021-es SoC-k számára, és üdvözlendő, hogy a tartós teljesítményre összpontosít.
ARM Mali-G78
Az ARM Mali GPU-sorozata finoman szólva sem volt olyan sikeres, mint a Cortex CPU-sorozata. A mali GPU-k teljesítményét és energiahatékonyságát tekintve évről évre folyamatosan felülmúlták az Apple egyedi GPU-i és a Qualcomm egyedi Adreno GPU-i. Az új Valhall architektúra és a Mali-G77 GPU tavalyi bevezetése sajnos semmit sem változtatott ezen. A Mali-G77-et tartalmazó SoC-k tartalmazták a Exynos 990 és a MediaTek Méret 1000L illetőleg. Sajnos úgy tűnt, hogy mindkettőjük implementációja gyenge volt, ami azt jelentette, hogy a GPU teljesítménye csökkent nem versenyez a Qualcomm Adreno 650 GPU-jával, nem számít az Apple kategóriavezető GPU-i az Apple A12-ben és A13. Mali évek óta lemaradt, és fejlesztései nem voltak elegendőek ahhoz, hogy megváltoztassák a mobil GPU-tér állapotát.
Ennek ellenére az ARM semmi, ha nem optimista. Megjegyzi, hogy partnerei évente több mint egymilliárd Mali GPU-t szállítottak le, így Mali a világ első számú szállított GPU-ja. Ez a szám állítólag csak növekedni fog, mivel egyre több különböző típusú eszköz teszi lehetővé az intenzív grafikai felhasználást, például a fejlett mobiljátékokat és az XR-t (VR és AR). Az ARM szerint ez teszi Malit a mobilfejlesztés legszélesebb körben használt GPU-jává az ökoszisztémában.
Az ARM megjegyzi, hogy 2019-ben bejelentette első Valhall architektúrán alapuló GPU-ját, a Mali-G77-et. 2020-ban a G77-et a szintén Valhall architektúrára épülő Mali-G78 váltja fel. Míg az ARM azt állítja, hogy ez az eddigi legnagyobb teljesítményű GPU a prémium mobileszközökhöz, a számok nem támasztják alá ezt annak ellenére, amit az ARM ironikusan mond arról, hogy a számok alátámasztják ezt a tényt. A G78 25%-os teljesítményjavulást hoz a G77-hez képest, ami enyhén szólva csekély. A G77 és az Apple A13 GPU-ja közötti különbség jelentős volt a GPU csúcsteljesítményében, ami azt jelenti, hogy a G78 nem fogja tudni utolérni az A13-at, nem számít a közelgő Apple A14 GPU-ja. A Qualcomm továbbra is egy lépéssel előtte marad a saját fokozatos teljesítményjavításainak köszönhetően.
A játékot megváltoztató grafika és a mobilon való egész napos játék már más GPU-kon is lehetséges, így az ARM marketingje itt kissé üresen cseng.
Az ARM szerint a Mali-G78 a fejlesztők és a végfelhasználók szem előtt tartásával készült. Kiváló minőségű mobil játékélményt tesz lehetővé a mobilokon már elérhető konzolos játékokkal. A G78 hosszabb akkumulátor-élettartamot hoz a prémium mobileszközökön. Ezenkívül további ML-teljesítménynövekedést biztosít a mobileszközök bonyolultabb játék-, videó-, kamera- és biztonsági ML-funkcióihoz.
Az ARM dühös a mobiljátékok kilátásaival kapcsolatban. A mobiljátékok a globális játékpiac több mint 46%-át tették ki 2019-ben, és 68,2 milliárd dolláros bevételt értek el. A következő néhány évben is tovább fog növekedni, mivel mind a PC-s, mind a konzolos játékokat felülmúlja. Több prémium játékcím érkezik mobilra, és a felhasználók hasonló élményt várnak mobilon, mint a konzolokon.
Ahhoz, hogy ezeket az élményeket lehetővé tegye, a Mali-G78 a szükséges teljesítménynöveléssel rendelkezik. A G77-hez képest 15%-kal jobb teljesítménysűrűséget mutat a játéktartalom tekintetében. Az előző generációval azonos nagyságú területen a G78 nagyobb teljesítményt nyújt. Ezt a növekedést négy fő funkció teszi lehetővé:
- Akár 24 mag támogatása
- Aszinkron felső szint
- Burkolat fejlesztések
- Továbbfejlesztett töredékfüggőség követés
Míg a G77 maximális magszáma 16 volt, az ARM a G78 maximális magszámát 24 magra növelte. Természetesen attól, hogy megvan a maximum, még nem jelenti azt, hogy a mobilchip-gyártók ténylegesen 24 magot építenek be. A G77 legszélesebb magváltozata, amelyet eddig láttunk, a Mali-G77MP11 az Exynos 990-en, míg a Dimensity 1000-ben egy Mali-G77MC9 található.
Az ARM úgy véli, hogy az Asynchronous Top Level egy játékmódosító funkció a GPU teljesítményében. Állítólag ez a lehető legtöbb teljesítményt kicsikarja a mobiljátékokból, így biztosítva a maximális teljesítményt.
A burkolólapok fejlesztései viszont további minőségi réteget adnak a mobiljátékokhoz. A PC-ről és konzolról áthozott játékok gyakran rendkívül bonyolult eszközökkel és kifinomult jelenetekkel rendelkeznek, ami a teljesítményben akadozó pontokat és szűk keresztmetszeteket okoz. A burkolólapok fejlesztései csökkentik a GPU csúcsterhelését ezeknél az összetett jeleneteknél és eszközöknél. Ez javítja a bonyolult konzolszerű játéktartalom teljesítményét.
Az ARM a G78-on is javította a töredékfüggőség nyomon követését. Ez különösen az összetett játékjelenetekkel rendelkező mobiljátékokat érinti, amelyek füstöt, fákat és füvet tartalmaznak. Az eredmények szerint az ARM a G77-hez képest akár 17%-os teljesítménynövekedést is tapasztalt a legjobb mobiljátékokon.
A Mali-G78 energiahatékonysága 10%-kal jobb, mint elődje. Ez megint nem lesz elég ahhoz, hogy utolérjük a Qualcommot vagy az Apple-t. Az ARM céljai itt különösen konzervatívnak tűnnek. Az Asynchronous Top Level funkció fontos szerepet játszik az energiahatékonyságban, mivel lehetővé teszi az energiafogyasztás csökkentését, így a tartalom fenntartható módon történő előállítását. Ezért, amikor egy eszköz a kívánt képkockasebességgel ad ki tartalmat, az energiatakarékosság érdekében lelassulhat. A felső szint növelése ennél a feladatnál valamivel több energiát használ fel, de a shader magok frekvenciájának csökkentéséből származó energiamegtakarítás sokkal nagyobb. Ennek az az oka, hogy a shader magok a GPU energiaköltségvetésének 90-95%-át használják fel.
A G78 jobb energiahatékonysága a Fused multiply-add (FMA) révén is elérhető. Az alapoktól kezdve teljesen újratervezték, ami 30%-os energiamegtakarítást eredményezett az egységben. Az FMA egység felelős a legtöbb számításért, amely a GPU-n belül történik, és ezért volt értelme, hogy az ARM az energiacsökkentést célozza meg.
A GPU párhuzamos adatfeldolgozási képessége alkalmassá teszi az ML munkaterhelések futtatására, bár az ARM elismeri, hogy a CPU és a GPU továbbra is az ML elsődleges processzorai. Ahogy a használati esetek bonyolultabbá válnak, egyes munkaterhelések átkerülnek a GPU-ra. A GPU főbb ML használati esetei az eszköz biztonsági funkcióihoz, a különböző kamera- és videómódokhoz, valamint az AR funkciókkal rendelkező alkalmazásokhoz kapcsolódnak.
Az ML szerepe a GPU-n olyan élményeket tesz lehetővé, mint az arckövetés a kép- vagy videókereten belül, az AR-funkciókat használó játékok stb. Ezeknél az ML-alapú feladatoknál a Mali-G78 átlagosan 15%-os teljesítménynövekedést mutat különböző ML munkaterheléseknél a G77-hez képest. A G77 60%-os javulást hozott az ML teljesítményében az előző generációkhoz képest, így az idei év/év javulás jóval kisebb. Az aszinkron felső szint létfontosságú az ML-teljesítmény növelésében, mivel a shader magok órajele segít a különböző ML-használati esetekben a GPU-n.
Aztán ott van a Mali-G68 bejelentése. Ez nem más, mint a Mali-G78 szűkebb változata, ahogy a Mali-G57 is a Mali-G77 szűkebb változata volt. Az ARM szerint ez az első szubprémium Mali GPU a 2021-es eszközökhöz. A G78 összes funkciójával rendelkezik, mint például a burkolólap fejlesztések és az új FMA egység a végrehajtó motorban, de 24 helyett legfeljebb 6 magot támogat. Ennek a GPU-nak a célja a közel prémium teljesítmény alacsonyabb költség mellett.
Az ARM ezt a szubprémium GPU-szintet azután fejlesztette ki, hogy meghallgatta azon partnerek visszajelzéseit, akik prémium funkciókat kívántak eszközportfóliójukban. A G68 a várakozásoknak megfelelően alacsonyabb szilíciumfelülettel rendelkezik, és a fejlesztők és a fogyasztók szélesebb közönsége számára nyújt nagy teljesítményű játékot.
Végül az ARM megemlíti fejlesztői partnerségeit. Ez megkönnyíti a fejlesztők számára a tartalom optimalizálását, hogy jobban fussanak Mali GPU-kon (elméletileg). Ilyen például a Performance Advisor. A második az ARM és a Unity együttműködése a Burst Compiler elkészítésében. Ennek részletei a forráscikkben olvashatók.
Mali-G78 – Outlook
A Mali-G78 kilátásai borúsak. Úgy tűnik, mintha az ARM nem érdekelt abban, hogy évről évre jelentős teljesítményjavítást hajtson végre ugyanazon a formán, amelyet az Apple készít, ugyanabban a formában, amelyet a Qualcomm készített a múltban. Noha a Qualcomm javulási üteme is lelassult, az alapértéke magasabb, mint az ARM. Rossznak tűnik az Android ökoszisztémája számára, amikor a bírálók számszerű bizonyítékokkal állítják, hogy az A13 GPU-jának tartós teljesítménye magasabb, mint a Snapdragon 865 csúcsteljesítménye. Az Apple és az Android GPU-k közötti teljesítménykülönbség növekszik, és csak növekszik.
A G78 tehát nem varázslatos megoldás az ARM mali GPU-problémáinak megoldására és a teljesítménylisták élére hozására. Továbbra is az Apple és a Qualcomm GPU-i alatt lesz. Ez lesz az alapértelmezett választás néhány SoC esetében csak azért, mert ez az ARM gyári GPU IP-je, és az egyedi megoldások belépési korlátokba ütköznek, és többe kerülnek jól.
Jövőre kétséges, hogy a Samsung Systems LSI valóban a Mali-G78-at fogja-e használni. A Samsung nagy horderejű vásárlója volt a mali GPU-knak, de tavaly együttműködési szerződést írt alá az AMD-vel az RDNA GPU architektúra létrehozására mobil SoC-jaihoz 2021-ben. Ha ez az ütemterv a pályán marad – és jelenleg nincs okunk gyanítani, hogy nem jó úton halad –, akkor az Exynos 990 utódja egy AMD RDNA GPU-t fog tartalmazni Mali GPU helyett. Ez valóban nagy tervezési veszteség lesz az ARM számára. Manapság még más szállítók, például a MediaTek is több lehetőséget kínálnak. Az Imagination Technologies újdonsága A-sorozatú GPU architektúra tervezési célja a G78-nál nagyobb teljesítmény, és lehetséges, hogy a MediaTek a jövőben eltér Malitól. A Qualcommnak természetesen nincs oka feladni az Adreno GPU-ra irányuló erőfeszítéseit, amelyek továbbra is fennállnak kategóriájában a legjobb teljesítmény és hatékonyság tekintetében, ha kizárólag az Androidról beszélünk okostelefon piac.
Így egyértelmű, hogy az ARM-nek növelnie kell a mali GPU-k éves fejlesztéseinek ütemét, hogy valódi változást érjen el a mobil GPU-piacon. Ha ezt nem tudja megtenni, fennáll annak a veszélye, hogy a prémium zászlóshajó mobil GPU-térben utógondolat lesz.
ARM Ethos N78
Végül az ARM bejelentette az Ethos N78 neurális feldolgozó egységet (NPU). Ez az N77 NPU utódja. Nagyobb eszközön belüli ML-képességeket és akár 25%-kal nagyobb teljesítmény-hatékonyságot biztosít. A konfigurálhatóság is erős, mivel a rendelkezésre álló konfigurációk 1 TOP/s-tól 10 TOP/s-ig terjednek. További részletekért nézze meg ARM blogbejegyzése. Ennek az NPU-nak valószínűleg korlátozott tervezési nyereményei lesznek, mivel a Qualcomm, a Samsung, a HiSilicon és a MediaTek mindegyike rendelkezik saját neurális feldolgozó egységekkel/AI-motorokkal.
Források: ARM (1, 2), AnandTech (1, 2)