Spoločnosť ARM oznámila architektúru CPU Cortex-A78, ako aj GPU Mali-G78. Dvaja sú nástupcami CPU Cortex-A77 a GPU Mali-G77.
V rámci svojho TechDay 2020 spoločnosť ARM urobila tri hlavné oznámenia. Hlavným hlavným oznámením je program Cortex-X Custom (CXC), ktorý obsahuje novinku Jadro procesora Cortex-X1. Cortex-X1 prináša vyšší špičkový výkon ako ktorýkoľvek CPU série Cortex-A, pričom prelomí obálku PPA série Cortex-A. Ďalšie dve oznámenia, ktoré ARM urobil, boli oveľa rutinnejšie. CPU Cortex-A78 a CPU Mali-G78 sú teraz oficiálne a fungujú ako nástupcovia Cortex-A77 CPU a Mali-G77 CPU resp. Pozrime sa na tieto oznámenia jeden po druhom:
ARM Cortex-A78
Pri Cortex-A78 sa ARM zameral na požiadavky na efektivitu, ako sú požiadavky na dlhšiu výdrž batérie, nové mobilné tvarové faktory a zmenšujúce sa oblasti SoC. Trvalý výkon je kľúčovým slovom pre Cortex-A78, zatiaľ čo Cortex-X1 strieľa ku hviezdam s cieľom dosiahnuť maximálny krátkodobý špičkový výkon.
ARM hovorí, že Cortex-78 predstavuje „to najlepšie“ z jeho snahy o špičkový výkon pri najlepšej účinnosti vo svojej triede. Ani to nie sú len prázdne reči. Za posledných pár rokov vykazovali Cortex-A76 a Cortex-A77 najlepšiu energetickú účinnosť vo svojej triede a najlepší PPA (výkon, výkon a plocha) vo svojej triede. Nemali dizajn potrebný na to, aby konkurovali čipom Apple série A, ale kvôli nižším energie, ich energetická účinnosť bola prinajhoršom rovnaká ako u Apple a prinajlepšom ešte vyššia ako Apple.
Vylepšenia výkonu A78 pokrývajú prípady použitia v oblasti produktivity, komunikácie, zabezpečenia a úloh založených na fotoaparáte, pokročilých hrách, XR a ML.
V trvalom výkone prináša Cortex-A78 dvojciferné vylepšenia. Poskytuje 20% zlepšenie trvalého výkonu v porovnaní so svojim predchodcom Cortex-A77 v rovnakej mobilnej tepelnej obálke. AnandTech prešiel číslami a vysvetlil, že údaj o 20 % je kombináciou o 7 % vyššieho IPC oproti A77, zatiaľ čo Zvyšných 13 % nárastu výkonu sa pripisuje 5nm procesu, na ktorom budú všetky SoC novej generácie vymyslené. ARM poukazuje na dôležitosť trvalého výkonu tým, že mobilné zariadenia majú obmedzenú kapacitu rozptýli výkon a trvalý výkon zabraňuje obmedzovaniu výkonu pri aplikáciách vyžadujúcich veľa moc. To zase zlepšuje UX tým, že sa vyhýba oneskoreniu alebo poklesu snímok.
Tlak na energetickú účinnosť sa premieta do vyššej energetickej účinnosti, keďže tieto dva spolu súvisia, ale sú odlišné. Podľa ARM ponúka Cortex-A78 vo vysokovýkonných bodoch, ako sú tie, ktoré sú špičkou pre súčasné mobilné zariadenia, 50% úsporu energie oproti zariadeniam v roku 2019. pri rovnakom výkone ako Cortex-A77. To je pôsobivé a robí to z A78 energeticky najefektívnejší procesor Cortex-A ARM, aký kedy navrhol.
Zameranie ARM na trvalý výkon bude prínosom pre ďalšiu vlnu mobilných inovácií, ako sú nové tvarové faktory (skladacie telefóny), ako aj vylepšené „digitálne ponorenie“ prostredníctvom 5G. Realita je taká, že pre súčasnú generáciu to tak nie je a ani v ďalšej generácii to nebude veľmi záležať.
Jedným z prípadov použitia, ktoré bude Cortex-A78 vylepšené, je mobilné hranie AAA v kombinácii s vlastným novým GPU Mali-G78 od ARM. Cieľom kombinácie oboch je priniesť herné zážitky s vysokou vernosťou do mobilu. Ich vyšší výkon v spojení s vysokou rýchlosťou 5G a veľkou šírkou pásma umožní prémiové hranie na mobile. Efektivita A78 tu má výhodu, pretože poskytne dlhšiu výdrž batérie pre dlhšie hranie. ARM hovorí, že tiež spolupracuje s ekosystémom na ďalšom zvyšovaní výkonu a vytváraní bohatších herných zážitkov a uvádza príklad svojej práce s Unity na prenesení Burst Compiler pre Android.
Výkon strojového učenia (ML) je ďalšou prioritou pre ARM. CPU je procesor prvej voľby pre ML computing na mobilnom zariadení, hoci v súčasnosti sa špičkové SoC dodávajú so samostatnými neurónovými procesorovými jednotkami (NPU). Procesory ARM podporujú najpopulárnejšie reálne aplikácie ML a prípady použitia na smartfónoch, ako sú filtre sociálnych médií, diktovanie, bezpečnosť a zabezpečenie. Cortex-A78 využíva v priemere o 8 % menej energie na úlohy založené na ML v porovnaní s A77, čo vedie k 10 % oficiálnemu zlepšeniu účinnosti.
ARM Cortex-A78 - Architektúra
ARM Cortex-A78 má rovnakú architektúru ako predchádzajúca generácia (stále ide o jadro ARM v8.2). ARM však pridal mikroarchitektonické funkcie, ktorých cieľom je zvýšiť výkon v oblasti a energeticky efektívnym spôsobom. ARM šetrí plochu a energiu pri zachovaní potrebnej úrovne výkonu. Opäť platí, že zameranie ARM na sériu Cortex-A zostáva skôr na plošnú a energetickú účinnosť než na špičkový výkon, čo je teraz úlohou programu Cortex-X.
Zlepšenie výkonu Cortex-A78 je umožnené prostredníctvom ďalších mikroarchitektonických funkcií, ktoré optimalizujú šírku a hĺbku. Šírka dekódovania inštrukcie zostáva na 4-šírke, rovnako ako u A77 a A76. (Na druhej strane, šírka dekódovania Cortex-X1 je 5 šírky, zatiaľ čo A13 má 7 šírky dekódovania.) ARM pridal väčšiu predikciu vetvenia pre šírku pásma a presnosť, ako aj prípady fúzie inštrukcií. Tieto architektonické vylepšenia umožňujú 7% zvýšenie výkonu s jedným vláknom oproti A77.
Efektívnosť bola maximalizovaná znížením štruktúr, ktoré majú nízky výkon a plochu, ako napríklad na vyrovnávacích pamätiach L1-I a L1-D. ARM optimalizoval existujúce štruktúry, aby spotrebovali menej energie, ako napríklad štruktúry predikcie značky. ARM hovorí, že to vedie k 4% menšiemu výkonu na mW a 5% menšej ploche výkonu na mm2 v porovnaní s A77.
A78 sa zameriava na trvalý výkon pri najlepšej účinnosti vo svojej triede na úrovni klastra. Klaster DynamIQ so 4 procesormi Cortex-A77 a 4x Cortex-A55 možno upgradovať na 4 jadrá A78 a 4 jadrá A55. To poskytuje 20% trvalé zlepšenie výkonu na 15% menšej ploche. Aplikácie, ktoré vyžadujú paralelne niekoľko vysokovýkonných vlákien, ako napríklad hranie hier s vysokou presnosťou, budú mať prospech z trvalého tlaku na výkon.
ARM poznamenáva, že zvýšená plošná efektivita klastra A78 DynamIQ ho robí ideálnym pre skladacie telefóny a viaceré a väčšie displeje. Ďalším cieľom je pripraviť smartfóny na 5G prostredníctvom vylepšenia výkonu a energie. 5G údajne poskytuje „oveľa vyššie rýchlosti“, „oveľa nižšiu latenciu“ a „oveľa rýchlejšie a všadeprítomnejšie pripojenie pre mobilné zariadenia pre aplikácie s vysokou šírkou pásma“. Môže to tak byť o niekoľko rokov, ale v súčasnosti väčšina z týchto výhod nie je pre koncových spotrebiteľov viditeľná.
Celkovo je Cortex-A78 solídny produkt. Vlajková loď SoC novej generácie bude obsahovať viacero jadier A78, ktoré dopĺňajú jediné jadro Cortex-X1, ktoré má vyššie požiadavky na výkon a plochu a niektoré SoC orientované na hodnotu sa dokonca rozhodnú vynechať Cortex-X1 úplne. Pre trh SoC strednej triedy bude A78 procesorovým jadrom voľby pre SoC 2021 a jeho zameranie na trvalý výkon je vítané.
ARM Mali-G78
Séria Mali GPU od ARM nebola ani zďaleka taká úspešná ako jej séria CPU Cortex, mierne povedané. GPU Mali boli neustále prekonávané z hľadiska výkonu a energetickej účinnosti pomocou vlastných GPU od Apple a vlastných GPU Adreno od Qualcommu, rok čo rok. Minuloročné uvedenie novej architektúry Valhall a GPU Mali-G77 na tom, žiaľ, nič nezmenilo. SoC s Mali-G77 zahŕňali Exynos 990 a MediaTek Rozmer 1000L resp. Bohužiaľ sa zdalo, že obaja majú slabé implementácie, čo znamenalo, že ich výkon GPU mohol nekonkurujú GPU Adreno 650 od Qualcommu, nezáleží na špičkových GPU od Apple v Apple A12 a A13. Mali roky zaostávalo a jeho vylepšenia nestačili na to, aby zmenili status quo v priestore mobilných GPU.
Napriek tomu ARM nie je nič, ak nie optimistické. Poznamenáva, že jej partneri dodávajú viac ako jednu miliardu grafických procesorov Mali ročne, vďaka čomu je Mali na prvom mieste na svete. Toto číslo sa údajne len zvýši, pretože oveľa viac rôznych typov zariadení umožňuje prípady graficky náročného použitia, ako sú pokročilé mobilné hry a XR (VR a AR). Podľa ARM je to z Mali najpoužívanejšie GPU pre mobilný vývoj v celom ekosystéme.
ARM poznamenáva, že v roku 2019 oznámil svoj prvý GPU založený na architektúre Valhall - Mali-G77. V roku 2020 bude G77 nahradený Mali-G78, ktorý je tiež založený na architektúre Valhall. Zatiaľ čo ARM hovorí, že je to najvýkonnejší GPU pre prémiové mobilné zariadenia k dnešnému dňu, čísla to nepodporujú napriek tomu, čo ARM ironicky hovorí o tom, že je to fakt podporovaný číslami. G78 prináša 25% zlepšenie výkonu oproti G77, čo je prinajmenšom mizivé. Rozdiel v špičkovom výkone GPU medzi G77 a GPU Apple A13 bol značný, čo znamená, že G78 nebude môcť dobehnúť A13, bez ohľadu na nadchádzajúci GPU Apple A14. Qualcomm bude aj naďalej o krok vpredu vďaka svojim vlastným prírastkovým vylepšeniam výkonu.
Grafika, ktorá mení hru a celodenné hranie na mobile sú už možné na iných GPU, takže marketing ARM tu vyznieva trochu duto.
Mali-G78 je podľa ARM vyrobený s ohľadom na vývojárov a koncového používateľa. Umožňuje vysokokvalitné mobilné herné zážitky s konzolovými hrami, ktoré sú teraz dostupné pre mobilné zariadenia. G78 prináša dlhšiu výdrž batérie prémiovým mobilným zariadeniam. Prináša tiež ďalšie zvýšenie výkonu ML pre komplexnejšie funkcie hrania hier, videa, fotoaparátu a zabezpečenia na mobilných zariadeniach.
ARM je optimistický, pokiaľ ide o vyhliadky na mobilné hranie. Mobilné hry tvorili v roku 2019 viac ako 46 % celosvetového trhu s hrami a dosiahli tržby 68,2 miliardy USD. V najbližších rokoch bude tiež pokračovať v raste, pretože predbehne hranie na PC aj na konzolách. Na mobily prichádzajú prémiovejšie herné tituly a používatelia očakávajú podobný zážitok na mobiloch ako na konzolách.
Aby boli tieto zážitky možné, Mali-G78 prichádza s potrebným zvýšením výkonu. V porovnaní s G77 má 15% zlepšenie hustoty výkonu pre herný obsah. Na rovnakú plochu ako predchádzajúca generácia poskytne G78 vyšší výkon. Toto zvýšenie je možné vďaka štyrom kľúčovým funkciám:
- Podpora až 24 jadier
- Asynchrónna najvyššia úroveň
- Vylepšenia obkladačiek
- Vylepšené sledovanie závislosti fragmentov
Zatiaľ čo maximálny počet jadier G77 bol 16, ARM zvýšil maximálny počet jadier na G78 na maximum 24 jadier. Samozrejme, to, že existuje maximum, neznamená, že predajcovia mobilných čipov budú skutočne obsahovať 24 jadier. Najširší variant jadra G77, ktorý sme doteraz videli, je Mali-G77MP11 na Exynos 990, zatiaľ čo Dimensity 1000 má Mali-G77MC9.
ARM verí, že asynchrónna najvyššia úroveň je funkciou, ktorá mení výkon GPU. To vraj vyžmýka z mobilných hier čo najviac výkonu a zabezpečí maximálny výkon.
Vylepšenia dlaždíc na druhej strane pridávajú do mobilných hier ďalšiu vrstvu kvality. Hry prenesené z PC a konzoly majú často mimoriadne komplikované prvky a sofistikované scény, ktoré spôsobujú problémy s výkonom a prekážky. Vylepšenia dlaždice znižujú vrcholové zaťaženie GPU pre tieto zložité scény a aktíva. To zlepšuje výkon komplikovaného herného obsahu podobného konzole.
ARM tiež zlepšilo sledovanie závislosti fragmentov na G78. Týka sa to najmä mobilných hier so zložitými hernými scénami zahŕňajúcimi dym, stromy a trávu. Výsledky sú také, že ARM zaznamenala až 17% zlepšenie výkonu v špičkových mobilných hrách v porovnaní s G77.
Mali-G78 má o 10 % lepšiu energetickú účinnosť ako jeho predchodca. Opäť to nebude stačiť na to, aby sme dobehli ani Qualcomm, ani Apple. Ciele ARM sa tu zdajú byť obzvlášť konzervatívne. Funkcia asynchrónnej najvyššej úrovne hrá dôležitú úlohu v energetickej účinnosti, pretože umožňuje zníženie spotreby energie, čím umožňuje vytváranie obsahu trvalo udržateľným spôsobom. Preto, keď zariadenie vydáva obsah s požadovanou snímkovou frekvenciou, môže sa pretaktovať, aby sa ušetrila energia. Zvýšenie najvyššej úrovne pre túto úlohu spotrebuje o niečo viac energie, ale úspora energie znížením frekvencie jadier shadera je oveľa vyššia. Je to preto, že shaderové jadrá využívajú 90 – 95 % energetického rozpočtu GPU.
Lepšia energetická účinnosť v G78 je dosiahnutá aj vďaka Fused multiply-add (FMA). Bol úplne prepracovaný od základov, čo viedlo k 30% zníženiu energie jednotky. Jednotka FMA je zodpovedná za väčšinu výpočtov, ktoré sa dejú vo vnútri GPU, a preto dávalo zmysel, aby sa ARM zameral na zníženie spotreby energie.
Vďaka schopnosti paralelného spracovania údajov GPU je vhodný na spúšťanie pracovných zaťažení ML, hoci ARM uznáva, že CPU a GPU zostávajú primárnymi procesormi pre ML. Keď budú prípady použitia zložitejšie, niektoré úlohy sa presunú na GPU. Hlavné prípady použitia ML pre GPU sú spojené s bezpečnostnými funkciami v zariadení, rôznymi režimami fotoaparátu a videa, ako aj aplikáciami s funkciami AR.
Úloha ML na GPU umožňuje zážitky, ako je sledovanie tváre v rámci fotografie alebo videa, hry využívajúce funkcie AR a ďalšie. Pre tieto úlohy založené na ML má Mali-G78 v porovnaní s G77 priemerné 15% zlepšenie výkonu pri rôznych pracovných zaťaženiach ML. G77 priniesol 60% zlepšenie výkonu ML oproti predchádzajúcim generáciám, takže medziročné zlepšenie v tomto roku je oveľa menšie. Asynchrónna najvyššia úroveň je životne dôležitá pri zvyšovaní výkonu ML, pretože taktovanie jadier shadera pomáha pri rôznych prípadoch použitia ML na GPU.
Potom je tu oznámenie Mali-G68. Nejde o nič iné ako o užší variant Mali-G78, rovnako ako Mali-G57 bol užším variantom Mali-G77. ARM hovorí, že ide o prvý subprémiový GPU Mali pre zariadenia na rok 2021. Má všetky funkcie G78, ako sú vylepšenia dlaždice a nová jednotka FMA vo vykonávacom engine, ale podporuje až 6 jadier namiesto 24. Cieľom tohto GPU je takmer prémiový výkon za nižšiu cenu.
Spoločnosť ARM vyvinula túto subprémiovú vrstvu GPU po vypočutí si spätnej väzby od partnerov, ktorí chceli prémiové funkcie vo svojom portfóliu zariadení. G68 má podľa očakávania nižšiu plochu kremíka a prináša vysokovýkonné hry širšiemu publiku vývojárov a spotrebiteľov.
Nakoniec ARM spomína svoje vývojárske partnerstvá. Vývojárom uľahčuje optimalizáciu obsahu, aby lepšie fungoval na GPU Mali (teoreticky). Jedným z príkladov je poradca pre výkon. Druhým je spolupráca ARM s Unity na vytvorení Burst Compiler. Podrobnosti o tom si môžete prečítať v zdrojovom článku.
Mali-G78 - Outlook
Vyhliadky pre Mali-G78 sú pochmúrne. Zdá sa, že ARM jednoducho nemá záujem o podstatné medziročné vylepšenia výkonu v rovnakej forme, akú vyrába Apple, v rovnakej forme, akú v minulosti vyrobil Qualcomm. Aj keď sa tempo zlepšovania spoločnosti Qualcomm tiež spomalilo, jeho základná línia je na vyššom mieste ako ARM. Pre ekosystém Android to vyzerá zle, keď recenzenti s numerickými dôkazmi uvádzajú, že trvalý výkon GPU A13 je vyšší ako špičkový výkon Snapdragon 865. Rozdiel vo výkone medzi grafickými procesormi Apple a Androidom rastie a iba sa rozširuje.
G78 preto nie je zázračným riešením, ktoré by vyriešilo problémy GPU Mali od ARM a vynieslo ich na vrchol výkonnostných tabuliek. Stále bude zaradený pod GPU Apple a Qualcomm. Bude to predvolená voľba pre niektoré SoC len preto, že ide o IP GPU GPU spoločnosti ARM a vlastné riešenia majú prekážky vstupu a sú drahšie dobre.
Budúci rok je otázne, či Samsung Systems LSI skutočne skončí pomocou Mali-G78. Samsung bol významným zákazníkom GPU Mali, ale minulý rok podpísala partnerstvo s AMD, aby priniesla architektúru RDNA GPU do svojich mobilných SoC v roku 2021. Ak tento plán zostane na správnej ceste - a v tomto bode nemáme dôvod sa domnievať, že nie je na správnej ceste - potom nástupca Exynos 990 bude obsahovať GPU AMD RDNA namiesto GPU Mali. Pre ARM to bude skutočne veľká strata dizajnu. Dokonca aj iní predajcovia, ako napríklad MediaTek, majú v súčasnosti viac možností. Novinka od Imagination Technologies Architektúra GPU série A má dizajnový cieľ pre vyšší výkon ako G78 a je možné, že MediaTek v budúcnosti prejde z Mali. Qualcomm, samozrejme, nemá dôvod opustiť svoje snahy o GPU Adreno, ktoré stále zostávajú najlepší vo svojej triede, pokiaľ ide o výkon a efektivitu, ak hovoríme výlučne o systéme Android trh smartfónov.
Je teda jasné, že ARM bude musieť zvýšiť mieru ročných vylepšení GPU Mali, aby sa dosiahol skutočný rozdiel na trhu mobilných GPU. Ak to nedokáže, čelí riziku, že bude premyslený v prémiovom vlajkovom priestore mobilných GPU.
ARM Ethos N78
Nakoniec spoločnosť ARM tiež oznámila neurónovú procesorovú jednotku (NPU) Ethos N78. Je to nástupca N77 NPU. Poskytuje lepšie možnosti ML na zariadení a až o 25 % vyššiu efektivitu výkonu. Silnou stránkou je aj konfigurovateľnosť, pretože dostupné konfigurácie sa pohybujú od 1 TOP/s až po 10 TOP/s. Ďalšie podrobnosti nájdete na stránke Blogový príspevok ARM. Tento NPU bude mať pravdepodobne obmedzené dizajnové výhry, pretože Qualcomm, Samsung, HiSilicon a MediaTek majú svoje vlastné neurónové procesorové jednotky / AI motory.
Zdroje: ARM (1, 2), AnandTech (1, 2)