Společnost ARM oznámila architekturu CPU Cortex-A78 a GPU Mali-G78. Tyto dva jsou nástupci Cortex-A77 CPU a Mali-G77 GPU.
V rámci svého TechDay 2020 společnost ARM učinila tři hlavní oznámení. Hlavním hlavním oznámením je program Cortex-X Custom (CXC), obsahující novinku Jádro CPU Cortex-X1. Cortex-X1 přináší vyšší špičkový výkon než jakýkoli CPU řady Cortex-A a zároveň porušuje obálku PPA řady Cortex-A. Další dvě oznámení, která ARM učinil, byla mnohem rutinnější. CPU Cortex-A78 a CPU Mali-G78 jsou nyní oficiální a fungují jako nástupci Cortex-A77 CPU a Mali-G77 CPU resp. Pojďme pokrýt tato oznámení jeden po druhém:
ARM Cortex-A78
U Cortex-A78 se ARM soustředil především na požadavky na efektivitu, jako jsou požadavky na delší životnost baterie, nové mobilní tvarové faktory a zmenšující se oblasti SoC. Trvalý výkon je klíčovým slovem pro Cortex-A78, zatímco Cortex-X1 střílí ke hvězdám s cílem dosáhnout maximálního krátkodobého špičkového výkonu.
ARM říká, že Cortex-78 představuje „to nejlepší“ z jeho pohonu pro špičkový výkon při nejlepší účinnosti ve své třídě. To také nejsou jen prázdná slova. Za posledních pár let vykazovaly Cortex-A76 a Cortex-A77 nejlepší energetickou účinnost ve své třídě a nejlepší PPA ve své třídě (výkon, výkon a plocha). Neměly požadovaný design, aby mohly konkurovat čipům Apple řady A, ale kvůli nižším energie, jejich energetická účinnost byla v nejhorším případě stejná jako u Apple a v lepším případě dokonce vyšší než Jablko.
Zlepšení výkonu A78 pokrývají případy použití produktivity, komunikace, zabezpečení a úkolů založených na fotoaparátu, pokročilé hraní her, XR a ML.
V trvalém výkonu přináší Cortex-A78 dvouciferná vylepšení. Poskytuje 20% zlepšení trvalého výkonu oproti svému předchůdci, Cortex-A77, ve stejném mobilním tepelném energetickém obalu. AnandTech prošel čísla a vysvětlil, že údaj o 20 % je kombinací o 7 % vyššího IPC oproti A77, zatímco zbývajících 13 % zvýšení výkonu je připsáno 5nm procesu, na kterém budou všechny SoC nové generace vyrobeno. ARM upozorňuje na důležitost trvalého výkonu tím, že mobilní zařízení mají omezenou kapacitu rozptyluje výkon a udržitelný výkon zamezuje omezení výkonu u aplikací vyžadujících hodně Napájení. To zase zlepšuje UX tím, že se vyhne zpožděním nebo poklesům snímků.
Tlak na energetickou účinnost se promítá do vyšší energetické účinnosti, protože tyto dva jsou příbuzné, ale odlišné koncepty. Podle ARM nabízí Cortex-A78 ve vysoce výkonných bodech, jako jsou ty, které jsou špičkou pro současná mobilní zařízení, 50% úsporu energie oproti zařízením z roku 2019. při stejném výkonu jako Cortex-A77. To je působivé a dělá to z A78 energeticky nejúčinnější procesor Cortex-A CPU ARM, jaký kdy byl navržen.
Zaměření ARM na trvalý výkon bude přínosem pro další vlnu mobilních inovací, jako jsou nové tvarové faktory (skládací telefony) a také vylepšené „digitální ponoření“ prostřednictvím 5G. Skutečnost je taková, že tomu tak není u současné generace a nebude to příliš vadit ani v generaci příští.
Jedním z případů použití, které bude Cortex-A78 vylepšen, je AAA mobilní hraní v kombinaci s novým vlastním GPU Mali-G78 od ARM. Kombinace těchto dvou má za cíl přinést vysoce věrné herní zážitky do mobilních zařízení. Jejich vyšší výkon ve spojení s vysokou rychlostí 5G a velkou šířkou pásma umožní prémiové hraní na mobilu. Efektivita A78 zde má výhodu, protože poskytne delší výdrž baterie pro delší hraní. ARM říká, že také spolupracuje s ekosystémem na dalším vylepšení výkonu a vytváření bohatších herních zážitků, a uvádí příklad své práce s Unity na zavedení Burst Compiler pro Android.
Výkon strojového učení (ML) je pro ARM další prioritou. CPU je procesor první volby pro ML computing na mobilních zařízeních, ačkoli v dnešní době jsou špičkové SoC dodávány se samostatnými neuronovými procesorovými jednotkami (NPU). Procesory ARM podporují nejoblíbenější reálné aplikace ML a případy použití na chytrých telefonech, jako jsou filtry sociálních médií, diktování, zabezpečení a zabezpečení. Cortex-A78 využívá v průměru o 8 % méně energie pro úkoly založené na ML ve srovnání s A77, což vede k 10% oficiálnímu zlepšení účinnosti.
ARM Cortex-A78 - Architektura
ARM Cortex-A78 má stejnou architekturu jako předchozí generace (stále jde o jádro ARM v8.2). ARM však přidal mikroarchitektonické funkce, jejichž cílem je zvýšit výkon v oblasti a energeticky efektivním způsobem. ARM šetří plochu a energii při zachování potřebné úrovně výkonu. Opět platí, že zaměření ARM na řadu Cortex-A zůstává spíše na plošnou a energetickou účinnost než na špičkový výkon, což je nyní práce, kterou převzal program Cortex-X.
Zlepšení výkonu Cortex-A78 umožňují další mikroarchitektonické funkce, které optimalizují šířku a hloubku. Šířka dekódování instrukce zůstává na 4-šířce, stejně jako u A77 a A76. (Na druhou stranu, šířka dekódování Cortex-X1 je 5 šířky, zatímco A13 má 7 šířky dekódování.) ARM přidal větší predikci větvení pro šířku pásma a přesnost, stejně jako případy fúze instrukcí. Tato architektonická vylepšení umožňují 7% nárůst výkonu jednoho vlákna oproti A77.
Efektivita byla maximalizována snížením struktur, které mají nízký výkon a plochu, jako jsou mezipaměti L1-I a L1-D. ARM optimalizoval stávající struktury, aby spotřebovávaly méně energie, jako jsou struktury predikce značky. ARM říká, že to vede k o 4 % nižšímu výkonu na mW a 5 % menší ploše výkonu na mm2 ve srovnání s A77.
A78 se zaměřuje na trvalý výkon při nejlepší účinnosti ve své třídě na úrovni clusteru. Cluster DynamIQ 4x Cortex-A77 a 4x Cortex-A55 CPU lze upgradovat na 4x jádra A78 a 4x jádra A55. To poskytuje 20% trvalé zlepšení výkonu na 15% menší ploše. Aplikace, které vyžadují několik vysoce výkonných vláken paralelně, jako je například hraní her s vysokou věrností, budou mít prospěch díky trvalému tlaku na výkon.
ARM poznamenává, že díky zvýšené plošné účinnosti clusteru A78 DynamIQ je ideální pro skládací telefony a více a větší displeje. Dalším zaměřením je příprava smartphonů na 5G prostřednictvím zlepšení výkonu a energie. 5G údajně poskytuje „mnohem vyšší rychlosti“, „mnohem nižší latenci“ a „mnohem rychlejší a všudypřítomnější konektivitu pro mobilní zařízení pro aplikace s vysokou šířkou pásma“. Může tomu tak být za několik let, ale v současnosti většina těchto výhod není pro koncové spotřebitele patrná.
Celkově je Cortex-A78 solidní produkt. Vlajková loď SoC nové generace bude obsahovat několik jader A78, která doplní jediné jádro Cortex-X1, které má vyšší požadavky na výkon a plochu a některé SoC orientované na hodnotu se dokonce rozhodnou vynechat Cortex-X1 zcela. Pro trh SoC střední třídy bude A78 CPU jádro volby pro SoC 2021 a jeho zaměření na trvalý výkon je vítáno.
ARM Mali-G78
Série GPU Mali od ARM nebyla, mírně řečeno, zdaleka tak úspěšná jako její řada CPU Cortex. GPU Mali byly rok co rok soustavně překonávány jak z hlediska výkonu, tak energetické účinnosti vlastními GPU společnosti Apple a vlastními GPU Adreno společnosti Qualcomm. Loňské uvedení nové architektury Valhall a GPU Mali-G77 na tom bohužel nic nezměnilo. SoC s Mali-G77 zahrnovaly Exynos 990 a MediaTek o objemu 1000 l respektive. Bohužel se zdálo, že oba mají slabé implementace, což znamenalo, že jejich výkon GPU mohl nesoutěží s GPU Adreno 650 od Qualcommu, nehledě na špičkové GPU společnosti Apple v Apple A12 a A13. Mali roky zaostávalo a jeho vylepšení nestačila ke změně status quo v oblasti mobilních GPU.
Nicméně ARM není nic, pokud není optimistický. Poznamenává, že její partneři dodávají více než jednu miliardu grafických procesorů Mali ročně, což z Mali činí číslo jedna dodávaných grafických procesorů na světě. Toto číslo se pravděpodobně jen zvýší, protože mnohem více různých typů zařízení umožňuje případy graficky náročného použití, jako jsou pokročilé mobilní hry a XR (VR a AR). Podle ARM je to z Mali nejrozšířenější GPU pro mobilní vývoj v celém ekosystému.
ARM poznamenává, že v roce 2019 oznámil svůj první GPU založený na architektuře Valhall - Mali-G77. V roce 2020 bude G77 následován Mali-G78, který je také založen na architektuře Valhall. Zatímco ARM říká, že je to nejvýkonnější GPU pro prémiová mobilní zařízení k dnešnímu dni, čísla to nepotvrzují, přestože ARM ironicky říká, že je to fakt podporovaný čísly. G78 přináší 25% zlepšení výkonu oproti G77, což je přinejmenším mizivé. Rozdíl ve špičkovém výkonu GPU mezi G77 a GPU Apple A13 byl značný, což znamená, že G78 nebude schopen dohnat A13, bez ohledu na nadcházející GPU Apple A14. Qualcomm také zůstane o krok napřed díky vlastnímu postupnému zlepšování výkonu.
Grafika měnící hru a celodenní hraní na mobilu jsou již možné na jiných GPU, takže marketing ARM zde vyznívá trochu dutě.
Podle ARM je Mali-G78 postaven s ohledem na vývojáře a koncového uživatele. Umožňuje vysoce kvalitní mobilní herní zážitky s konzolovými hrami, které jsou nyní dostupné na mobilu. G78 přináší delší výdrž baterie prémiovým mobilním zařízením. Přináší také další zvýšení výkonu ML pro složitější hry, video, fotoaparát a bezpečnostní funkce ML na mobilních zařízeních.
ARM je optimistický ohledně vyhlídek na mobilní hry. Mobilní hry představovaly v roce 2019 více než 46 % celosvětového herního trhu a dosáhly tržeb 68,2 miliardy dolarů. Je také připraveno pokračovat v růstu v příštích několika letech, protože předčí hraní na PC i konzolích. Na mobily přicházejí prémiovější herní tituly a uživatelé očekávají podobný zážitek na mobilech jako na konzolích.
Aby byly tyto zážitky možné, Mali-G78 přichází s nezbytným zvýšením výkonu. Má o 15 % vyšší hustotu výkonu pro herní obsah ve srovnání s G77. Na stejnou plochu jako předchozí generace poskytne G78 více výkonu. Toto zvýšení je možné díky čtyřem klíčovým funkcím:
- Podpora až 24 jader
- Asynchronní nejvyšší úroveň
- Vylepšení dlaždice
- Vylepšené sledování závislosti fragmentů
Zatímco maximální počet jader G77 byl 16, ARM zvýšil maximální počet jader na G78 na maximum 24 jader. To, že existuje maximum, samozřejmě neznamená, že prodejci mobilních čipů budou ve skutečnosti obsahovat 24 jader. Nejširší základní varianta G77, kterou jsme zatím viděli, je Mali-G77MP11 na Exynos 990, zatímco Dimensity 1000 má Mali-G77MC9.
ARM věří, že asynchronní nejvyšší úroveň je funkcí, která mění výkon GPU. To prý vymáčkne z mobilních her co nejvíce výkonu a zajistí maximální výkon.
Vylepšení dlaždic na druhou stranu přidávají mobilním hrám další vrstvu kvality. Hry přenesené z PC a konzolí mají často extrémně komplikované prostředky a sofistikované scény, které způsobují problémy s výkonem a překážky. Vylepšení dlaždice snižují zatížení vrcholu na GPU pro tyto složité scény a prostředky. To zlepšuje výkon pro komplikovaný herní obsah podobný konzoli.
ARM také zlepšil sledování závislosti fragmentů na G78. To se týká zejména mobilních her se složitými herními scénami zahrnujícími kouř, stromy a trávu. Výsledky jsou takové, že ARM zaznamenal až 17% zlepšení výkonu u špičkových mobilních her ve srovnání s G77.
Mali-G78 má o 10 % lepší energetickou účinnost než jeho předchůdce. Opět to nebude stačit na to, abychom dohnali Qualcomm ani Apple. Cíle ARM se zde zdají být obzvláště konzervativní. Funkce Asynchronous Top Level hraje důležitou roli v energetické účinnosti, protože umožňuje snížení spotřeby energie, a tím umožňuje vytváření obsahu udržitelným způsobem. Když tedy zařízení vysílá obsah s požadovanou snímkovou frekvencí, může se taktovat, aby šetřilo energii. Zvýšení nejvyšší úrovně pro tento úkol spotřebuje o něco více energie, ale úspora energie díky snížení frekvence shader jader je mnohem vyšší. Je to proto, že shaderová jádra využívají 90–95 % energetického rozpočtu GPU.
Lepší energetické účinnosti u G78 je také dosaženo díky Fused multiply-add (FMA). Byl od základu zcela přepracován, což vedlo ke snížení energie jednotky o 30 %. Jednotka FMA je zodpovědná za většinu výpočtů, které se dějí uvnitř GPU, a proto dávalo smysl, aby se ARM zaměřila na snížení energie.
Díky schopnosti paralelního zpracování dat je GPU vhodný pro spouštění pracovních zátěží ML, i když ARM uznává, že CPU a GPU zůstávají primárními procesory pro ML. Jak se případy použití stávají složitějšími, některé úlohy budou přesunuty na GPU. Hlavní případy použití ML pro GPU jsou spojeny s bezpečnostními funkcemi v zařízení, různými režimy fotoaparátu a videa a také aplikacemi s funkcemi AR.
Role ML na GPU umožňuje zážitky, jako je sledování obličeje v rámci fotografie nebo videa, hry využívající funkce AR a další. Pro tyto úlohy založené na ML nabízí Mali-G78 průměrné 15% zlepšení výkonu pro různé pracovní zátěže ML ve srovnání s G77. G77 přinesl 60% zlepšení výkonu ML oproti předchozím generacím, takže meziroční zlepšení je letos mnohem menší. Asynchronní nejvyšší úroveň je zásadní pro zvýšení výkonu ML, protože taktování jader shaderů pomáhá s různými případy použití ML na GPU.
Pak je tu oznámení Mali-G68. Nejedná se o nic jiného než o užší variantu Mali-G78, stejně jako Mali-G57 byla užší varianta Mali-G77. ARM říká, že se jedná o první subprémiové GPU Mali pro zařízení roku 2021. Má všechny funkce G78, jako jsou vylepšení dlaždice a nová jednotka FMA v exekučním enginu, ale podporuje až 6 jader místo 24. Cílem tohoto GPU je téměř prémiový výkon za nižší cenu.
Společnost ARM vyvinula tuto subprémiovou vrstvu GPU poté, co vyslechla zpětnou vazbu od partnerů, kteří chtěli prémiové funkce napříč svým portfoliem zařízení. G68 má podle očekávání menší plochu křemíku a přináší vysoce výkonné hry širšímu publiku vývojářů a spotřebitelů.
Nakonec ARM zmiňuje své vývojářské partnerství. Vývojářům to usnadňuje optimalizaci jejich obsahu, aby lépe běžel na GPU Mali (teoreticky). Jedním z příkladů je Performance Advisor. Druhým je spolupráce ARM s Unity na vytvoření Burst Compiler. Podrobnosti o tom si můžete přečíst ve zdrojovém článku.
Mali-G78 - Outlook
Vyhlídky pro Mali-G78 jsou chmurné. Zdá se, že ARM prostě nemá zájem o podstatná meziroční zlepšení výkonu ve stejné formě, jakou vyrábí Apple, ve stejné formě, kterou v minulosti vyrobil Qualcomm. I když se tempo zlepšování Qualcommu také zpomalilo, jeho základní úroveň je na vyšším místě než ARM. Pro ekosystém Android to vypadá špatně, když recenzenti s numerickými důkazy uvádějí, že trvalý výkon GPU A13 je vyšší než špičkový výkon Snapdragonu 865. Rozdíl výkonu mezi grafickými procesory Apple a Android roste a stále se rozšiřuje.
G78 proto není kouzelným řešením, které by vyřešilo potíže ARM Mali GPU a vyneslo je na vrchol výkonnostních žebříčků. Stále bude umístěn pod GPU Applu a Qualcommu. Bude to výchozí volba pro některé SoC jen proto, že je to IP GPU společnosti ARM a vlastní řešení mají překážky vstupu a jsou dražší studna.
Příští rok je pochybné, zda Samsung Systems LSI skutečně skončí pomocí Mali-G78. Samsung byl významným zákazníkem GPU Mali, ale minulý rok podepsala partnerství s AMD, aby přinesla architekturu RDNA GPU do svých mobilních SoC v roce 2021. Pokud tento plán zůstane na správné cestě – a v tuto chvíli nemáme důvod se domnívat, že není na správné cestě – pak nástupce Exynos 990 bude obsahovat AMD RDNA GPU místo Mali GPU. Pro ARM to bude skutečně velká konstrukční ztráta. Dokonce i další prodejci, jako je MediaTek, mají v dnešní době více možností. Novinka od Imagination Technologies Architektura GPU řady A má designový cíl pro vyšší výkon než G78 a je možné, že MediaTek v budoucnu přejde z Mali. Qualcomm samozřejmě nemá důvod opouštět své snahy o GPU Adreno, které stále přetrvávají nejlepší ve své třídě, pokud jde o výkon a efektivitu, pokud mluvíme výhradně o Androidu trh smartphonů.
Je tedy jasné, že ARM bude muset zvýšit míru každoročního vylepšování GPU Mali, aby došlo ke skutečnému rozdílu na trhu mobilních GPU. Pokud to nedokáže, čelí riziku, že bude v oblasti prémiových vlajkových mobilních GPU přepracován.
ARM Ethos N78
A konečně, ARM také oznámila neurální procesorovou jednotku (NPU) Ethos N78. Je to nástupce N77 NPU. Poskytuje lepší možnosti ML na zařízení a až o 25 % vyšší efektivitu výkonu. Silnou stránkou je také konfigurovatelnost, protože dostupné konfigurace se pohybují od 1 TOP/s až po 10 TOP/s. Další podrobnosti najdete na stránce Příspěvek na blogu ARM. Tento NPU bude mít pravděpodobně omezené designové výhry, protože Qualcomm, Samsung, HiSilicon a MediaTek mají své vlastní neuronové procesorové jednotky / AI motory.
Zdroje: ARM (1, 2), AnandTech (1, 2)