ARM har tillkännagett Cortex-A78 CPU-arkitekturen samt Mali-G78 GPU. De två är efterföljarna till Cortex-A77 CPU och Mali-G77 GPU.
Som en del av sin TechDay 2020 har ARM gjort tre stora tillkännagivanden. Det stora tillkännagivandet är Cortex-X Custom-programmet (CXC), som innehåller det nya Cortex-X1 CPU-kärna. Cortex-X1 ger högre toppprestanda än någon Cortex-A-serie CPU, samtidigt som den bryter höljet av Cortex-A-seriens PPA. De andra två tillkännagivandena som ARM gjorde var mycket mer rutinmässiga. Cortex-A78 CPU och Mali-G78 CPU är nu officiella, och de fungerar som efterföljare till Cortex-A77 CPU och Mali-G77 CPU respektive. Låt oss täcka dessa meddelanden en i taget:
ARM Cortex-A78
Med Cortex-A78 låg ARM: s huvudfokus på effektivitetskrav, såsom krav på längre batteritid, nya mobila formfaktorer och krympande SoC-områden. Uthållig prestanda är nyckelordet här för Cortex-A78, medan Cortex-X1 skjuter efter stjärnorna med sitt mål att uppnå maximal kortsiktig toppprestanda.
ARM säger att Cortex-78 representerar "det allra bästa" av dess drivkraft för avancerad prestanda med bästa effektivitet i klassen. Det är inte heller bara tomma ord. Under de senaste åren har Cortex-A76 och Cortex-A77 visat klassens bästa energieffektivitet och klassens bästa PPA (prestanda, effekt och yta). De hade inte designen som krävdes för att konkurrera med Apples A-seriechips, utan på grund av lägre strömgenererad var deras energieffektivitet i värsta fall densamma som Apple och i bästa fall till och med högre än Äpple.
A78:s prestandaförbättringar täcker användningsfallen av produktivitet, kommunikation, säkerhet och kamerabaserade uppgifter, avancerade spel-, XR- och ML-baserade upplevelser.
I uthållig prestanda ger Cortex-A78 tvåsiffriga förbättringar. Den ger en 20 % förbättring av ihållande prestanda jämfört med sin föregångare, Cortex-A77, i samma mobila termiska kraftomslag. AnandTech gick igenom siffrorna och förklarade att siffran på 20 % är en kombination av 7 % högre IPC jämfört med A77, medan återstående 13% prestandavinster krediteras 5nm-processen, där nästa generations SoCs alla kommer att vara tillverkade. ARM noterar vikten av uthållig prestanda genom att säga att mobila enheter har en begränsad kapacitet till försvinner kraft och bibehållen prestanda undviker effektstrypning för applikationer som kräver mycket kraft. Detta förbättrar i sin tur användarupplevelsen genom att undvika fördröjning eller ramfall.
Kravet på energieffektivitet leder till högre energieffektivitet, eftersom de två är relaterade, men olika koncept. Enligt ARM, vid högpresterande punkter, som de som är toppen för nuvarande mobila enheter, erbjuder Cortex-A78 50 % energibesparingar jämfört med 2019-enheter vid samma föreställning som Cortex-A77. Detta är imponerande och det gör A78 till den mest energieffektiva Cortex-A CPU ARM någonsin designat.
ARM: s fokus på uthållig prestanda kommer att gynna nästa våg av mobil innovation som nya formfaktorer (vikbara telefoner) samt förbättrad "digital nedsänkning" genom 5G. Verklighetskontrollen är att så inte är fallet för den nuvarande generationen, och det kommer inte att spela så stor roll även i nästa generation.
Ett användningsfall som kommer att förbättras av Cortex-A78 är AAA-mobilspel, i kombination med ARMs egna nya Mali-G78 GPU. Kombinationen av de två syftar till att ge högtrogna spelupplevelser till mobilen. Deras bättre prestanda kommer, i kombination med 5G: s snabba hastighet och höga bandbredd, att möjliggöra premiumspel på mobilen. A78:s effektivitet har en fördel här, eftersom den kommer att ge längre batteritid för längre spel. ARM säger att de också arbetar med ekosystemet för att ytterligare förbättra prestandan och bygga rikare spelupplevelser, och ger ett exempel på dess arbete med Unity för att få Burst Compiler till Android.
Maskininlärning (ML) prestanda är en annan prioritet för ARM. CPU: n är förstahandsprocessorn för ML-datorer på mobila enheter, även om avancerade SoCs nuförtiden kommer med separata neurala bearbetningsenheter (NPU). ARMs processorer stöder de mest populära verkliga ML-applikationerna och användningsfallen på smartphones, såsom filter för sociala medier, diktering, säkerhet och säkerhet. Cortex-A78 använder i genomsnitt 8 % mindre ström för ML-baserade uppgifter jämfört med A77, vilket leder till 10 % officiella effektivitetsförbättringar.
ARM Cortex-A78 - Arkitektur
ARM Cortex-A78 har samma arkitektur som föregående generation (det är fortfarande en ARM v8.2-kärna). ARM lade dock till mikroarkitektoniska funktioner som syftar till att pressa prestanda högre på ett område och energieffektivt sätt. ARM sparar yta och kraft samtidigt som de behövde prestandanivåerna bibehålls. Återigen, ARM: s fokus på Cortex-A-serien förblir på yta och energieffektivitet snarare än toppprestanda, vilket nu är ett jobb som tas upp av Cortex-X-programmet.
Cortex-A78:s prestandaförbättringar möjliggörs genom ytterligare mikroarkitektoniska funktioner som optimerar bredd och djup. Instruktionens avkodningsbredd förblir 4-wide, samma som A77 och A76. (Cortex-X1:s avkodningsbredd, å andra sidan, är 5-bred, medan A13 har en 7-bred avkodningsbredd.) ARM har lagt till större grenförutsägelse för bandbredd och noggrannhet samt instruktionsfusionsfall. Dessa arkitektoniska förbättringar möjliggör en 7% ökning av enkeltrådsprestanda jämfört med A77.
Effektiviteten har maximerats genom att reducera strukturer som har låg prestanda och yta, till exempel på L1-I- och L1-D-cachen. ARM har optimerat befintliga strukturer för att förbruka mindre ström, såsom varumärkesförutsägande strukturer. ARM säger att detta leder till 4 % mindre effekt för prestanda per mW och 5 % mindre yta för prestanda per mm2 jämfört med A77.
A78 håller fokus på uthållig prestanda med klassens bästa effektivitet på klusternivå. Ett DynamIQ-kluster med 4x Cortex-A77 och 4x Cortex-A55-processorer kan uppgraderas till 4x A78-kärnor och 4x A55-kärnor. Detta ger 20 % varaktiga prestandaförbättringar på 15 % mindre område. Applikationer som kräver flera högpresterande trådar parallellt, som till exempel high-fidelity-spel, kommer att gynnas på grund av den ihållande prestandapressen.
ARM noterar den förbättrade yteffektiviteten hos A78 DynamIQ-klustret gör den idealisk för hopfällbara telefoner och flera och större skärmar. Ett annat fokus ligger på att göra smartphones 5G-förberedda genom prestanda- och energiförbättringar. 5G ska ge "mycket snabbare hastigheter", "mycket lägre latens" och "mycket snabbare och mer allmänt förekommande anslutning för mobila enheter för applikationer med hög bandbredd". Detta kan vara fallet om några år, men för närvarande är de flesta av dessa fördelar inte märkbara för slutkonsumenter.
Sammantaget är Cortex-A78 en solid produkt. Nästa generations flaggskepp SoCs kommer att inkludera flera A78-kärnor för att komplettera den enda Cortex-X1-kärnan som har högre effekt- och areakrav, och vissa värdeorienterade SoC: er kommer till och med välja att hoppa över Cortex-X1 helt. För mellanklassens SoC-marknaden kommer A78 att vara den valda CPU-kärnan för 2021 SoCs, och dess fokus på uthållig prestanda är välkommet.
ARM Mali-G78
ARM: s Mali-serie av GPU: er har inte varit lika framgångsrik som Cortex-serien av processorer, för att uttrycka det milt. Mali GPU: er har konsekvent överträffats både när det gäller prestanda och energieffektivitet av Apples anpassade GPU: er och Qualcomms anpassade Adreno GPU: er, år efter år. Förra årets lansering av den nya Valhall-arkitekturen och Mali-G77 GPU gjorde tyvärr ingenting för att ändra på det. SoCs med Mali-G77 inkluderade Exynos 990 och den MediaTek Dimensity 1000L respektive. Båda verkade tyvärr ha svaga implementeringar som innebar att deras GPU-prestanda kunde inte konkurrera med Qualcomms Adreno 650 GPU, strunt i Apples klassledande GPU: er i Apple A12 och A13. Mali har släpat efter i flera år, och dess förbättringar har inte räckt till för att ändra status quo i det mobila GPU-utrymmet.
Ändå är ARM ingenting om inte optimistisk. Den noterar att dess partners har skickat över en miljard Mali GPU: er årligen, vilket gör Mali till den främsta levererade GPU: n i världen. Detta antal kommer förmodligen bara att öka eftersom många fler olika typer av enheter möjliggör grafikintensiva användningsfall som avancerad mobilspel och XR (VR och AR). Enligt ARM gör detta Mali till den mest använda grafikprocessorn för mobilutveckling i hela ekosystemet.
ARM noterar att den 2019 tillkännagav sin första GPU baserad på Valhall-arkitekturen - Mali-G77. År 2020 kommer G77 att efterträdas av Mali-G78, som också är baserad på Valhall-arkitekturen. Medan ARM säger att det är den mest presterande GPU: n för premiummobila enheter hittills, backar siffrorna inte upp det trots vad ARM ironiskt nog säger om att det är ett faktum som stöds av siffrorna. G78 ger en 25% förbättring i prestanda jämfört med G77, som är minst sagt mager. Klyftan i topp GPU-prestanda mellan G77 och Apple A13:s GPU var betydande, vilket betyder att G78 inte kommer att kunna komma ikapp med A13, strunt i den kommande Apple A14:s GPU. Qualcomm kommer också att fortsätta att ligga steget före på grund av sina egna inkrementella prestandaförbättringar.
Spelförändrande grafik och heldagsspel på mobilen är redan möjliga på andra GPU: er, så ARMs marknadsföring här klingar lite ihåligt.
Mali-G78 är byggd med utvecklare och slutanvändaren i åtanke, enligt ARM. Det möjliggör högkvalitativa mobila spelupplevelser med konsolspel som nu är tillgängliga på mobilen. G78 ger längre batteritid till premiummobila enheter. Det ger också en ytterligare ML-prestandaökning för mer komplexa spel-, video-, kamera-, säkerhets-ML-funktioner på mobila enheter.
ARM är positiva till möjligheterna till mobilspel. Mobilspel stod för mer än 46 % av den globala spelmarknaden 2019 och nådde 68,2 miljarder dollar i intäkter. Det kommer också att fortsätta växa under de närmaste åren eftersom det kommer att överträffa både PC- och konsolspel. Fler premiumspeltitlar kommer till mobilen och användare förväntar sig en liknande upplevelse på mobilen jämfört med konsoler.
För att göra dessa upplevelser möjliga kommer Mali-G78 med den nödvändiga prestandaökningen. Den har en 15 % förbättring av prestandatätheten för spelinnehåll jämfört med G77. För samma yta som föregående generation kommer G78 att ge mer prestanda. Denna ökning möjliggörs av fyra nyckelfunktioner:
- Stöd för upp till 24 kärnor
- Asynkron toppnivå
- Förbättringar av plattsättning
- Förbättrad spårning av fragmentberoende
Medan G77:s maximala antal kärnor var 16, har ARM ökat det maximala antalet kärnor på G78 till maximalt 24 kärnor. Naturligtvis, bara för att det finns ett maximum betyder det inte att mobilchipsleverantörer faktiskt kommer att införliva 24 kärnor. Den bredaste kärnvarianten av G77 vi har sett hittills är Mali-G77MP11 på Exynos 990, medan Dimensity 1000 har en Mali-G77MC9.
ARM anser att Asynchronous Top Level är en spelförändrande funktion för GPU-prestanda. Detta sägs pressa ut så mycket prestanda ur mobilspel som möjligt, vilket säkerställer maximal prestanda.
Förbättringar av plattsättning, å andra sidan, lägger till ett extra lager av kvalitet till mobilspel. Spel som hämtas från PC och konsol har ofta extremt komplicerade tillgångar och sofistikerade scener, vilket orsakar prestandaproblem och flaskhalsar. Förbättringar av plattsättning minskar vertexbelastningen på GPU: n för dessa komplexa scener och tillgångar. Detta förbättrar prestandan för komplicerat konsolliknande spelinnehåll.
ARM har också förbättrat spårningen av fragmentberoende på G78. Detta påverkar särskilt mobilspel med komplexa spelscener som involverar rök, träd och gräs. Resultaten är att ARM har sett upp till 17 % prestandaförbättringar på toppmobilspel jämfört med G77.
Mali-G78 har 10 % bättre energieffektivitet än sin föregångare. Återigen, det kommer inte att räcka för att komma ikapp varken med Qualcomm eller med Apple. ARM: s mål här verkar särskilt konservativa. Funktionen Asynchronous Top Level spelar en viktig roll för energieffektivitet, eftersom den möjliggör en minskning av effekten, vilket gör att innehåll kan genereras på ett hållbart sätt. Därför, när en enhet matar ut innehåll med önskad bildhastighet, kan den klockas ner för att spara energi. Att höja toppnivån för den här uppgiften använder lite mer energi, men energibesparingen från att minska frekvensen av shader-kärnorna är mycket högre. Det beror på att shader-kärnorna använder 90-95% av GPU: s energibudget.
Bättre energieffektivitet i G78 uppnås också tack vare Fused multiply-add (FMA). Den har gjorts om helt från grunden, vilket leder till en energireduktion på 30 % till enheten. FMA-enheten är ansvarig för de flesta av de beräkningar som sker inuti en GPU, och det är därför det var vettigt för ARM att rikta in den för energiminskningar.
En GPU: s parallella databehandlingskapacitet gör den lämplig för att köra ML-arbetsbelastningar, även om ARM erkänner att CPU och GPU förblir de primära processorerna för ML. När användningsfallen blir mer komplexa kommer vissa arbetsbelastningar att laddas av till GPU: n. De huvudsakliga ML-användningsfallen för GPU: n är kopplade till säkerhetsfunktioner på enheten, olika kamera- och videolägen samt applikationer med AR-funktioner.
Rollen av ML på GPU: n möjliggör upplevelser som ansiktsspårning inom foto- eller videoramen, spel som använder AR-funktioner och mer. För dessa ML-baserade uppgifter har Mali-G78 en genomsnittlig prestandaförbättring på 15 % för olika ML-arbetsbelastningar jämfört med G77. G77 gav en 60 % förbättring av ML-prestanda jämfört med tidigare generationer, så förbättringen från år till år i år är mycket mindre. Asynkron toppnivå är avgörande för att öka ML-prestandan eftersom klockning av shader-kärnorna hjälper till med de olika ML-användningsfallen på GPU: n.
Sedan är det tillkännagivandet av Mali-G68. Detta är inget annat än en smalare variant av Mali-G78, precis som Mali-G57 var en smalare variant av Mali-G77. ARM säger att detta är den första subpremium Mali GPU för 2021-enheter. Den har alla G78:s funktioner såsom plattsättningsförbättringar och den nya FMA-enheten i exekveringsmotorn men stöder upp till 6 kärnor istället för 24. Nära premiumprestanda till en lägre kostnad är syftet med denna GPU.
ARM utvecklade denna sub-premium GPU-nivå efter att ha lyssnat på feedback från partners som ville ha premiumfunktioner i sin portfölj av enheter. G68 har en lägre kiselarea, som förväntat, och ger högpresterande spel till en bredare publik av utvecklare och konsumenter.
Slutligen nämner ARM sina utvecklarpartnerskap. Det gör det enkelt för utvecklare att optimera sitt innehåll för att fungera bättre på Mali GPU: er (i teorin). Ett exempel är Performance Advisor. För det andra är ARMs samarbete med Unity för att ta fram Burst Compiler. Detaljer om detta finns att läsa i källartikeln.
Mali-G78 - Outlook
Utsikterna för Mali-G78 är dystra. Det verkar som om ARM helt enkelt inte är intresserad av att göra betydande prestandaförbättringar från år till år i samma form som Apple gör, i samma form som Qualcomm gjorde tidigare. Medan Qualcomms förbättringstakt också har avtagit, är dess baslinje på en högre plats än ARM. Det ser dåligt ut för Androids ekosystem när recensenter med numeriska bevis konstaterar att A13:s GPU: s uthålliga prestanda är högre än Snapdragon 865:s toppprestanda. Prestandadeltat mellan Apple och Android GPU: er växer, och det blir bara bredare.
G78 är därför inte en magisk lösning för att lösa ARM: s Mali GPU-problem och föra dem till toppen av prestandalistan. Den kommer fortfarande att rankas under Apples och Qualcomms GPU: er. Det kommer att vara standardvalet för vissa SoCs bara för att det är ARMs lager GPU IP, och anpassade lösningar har hinder för inträde och kostar mer eftersom väl.
Nästa år är det tveksamt om Samsung Systems LSI faktiskt kommer att sluta använda Mali-G78. Samsung har varit en högprofilerad kund av Mali GPU, men förra året, det tecknade ett partnerskap med AMD för att ta fram RDNA GPU-arkitekturen till sina mobila SoCs 2021. Om den färdplanen förblir på rätt spår – och vid det här laget har vi ingen anledning att misstänka att den inte är på rätt spår – kommer Exynos 990:s efterträdare att ha en AMD RDNA GPU istället för en Mali GPU. Det kommer verkligen att vara en stor designförlust för ARM. Även andra leverantörer som MediaTek har fler alternativ nu för tiden. Imagination Technologies nya A-seriens GPU-arkitektur har ett designmål för högre prestanda än G78, och det är möjligt att MediaTek byter bort från Mali i framtiden. Qualcomm har naturligtvis ingen anledning att överge sina Adreno GPU-ansträngningar, som fortfarande finns kvar bäst i klassen när det gäller prestanda och effektivitet när man uteslutande talar om Android smartphonemarknaden.
Således är det tydligt att ARM kommer att behöva öka frekvensen av årliga förbättringar i Mali GPU: er för att göra en verklig skillnad på den mobila GPU-marknaden. Om den inte kan göra detta, riskerar den att bli en eftertanke i premiumflaggskeppet för mobil GPU-utrymme.
ARM Ethos N78
Slutligen har ARM även tillkännagett Ethos N78 neural processing unit (NPU). Det är efterföljaren till N77 NPU. Den ger större ML-funktioner på enheten och upp till 25 % högre prestandaeffektivitet. Konfigurerbarhet är också en styrka eftersom tillgängliga konfigurationer sträcker sig från 1 TOP/s till upp till 10 TOP/s. För mer information, kolla in ARMs blogginlägg. Denna NPU kommer förmodligen att ha begränsade designvinster eftersom Qualcomm, Samsung, HiSilicon och MediaTek alla har sina egna neurala bearbetningsenheter/AI-motorer.
Källor: ARM (1, 2), AnandTech (1, 2)