ARM har annonsert Cortex-A78 CPU-arkitekturen så vel som Mali-G78 GPU. De to er etterfølgerne til Cortex-A77 CPU og Mali-G77 GPU.
Som en del av TechDay 2020 har ARM kommet med tre store kunngjøringer. Den viktigste kunngjøringen er Cortex-X Custom-programmet (CXC), som inneholder det nye Cortex-X1 CPU-kjerne. Cortex-X1 gir høyere toppytelse enn noen Cortex-A-serie CPU, samtidig som den bryter konvolutten til Cortex-A-seriens PPA. De to andre kunngjøringene som ARM kom med var mye mer rutine. Cortex-A78 CPU og Mali-G78 CPU er nå offisielle, og de fungerer som etterfølgerne til Cortex-A77 CPU og Mali-G77 henholdsvis CPU. La oss dekke disse kunngjøringene én etter én:
ARM Cortex-A78
Med Cortex-A78 var ARMs hovedfokus på effektivitetskrav, som krav om lengre batterilevetid, nye mobile formfaktorer og krympende SoC-områder. Vedvarende ytelse er nøkkelordet her for Cortex-A78, mens Cortex-X1 skyter etter stjernene med sitt mål om å oppnå maksimal kortsiktig toppytelse.
ARM sier at Cortex-78 representerer det "aller beste" av sin drivkraft for avansert ytelse med klassens beste effektivitet. Dette er heller ikke bare tomme ord. De siste par årene har Cortex-A76 og Cortex-A77 vist best-in-class energieffektivitet og best-in-class PPA (ytelse, kraft og areal). De hadde ikke designet som kreves for å konkurrere med Apples A-seriebrikker, men på grunn av lavere kraftgenerert, deres energieffektivitet var i verste fall den samme som Apple og i beste fall enda høyere enn Eple.
A78s ytelsesforbedringer dekker brukstilfeller av produktivitet, kommunikasjon, sikkerhet og kamerabaserte oppgaver, avansert spilling, XR og ML-baserte opplevelser.
I vedvarende ytelse gir Cortex-A78 tosifrede forbedringer. Den gir en 20 % forbedring i vedvarende ytelse sammenlignet med forgjengeren Cortex-A77 i den samme mobile termiske kraftkonvolutten. AnandTech gikk gjennom tallene og forklarte at tallet på 20 % er en kombinasjon av 7 % høyere IPC over A77, mens resterende 13 % ytelsesgevinster krediteres 5nm-prosessen, der neste generasjons SoC-er alle vil være fabrikkert. ARM bemerker viktigheten av vedvarende ytelse ved å si at mobile enheter har begrenset kapasitet til sprer kraft, og vedvarende ytelse unngår strømregulering for applikasjoner som krever mye makt. Dette forbedrer i sin tur brukeropplevelsen ved å unngå lag eller bildefall.
Presset på strømeffektivitet oversettes til høyere energieffektivitet, da de to er relaterte, men forskjellige konsepter. I følge ARM tilbyr Cortex-A78 50 % energibesparelser i forhold til 2019-enheter på punkter med høy ytelse, for eksempel de som er toppen for nåværende mobile enheter. ved samme forestilling som Cortex-A77. Dette er imponerende, og det gjør A78 til den mest energieffektive Cortex-A CPU ARM noensinne har designet.
ARMs fokus på vedvarende ytelse vil være til nytte for den neste bølgen av mobilinnovasjon som nye formfaktorer (foldbare telefoner) samt forbedret "digital nedsenking" gjennom 5G. Realitetssjekken er at dette ikke er tilfellet for den nåværende generasjonen, og det vil ikke ha stor betydning selv i neste generasjon.
Et bruksområde som vil bli forbedret av Cortex-A78 er AAA-mobilspilling, kombinert med ARMs egen nye Mali-G78 GPU. Kombinasjonen av de to har som mål å bringe high-fidelity spillopplevelser til mobilen. Deres større ytelse vil, kombinert med 5Gs raske hastighet og høye båndbredde, muliggjøre førsteklasses spill på mobil. A78s effektivitet har en fordel her, siden den vil gi lengre batterilevetid for utvidet spilling. ARM sier at de også jobber med økosystemet for å forbedre ytelsen ytterligere og bygge rikere spillopplevelser, og gir et eksempel på arbeidet med Unity for å bringe Burst Compiler til Android.
Maskinlæring (ML) ytelse er en annen prioritet for ARM. CPU-en er førstevalgsprosessoren for ML-databehandling på mobil, selv om avanserte SoC-er i disse dager kommer med separate nevrale prosesseringsenheter (NPU-er). ARMs CPU-er støtter de mest populære ML-applikasjonene i den virkelige verden og brukertilfeller på smarttelefoner, for eksempel sosiale mediefiltre, diktering, sikkerhet og sikkerhet. Cortex-A78 bruker 8 % mindre strøm i gjennomsnitt for ML-baserte oppgaver sammenlignet med A77, noe som fører til 10 % offisielle effektivitetsforbedringer.
ARM Cortex-A78 - Arkitektur
ARM Cortex-A78 har samme arkitektur som forrige generasjon (det er fortsatt en ARM v8.2-kjerne). ARM la imidlertid til mikroarkitektoniske funksjoner som tar sikte på å presse ytelsen høyere på en område- og strømeffektiv måte. ARM sparer areal og strøm samtidig som den opprettholder de nødvendige ytelsesnivåene. Igjen, ARMs fokus på Cortex-A-serien forblir på areal- og strømeffektivitet i stedet for topp ytelse, som nå er en jobb tatt opp av Cortex-X-programmet.
Cortex-A78s ytelsesforbedringer er aktivert gjennom ytterligere mikroarkitektoniske funksjoner som optimerer bredde og dybde. Instruksjonens dekodebredde forblir på 4-bredde, samme som A77 og A76. (Cortex-X1s dekodebredde er på den annen side 5-bred, mens A13 har en 7-bred dekodebredde.) ARM har lagt til større grenprediksjon for båndbredde og nøyaktighet samt instruksjonsfusjonssaker. Disse arkitektoniske forbedringene muliggjør en 7 % økning i enkelttråds ytelse i forhold til A77.
Effektiviteten har blitt maksimert gjennom å redusere strukturer som har lav ytelse og areal, for eksempel på L1-I og L1-D cachen. ARM har optimalisert eksisterende strukturer for å bruke mindre strøm, for eksempel merkevareprediksjonsstrukturene. ARM sier at dette fører til 4 % mindre effekt for ytelse per mW og 5 % mindre areal for ytelse per mm2 sammenlignet med A77.
A78 holder fokus på vedvarende ytelse med klassens beste effektivitet på klyngenivå. En DynamIQ-klynge med 4x Cortex-A77 og 4x Cortex-A55 CPUer kan oppgraderes til 4x A78-kjerner og 4x A55-kjerner. Dette gir 20 % vedvarende ytelsesforbedringer på 15 % mindre område. Applikasjoner som krever flere høyytelsestråder parallelt, for eksempel høyfidelitetsspill, vil ha fordel på grunn av det vedvarende ytelsespresset.
ARM merker seg at den forbedrede arealeffektiviteten til A78 DynamIQ-klyngen gjør den ideell for sammenleggbare telefoner og flere og større skjermer. Et annet fokus er å gjøre smarttelefoner 5G-klare gjennom ytelses- og energiforbedringer. 5G gir visstnok "langt raskere hastigheter", "langt lavere ventetid" og "langt raskere og mer allestedsnærværende tilkobling for mobile enheter for applikasjoner med høy båndbredde". Dette kan være tilfelle om noen år, men for øyeblikket er de fleste av disse fordelene ikke merkbare for sluttforbrukere.
Totalt sett er Cortex-A78 et solid produkt. Neste generasjons flaggskip SoCs vil inkludere flere A78-kjerner for å komplementere den enkle Cortex-X1-kjernen som har høyere kraft- og arealkrav, og noen verdiorienterte SoC-er vil til og med velge å hoppe over Cortex-X1 fullstendig. For mellomklassen SoC-markedet vil A78 være den foretrukne CPU-kjernen for 2021 SoC-er, og fokuset på vedvarende ytelse er velkommen.
ARM Mali-G78
ARMs Mali-serie med GPU-er har ikke vært på langt nær like vellykket som Cortex-serien med CPUer, for å si det mildt. Mali GPU-ene har blitt konsekvent utkonkurrert både når det gjelder ytelse og strømeffektivitet av Apples tilpassede GPUer og Qualcomms tilpassede Adreno GPUer, år etter år. Fjorårets lansering av den nye Valhall-arkitekturen og Mali-G77 GPU gjorde dessverre ingenting for å endre det. SoC-er med Mali-G77 inkluderte Exynos 990 og MediaTek Dimensity 1000L hhv. Begge så dessverre ut til å ha svake implementeringer som betydde at GPU-ytelsen deres kunne ikke konkurrere med Qualcomms Adreno 650 GPU, bry deg ikke om Apples klasseledende GPUer i Apple A12 og A13. Mali har ligget etter i årevis, og forbedringene har ikke vært nok til å endre status quo i den mobile GPU-plassen.
Likevel er ARM ingenting om ikke optimistisk. Den bemerker at partnerne har sendt over én milliard Mali GPUer årlig, noe som gjør Mali til nummer én leverte GPU i verden. Dette tallet vil visstnok bare øke ettersom mange flere forskjellige typer enheter muliggjør grafisk-intensive brukstilfeller som avansert mobilspilling og XR (VR og AR). I følge ARM gjør dette Mali til den mest brukte GPUen for mobilutvikling på tvers av økosystemet.
ARM bemerker at den i 2019 kunngjorde sin første GPU basert på Valhall-arkitekturen - Mali-G77. I 2020 blir G77 etterfulgt av Mali-G78, som også er basert på Valhall-arkitekturen. Mens ARM sier at det er den mest ytende GPUen for premium mobile enheter til dags dato, sikkerhetskopierer ikke tallene det til tross for hva ARM ironisk nok sier om at det er et faktum som støttes av tallene. G78 gir en 25% forbedring i ytelse i forhold til G77, som er mildt sagt mager. Gapet i topp GPU-ytelse mellom G77 og Apple A13s GPU var betydelig, noe som betyr at G78 ikke vil kunne ta igjen A13, ikke bry deg om den kommende Apple A14s GPU. Qualcomm vil også fortsette å ligge et skritt foran på grunn av sine egne inkrementelle ytelsesforbedringer.
Spillskiftende grafikk og heldagsspilling på mobil er allerede mulig på andre GPUer, så ARMs markedsføring her klinger litt hult.
Mali-G78 er bygget med utviklere og sluttbrukeren i tankene, ifølge ARM. Det muliggjør mobilspillopplevelser av høy kvalitet med konsollspill som nå er tilgjengelig på mobil. G78 gir lengre batterilevetid til premium mobile enheter. Det gir også et ytterligere ML-ytelsesløft for mer komplekse spill-, video-, kamera-, sikkerhets-ML-funksjoner på mobile enheter.
ARM er positive når det gjelder mulighetene for mobilspilling. Mobilspill sto for mer enn 46 % av det globale spillmarkedet i 2019, og nådde 68,2 milliarder dollar i inntekter. Det er også satt til å fortsette å vokse i løpet av de neste årene, da det vil overgå både PC- og konsollspilling. Flere premium spilltitler kommer til mobil og brukere forventer en lignende opplevelse på mobil sammenlignet med konsoller.
For å gjøre disse opplevelsene mulig, kommer Mali-G78 med det nødvendige ytelsesløftet. Den har en forbedring av ytelsestettheten på 15 % for spillinnhold sammenlignet med G77. For samme areal som forrige generasjon vil G78 gi mer ytelse. Denne boosten er muliggjort av fire nøkkelfunksjoner:
- Støtte for opptil 24 kjerner
- Asynkront toppnivå
- Forbedringer av flislegger
- Forbedret sporing av fragmentavhengighet
Mens G77s maksimale kjernetall var 16, har ARM økt det maksimale kjernetallet på G78 til maksimalt 24 kjerner. Selvfølgelig, bare fordi det er et maksimum, betyr det ikke at mobilbrikkeleverandører faktisk vil inkludere 24 kjerner. Den bredeste kjernevarianten av G77 vi har sett så langt er Mali-G77MP11 på Exynos 990, mens Dimensity 1000 har en Mali-G77MC9.
ARM mener Asynchronous Top Level er en spillendrende funksjon for GPU-ytelse. Dette sies å presse så mye ytelse ut av mobilspill som mulig, og sikre maksimal ytelse.
Tiler-forbedringer, derimot, legger til et ekstra lag med kvalitet til mobilspill. Spill hentet fra PC og konsoll har ofte ekstremt kompliserte eiendeler og sofistikerte scener, som forårsaker ytelsesproblemer og flaskehalser. Forbedringer av flislegging reduserer toppunktbelastningen på GPUen for disse komplekse scenene og ressursene. Dette forbedrer ytelsen for komplisert konsolllignende spillinnhold.
ARM har også forbedret sporing av fragmentavhengighet på G78. Dette påvirker spesielt mobilspill med komplekse spillscener som involverer røyk, trær og gress. Resultatene er at ARM har sett opptil 17 % ytelsesforbedringer på de beste mobilspillene sammenlignet med G77.
Mali-G78 har 10 % bedre energieffektivitet enn forgjengeren. Igjen, det vil ikke være nok til å ta igjen hverken Qualcomm eller Apple. ARMs mål her virker spesielt konservative. Asynchronous Top Level-funksjonen spiller en viktig rolle i energieffektivitet, siden den muliggjør en reduksjon i kraft, og dermed gjør det mulig å generere innhold på en bærekraftig måte. Derfor, når en enhet sender ut innhold med ønsket bildefrekvens, kan den klokke ned for å spare energi. Å øke toppnivået for denne oppgaven bruker litt mer energi, men energibesparelsen ved å redusere frekvensen til shader-kjernene er langt høyere. Det er fordi shader-kjernene bruker 90-95 % av GPUens energibudsjett.
Bedre energieffektivitet i G78 oppnås også takket være Fused multiply-add (FMA). Den har blitt fullstendig redesignet fra grunnen av, noe som har ført til 30 % energireduksjon til enheten. FMA-enheten er ansvarlig for de fleste beregningene som skjer inne i en GPU, og det er derfor det var fornuftig for ARM å målrette den for energireduksjoner.
En GPUs parallelle databehandlingsevne gjør den egnet for å kjøre ML-arbeidsbelastninger, selv om ARM erkjenner at CPU og GPU fortsatt er de primære prosessorene for ML. Etter hvert som brukstilfellene blir mer komplekse, vil noen arbeidsbelastninger bli overført til GPUen. De viktigste ML-brukstilfellene for GPUen er knyttet til sikkerhetsfunksjoner på enheten, forskjellige kamera- og videomoduser samt applikasjoner med AR-funksjoner.
Rollen til ML på GPUen muliggjør opplevelser som ansiktssporing innenfor bilde- eller videorammen, spill som bruker AR-funksjoner og mer. For disse ML-baserte oppgavene har Mali-G78 en gjennomsnittlig ytelsesforbedring på 15 % for ulike ML-arbeidsbelastninger sammenlignet med G77. G77 ga en forbedring på 60 % i ML-ytelse sammenlignet med tidligere generasjoner, så år-til-år-forbedringen i år er mye mindre. Asynkront toppnivå er avgjørende for å øke ML-ytelsen, da klokkeslett av shader-kjernene hjelper med de ulike ML-brukstilfellene på GPUen.
Så er det kunngjøringen av Mali-G68. Dette er ikke annet enn en smalere variant av Mali-G78, akkurat som Mali-G57 var en smalere variant av Mali-G77. ARM sier at dette er den første sub-premium Mali GPU for 2021-enheter. Den har alle G78s funksjoner som flisleggingsforbedringer og den nye FMA-enheten i utførelsesmotoren, men støtter opptil 6 kjerner i stedet for 24. Nesten premium ytelse til en lavere kostnad er målet med denne GPUen.
ARM utviklet dette sub-premium GPU-nivået etter å ha lyttet til tilbakemeldinger fra partnere som ønsket premiumfunksjoner på tvers av porteføljen av enheter. G68 har et lavere silisiumområde, som forventet, og bringer høyytelsesspill til et bredere publikum av utviklere og forbrukere.
Til slutt nevner ARM sine utviklerpartnerskap. Det gjør det enkelt for utviklere å optimalisere innholdet for å kjøre bedre på Mali GPUer (i teorien). Et eksempel er Performance Advisor. For det andre er ARMs samarbeid med Unity for å bringe Burst Compiler. Detaljer om dette kan leses i kildeartikkelen.
Mali-G78 - Outlook
Utsiktene for Mali-G78 er dystre. Det virker som om ARM bare ikke er interessert i å gjøre betydelige ytelsesforbedringer fra år til år i samme form som Apple lager, i samme form som Qualcomm laget tidligere. Mens Qualcomms forbedringshastighet også har avtatt, er grunnlinjen på et høyere sted enn ARM. Det ser dårlig ut for Android-økosystemet når anmeldere uttaler med numeriske bevis at A13s GPUs vedvarende ytelse er høyere enn Snapdragon 865s toppytelse. Ytelsesdeltaet mellom Apple og Android GPUer vokser, og det blir bare bredere.
G78 er derfor ikke en magisk løsning for å løse ARMs Mali GPU-problemer og bringe dem til toppen av ytelseskartene. Den vil fortsatt bli rangert under Apple og Qualcomms GPUer. Det vil være standardvalget for noen SoC-er bare fordi det er ARMs lager GPU IP, og tilpassede løsninger har adgangsbarrierer og koster mer som vi vil.
Neste år er det tvilsomt om Samsung Systems LSI faktisk ender opp med å bruke Mali-G78. Samsung har vært en høyprofilert kunde av Mali GPUer, men i fjor, det signerte et partnerskap med AMD for å bringe RDNA GPU-arkitekturen til sine mobile SoC-er i 2021. Hvis det veikartet forblir på rett spor – og på dette tidspunktet har vi ingen grunn til å mistenke at det ikke er på rett spor – så vil Exynos 990s etterfølger ha en AMD RDNA GPU i stedet for en Mali GPU. Det vil faktisk være et stort designtap for ARM. Til og med andre leverandører som MediaTek har flere alternativer i disse dager. Imagination Technologies nye A-serien GPU-arkitektur har et designmål for høyere ytelse enn G78, og det er mulig at MediaTek bytter bort fra Mali i fremtiden. Qualcomm har selvfølgelig ingen grunn til å forlate sin Adreno GPU-innsats, som fortsatt gjenstår best i klassen når det gjelder ytelse og effektivitet når man utelukkende snakker om Android smarttelefonmarkedet.
Dermed er det klart at ARM må øke frekvensen av årlige forbedringer i Mali GPUer for å gjøre en reell forskjell i det mobile GPU-markedet. Hvis den ikke kan gjøre dette, risikerer den å bli gjort til en ettertanke i premium flaggskipet GPU-området.
ARM Ethos N78
Til slutt har ARM også annonsert Ethos N78 neural prosesseringsenhet (NPU). Det er etterfølgeren til N77 NPU. Den leverer større ML-funksjoner på enheten og opptil 25 % mer ytelseseffektivitet. Konfigurerbarhet er også en styrke da tilgjengelige konfigurasjoner varierer fra 1 TOP/s til opptil 10 TOP/s. For mer informasjon, sjekk ut ARMs blogginnlegg. Denne NPU-en vil sannsynligvis ha begrensede designgevinster ettersom Qualcomm, Samsung, HiSilicon og MediaTek alle har sine egne nevrale prosesseringsenheter/AI-motorer.
Kilder: ARM (1, 2), AnandTech (1, 2)