ARM annoncerer Cortex-A78 CPU, Mali-G78 GPU, Ethos N78 NPU

click fraud protection

ARM har annonceret Cortex-A78 CPU-arkitekturen samt Mali-G78 GPU. De to er efterfølgerne til Cortex-A77 CPU og Mali-G77 GPU.

Som en del af sin TechDay 2020 har ARM lavet tre store meddelelser. Den vigtigste meddelelse er Cortex-X Custom-programmet (CXC), der indeholder det nye Cortex-X1 CPU kerne. Cortex-X1 bringer højere peak-ydeevne end nogen Cortex-A-serie CPU, mens den bryder rammen af ​​Cortex-A-seriens PPA. De to andre meddelelser, som ARM lavede, var meget mere rutineprægede. Cortex-A78 CPU'en og Mali-G78 CPU'en er nu officielle, og de fungerer som efterfølgere af Cortex-A77 CPU og Mali-G77 CPU hhv. Lad os dække disse meddelelser én efter én:

ARM Cortex-A78

Med Cortex-A78 var ARMs hovedfokus på effektivitetskrav, såsom krav om længere batterilevetid, nye mobile formfaktorer og krympende SoC-områder. Vedvarende ydeevne er nøgleordet her for Cortex-A78, mens Cortex-X1 skyder efter stjernerne med sit mål om at opnå maksimal kortsigtet topydelse.

ARM siger, at Cortex-78 repræsenterer det "allerbedste" af dets drev til high-end ydeevne med klassens bedste effektivitet. Det er heller ikke bare tomme ord. I de sidste par år har Cortex-A76 og Cortex-A77 vist klassens bedste energieffektivitet og klassens bedste PPA (ydelse, effekt og areal). De havde ikke det design, der kræves for at konkurrere med Apples A-serie chips, men på grund af lavere strøm genereret, var deres energieffektivitet i værste fald den samme som Apple og i bedste fald endda højere end Æble.

A78's ydeevneforbedringer dækker anvendelsesmulighederne for produktivitet, kommunikation, sikkerhed og kamerabaserede opgaver, avanceret spil, XR og ML-baserede oplevelser.

I vedvarende ydeevne bringer Cortex-A78 tocifrede forbedringer. Det giver en forbedring på 20 % i vedvarende ydeevne i forhold til sin forgænger, Cortex-A77, i den samme mobile termiske effekt-konvolut. AnandTech gennemgik tallene og forklarede, at tallet på 20 % er en kombination af 7 % højere IPC i forhold til A77, mens resterende 13 % præstationsgevinster krediteres 5nm-processen, hvorpå næste generations SoC'er alle vil være fabrikeret. ARM bemærker vigtigheden af ​​vedvarende ydeevne ved at sige, at mobile enheder har en begrænset kapacitet til sprede kraften, og vedvarende ydeevne undgår strømregulering til applikationer, der kræver meget strøm. Dette forbedrer igen UX ved at undgå forsinkelser eller frame drops.

Presset på energieffektivitet udmønter sig i højere energieffektivitet, da de to er relaterede, men forskellige koncepter. Ifølge ARM tilbyder Cortex-A78 50 % energibesparelser i forhold til 2019-enheder på højtydende punkter, såsom dem, der er toppen for nuværende mobile enheder ved samme forestilling som Cortex-A77. Dette er imponerende, og det gør A78 til den mest energieffektive Cortex-A CPU ARM nogensinde har designet.

ARMs fokus på vedvarende ydeevne vil gavne den næste bølge af mobil innovation såsom nye formfaktorer (foldbare telefoner) samt forbedret "digital fordybelse" gennem 5G. Realitetstjekket er, at det ikke er tilfældet for den nuværende generation, og det vil ikke betyde meget selv i den næste generation.

En use case, der vil blive forbedret af Cortex-A78, er AAA mobilspil, når det kombineres med ARMs egen nye Mali-G78 GPU. Kombinationen af ​​de to har til formål at bringe high-fidelity spiloplevelser til mobilen. Deres større ydeevne vil, kombineret med 5G's hurtige hastighed og høje båndbredde, muliggøre premium gaming på mobilen. A78's effektivitet har en fordel her, da det vil give længere batterilevetid til længere spil. ARM siger, at det også arbejder med økosystemet for yderligere at forbedre ydeevnen og opbygge rigere spiloplevelser, og giver et eksempel på dets arbejde med Unity for at bringe Burst Compiler til Android.

Maskinlæring (ML) ydeevne er en anden prioritet for ARM. CPU'en er førstevalgsprocessoren til ML-databehandling på mobil, selvom avancerede SoC'er i disse dage kommer med separate neurale behandlingsenheder (NPU'er). ARMs CPU'er understøtter de mest populære ML-applikationer i den virkelige verden og brugssager på smartphones, såsom sociale mediefiltre, diktering, sikkerhed og sikkerhed. Cortex-A78 bruger i gennemsnit 8 % mindre strøm til ML-baserede opgaver sammenlignet med A77, hvilket fører til 10 % officielle effektivitetsforbedringer.

ARM Cortex-A78 - Arkitektur

ARM Cortex-A78 har samme arkitektur som den forrige generation (det er stadig en ARM v8.2-kerne). ARM tilføjede dog mikroarkitektoniske funktioner, der har til formål at skubbe ydeevnen højere på en område- og strømeffektiv måde. ARM sparer areal og strøm, samtidig med at de nødvendige præstationsniveauer opretholdes. Igen forbliver ARMs fokus på Cortex-A-serien på areal- og strømeffektivitet frem for topydelse, hvilket nu er et job, der er taget op af Cortex-X-programmet.

Cortex-A78's ydeevneforbedringer er aktiveret gennem yderligere mikroarkitektoniske funktioner, der optimerer bredde og dybde. Instruktionens afkodningsbredde forbliver på 4-wide, det samme som A77 og A76. (Cortex-X1's afkodningsbredde er på den anden side 5-bred, mens A13 har en 7-bred afkodningsbredde.) ARM har tilføjet større grenforudsigelse for båndbredde og nøjagtighed samt instruktionsfusionssager. Disse arkitektoniske forbedringer muliggør en stigning på 7 % i enkelttråds ydeevne i forhold til A77.

Effektiviteten er blevet maksimeret ved at reducere strukturer, der har lav ydeevne og areal, såsom på L1-I og L1-D cachen. ARM har optimeret eksisterende strukturer for at forbruge mindre strøm, såsom brandforudsigelsesstrukturerne. ARM siger, at dette fører til 4% mindre effekt for ydeevne pr. mW og 5% mindre areal for ydeevne pr. mm2 sammenlignet med A77.

A78 holder fokus på vedvarende ydeevne med klassens bedste effektivitet på klyngeniveau. En DynamIQ-klynge med 4x Cortex-A77 og 4x Cortex-A55 CPU'er kan opgraderes til 4x A78-kerner og 4x A55-kerner. Dette giver 20 % vedvarende præstationsforbedringer på 15 % mindre område. Applikationer, der kræver adskillige højtydende tråde parallelt, såsom high-fidelity-spil, vil gavne på grund af det vedvarende præstations-push.

ARM bemærker, at A78 DynamIQ-klyngens forbedrede områdeeffektivitet gør den ideel til foldbare telefoner og flere og større skærme. Et andet fokus er på at gøre smartphones 5G-klar gennem ydeevne og energiforbedringer. 5G giver angiveligt "langt hurtigere hastigheder", "langt lavere latency" og "langt hurtigere og mere allestedsnærværende tilslutningsmuligheder til mobile enheder til applikationer med høj båndbredde". Dette kan være tilfældet om et par år, men på nuværende tidspunkt er de fleste af disse fordele ikke mærkbare for slutforbrugerne.

Samlet set er Cortex-A78 et solidt produkt. Næste generations flagskibs-SoC'er vil inkorporere flere A78-kerner for at komplementere den enkelte Cortex-X1-kerne, der har højere strøm- og arealkrav, og nogle værdiorienterede SoC'er vil endda vælge at springe Cortex-X1 over helt. For mellemklasse SoC-markedet vil A78 være den foretrukne CPU-kerne for 2021 SoC'er, og dens fokus på vedvarende ydeevne er velkommen.


ARM Mali-G78

ARMs Mali-serie af GPU'er har ikke været nær så succesfuld som dens Cortex-serie af CPU'er, for at sige det mildt. Mali GPU'erne er konsekvent blevet bedre end både med hensyn til ydeevne og strømeffektivitet af Apples brugerdefinerede GPU'er og Qualcomms tilpassede Adreno GPU'er, år efter år. Sidste års lancering af den nye Valhall-arkitektur og Mali-G77 GPU ændrede desværre intet på det. SoC'er med Mali-G77 inkluderede Exynos 990 og MediaTek Dimensity 1000L henholdsvis. Begge af dem så desværre ud til at have svage implementeringer, hvilket betød, at deres GPU-ydeevne kunne ikke konkurrere med Qualcomms Adreno 650 GPU, pyt med Apples klasseledende GPU'er i Apple A12 og A13. Mali har haltet bagud i årevis, og dets forbedringer har ikke været nok til at ændre status quo i det mobile GPU-rum.

Ikke desto mindre er ARM intet, hvis ikke optimistisk. Det bemærker, at dets partnere har afsendt over en milliard Mali GPU'er årligt, hvilket gør Mali til den nummer et, der leveres GPU i verden. Dette antal vil angiveligt kun stige, da mange flere forskellige typer enheder muliggør grafikintensive brugssager såsom avanceret mobilspil og XR (VR og AR). Ifølge ARM gør dette Mali til den mest udbredte GPU til mobiludvikling på tværs af økosystemet.

ARM bemærker, at den i 2019 annoncerede sin første GPU baseret på Valhall-arkitekturen - Mali-G77. I 2020 bliver G77 efterfulgt af Mali-G78, som også er baseret på Valhall-arkitekturen. Mens ARM siger, at det er den mest effektive GPU til premium mobile enheder til dato, understøtter tallene det ikke på trods af, hvad ARM ironisk nok siger om, at det er et faktum, der understøttes af tallene. G78 bringer en 25% forbedring i ydeevne i forhold til G77, hvilket mildest talt er magert. Kløften i maksimal GPU-ydeevne mellem G77 og Apple A13's GPU var betydelig, hvilket betyder, at G78 ikke vil være i stand til at indhente A13, pyt med den kommende Apple A14's GPU. Qualcomm vil også fortsætte med at være et skridt foran på grund af sine egne trinvise præstationsforbedringer.

Spilskiftende grafik og heldagsspil på mobil er allerede muligt på andre GPU'er, så ARMs markedsføring her klinger lidt hult.

Mali-G78 er bygget med udviklere og slutbrugeren i tankerne, ifølge ARM. Det muliggør mobilspiloplevelser af høj kvalitet med konsolspil, der nu er tilgængelige på mobilen. G78 giver længere batterilevetid til premium mobile enheder. Det giver også et yderligere ML-ydeløft til mere komplekse spil-, video-, kamera-, sikkerheds-ML-funktioner på mobile enheder.

ARM er positivt indstillet over for mulighederne for mobilspil. Mobilspil tegnede sig for mere end 46 % af det globale spilmarked i 2019 og nåede op på 68,2 milliarder dollars i omsætning. Det er også indstillet til at fortsætte med at vokse i løbet af de næste par år, da det vil overgå både pc- og konsolspil. Flere premium-spiltitler kommer til mobilen, og brugerne forventer en lignende oplevelse på mobil sammenlignet med konsoller.

For at gøre disse oplevelser mulige kommer Mali-G78 med det nødvendige ydelsesboost. Den har en 15 % forbedring af ydeevnetætheden for spilindhold sammenlignet med G77. For den samme mængde areal som den forrige generation vil G78 give mere ydeevne. Dette løft er muliggjort af fire nøglefunktioner:

  • Understøttelse af op til 24 kerner
  • Asynkront topniveau
  • Forbedringer af fliselægger
  • Forbedret sporing af fragmentafhængighed

Mens G77's maksimale antal kerner var 16, har ARM øget det maksimale antal kerner på G78 til maksimalt 24 kerner. Bare fordi der er et maksimum, betyder det selvfølgelig ikke, at mobilchipleverandører faktisk vil inkorporere 24 kerner. Den bredeste kernevariant af G77, vi hidtil har set, er Mali-G77MP11 på Exynos 990, mens Dimensity 1000 har en Mali-G77MC9.

ARM mener, at Asynchronous Top Level er en spilskiftende funktion for GPU-ydeevne. Dette siges at presse så meget ydeevne ud af mobilspil som muligt, hvilket sikrer maksimal ydeevne.

Tiler-forbedringer tilføjer på den anden side et ekstra lag af kvalitet til mobilspil. Spil hentet fra pc og konsol har ofte ekstremt komplicerede aktiver og sofistikerede scener, som forårsager præstationsproblemer og flaskehalse. Forbedringer af fliselægning reducerer belastningen af ​​toppunktet på GPU'en for disse komplekse scener og aktiver. Dette forbedrer ydeevnen for kompliceret konsollignende spilindhold.

ARM har også forbedret sporing af fragmentafhængighed på G78. Dette påvirker især mobilspil med komplekse spilscener, der involverer røg, træer og græs. Resultaterne er, at ARM har set op til 17 % præstationsforbedringer på topmobilspil sammenlignet med G77.

Mali-G78 har 10 % bedre energieffektivitet end sin forgænger. Igen, det vil ikke være nok til at indhente hverken Qualcomm eller Apple. ARMs mål her virker særligt konservative. Funktionen Asynkron Top Level spiller en vigtig rolle i energieffektiviteten, da den muliggør en reduktion i strøm, hvilket gør det muligt at generere indhold på en bæredygtig måde. Derfor, når en enhed udsender indhold med den ønskede billedhastighed, kan den klokkes ned for at spare energi. At øge topniveauet for denne opgave bruger lidt mere energi, men energibesparelsen ved at reducere frekvensen af ​​shader-kernerne er langt højere. Det skyldes, at shader-kernerne bruger 90-95% af GPU'ens energibudget.

Bedre energieffektivitet i G78 opnås også takket være Fused multiply-add (FMA). Det er blevet fuldstændigt redesignet fra bunden, hvilket fører til en energireduktion på 30 % til enheden. FMA-enheden er ansvarlig for de fleste af de beregninger, der sker inde i en GPU, og det er derfor, det gav mening for ARM at målrette den til energireduktioner.

En GPU's parallelle databehandlingsevne gør den velegnet til at køre ML-arbejdsbelastninger, selvom ARM anerkender, at CPU og GPU fortsat er de primære processorer for ML. Efterhånden som brugssager bliver mere komplekse, vil nogle arbejdsbelastninger blive overført til GPU'en. De vigtigste ML-brugstilfælde for GPU'en er knyttet til sikkerhedsfunktioner på enheden, forskellige kamera- og videotilstande samt applikationer med AR-funktioner.

Rollen af ​​ML på GPU'en muliggør oplevelser såsom ansigtssporing inden for foto- eller videorammen, spil, der bruger AR-funktioner og mere. Til disse ML-baserede opgaver har Mali-G78 en gennemsnitlig forbedring af ydeevnen på 15 % for forskellige ML-arbejdsbelastninger sammenlignet med G77. G77 bragte en forbedring på 60 % i ML-ydeevne i forhold til tidligere generationer, så år-til-år-forbedringen i år er meget mindre. Asynkront topniveau er afgørende for at øge ML-ydeevnen, da clocking af shader-kernerne hjælper med de forskellige ML-brugstilfælde på GPU'en.

Så er der annonceringen af ​​Mali-G68. Dette er intet andet end en smallere variant af Mali-G78, ligesom Mali-G57 var en smallere variant af Mali-G77. ARM siger, at dette er den første sub-premium Mali GPU til 2021-enheder. Den har alle G78's funktioner såsom fliselægningsforbedringer og den nye FMA-enhed i udførelsesmotoren, men understøtter op til 6 kerner i stedet for 24. Næsten premium ydeevne til en lavere pris er målet med denne GPU.

ARM udviklede dette sub-premium GPU-niveau efter at have lyttet til feedback fra partnere, der ønskede premium-funktioner på tværs af deres portefølje af enheder. G68 har et lavere siliciumareal, som forventet, og bringer højtydende spil til et bredere publikum af udviklere og forbrugere.

Endelig nævner ARM sine udviklerpartnerskaber. Det gør det nemt for udviklere at optimere deres indhold til at køre bedre på Mali GPU'er (i teorien). Et eksempel er Performance Advisor. For det andet er ARM's samarbejde med Unity om at bringe Burst Compiler. Detaljer om dette kan læses i kildeartiklen.

Mali-G78 - Outlook

Udsigterne for Mali-G78 er dystre. Det ser ud til, at ARM bare ikke er interesseret i at lave væsentlige år-til-år ydeevneforbedringer i den samme form, som Apple laver, i den samme form, som Qualcomm lavede tidligere. Mens Qualcomms forbedringshastighed også er aftaget, er dens baseline på et højere sted end ARM. Det ser dårligt ud for Android-økosystemet, når anmeldere udtaler med numeriske beviser, at A13's GPU's vedvarende ydeevne er højere end Snapdragon 865's højeste ydeevne. Ydeevnedeltaet mellem Apple og Android GPU'er vokser, og det bliver kun bredere.

G78 er derfor ikke en magisk løsning til at løse ARMs Mali GPU-problemer og bringe dem til toppen af ​​præstationsdiagrammerne. Det vil stadig være rangeret under Apple og Qualcomms GPU'er. Det vil være standardvalget for nogle SoC'er bare fordi det er ARMs lager GPU IP, og tilpassede løsninger har adgangsbarrierer og koster mere som godt.

Næste år er det tvivlsomt, om Samsung Systems LSI rent faktisk ender med at bruge Mali-G78. Samsung har været en højprofileret kunde af Mali GPU'er, men sidste år, det underskrev et partnerskab med AMD for at bringe RDNA GPU-arkitekturen til sine mobile SoC'er i 2021. Hvis den køreplan forbliver på sporet - og på nuværende tidspunkt har vi ingen grund til at antage, at den ikke er på sporet - så vil Exynos 990's efterfølger have en AMD RDNA GPU i stedet for en Mali GPU. Det vil faktisk være et stort designtab for ARM. Selv andre leverandører som MediaTek har flere muligheder i disse dage. Imagination Technologies' nye A-serie GPU-arkitektur har et designmål for højere ydeevne end G78, og det er muligt, at MediaTek skifter væk fra Mali i fremtiden. Qualcomm har selvfølgelig ingen grund til at opgive sin Adreno GPU-indsats, som stadig er tilbage klassens bedste med hensyn til ydeevne og effektivitet, når man udelukkende taler om Android smartphone marked.

Det er således klart, at ARM bliver nødt til at øge antallet af årlige forbedringer i Mali GPU'er for at gøre en reel forskel på det mobile GPU-marked. Hvis det ikke kan gøre dette, risikerer det at blive gjort til en eftertanke i premium flagskibet mobile GPU-plads.


ARM Ethos N78

Endelig har ARM også annonceret Ethos N78 neural processing unit (NPU). Det er efterfølgeren til N77 NPU. Det leverer større ML-funktioner på enheden og op til 25 % mere ydeevne. Konfigurerbarhed er også en styrke, da tilgængelige konfigurationer spænder fra 1 TOP/s på op til 10 TOP/s. For flere detaljer, tjek ud ARMs blogindlæg. Denne NPU vil sandsynligvis have begrænsede designgevinster, da Qualcomm, Samsung, HiSilicon og MediaTek alle har deres egne Neural Processing Units/AI Engines.


Kilder: ARM (1, 2), AnandTech (1, 2)