ARM teatab Cortex-A78 CPU, Mali-G78 GPU, Ethos N78 NPU

ARM on teatanud nii Cortex-A78 protsessori arhitektuurist kui ka Mali-G78 GPU-st. Need kaks on protsessori Cortex-A77 ja Mali-G77 GPU järglased.

TechDay 2020 raames on ARM teinud kolm peamist teadaannet. Peamine teadaanne on Cortex-X Custom programm (CXC), mis sisaldab uut Cortex-X1 protsessori tuum. Cortex-X1 pakub suuremat tippjõudlust kui ükski Cortex-A seeria protsessor, rikkudes samal ajal Cortex-A seeria PPA ümbriku. Ülejäänud kaks ARM-i teadaannet olid palju rutiinsemad. Cortex-A78 protsessor ja Mali-G78 protsessor on nüüd ametlikud ja toimivad selle järglastena. Cortex-A77 CPU ja Mali-G77 CPU vastavalt. Käsitleme neid teateid ükshaaval:

ARM Cortex-A78

Cortex-A78 puhul keskendus ARM põhitähelepanu tõhususnõuetele, nagu nõuded pikema aku kasutusea järele, uued mobiilsed vormitegurid ja kahanevad SoC-alad. Püsiv jõudlus on siin Cortex-A78 märksõnaks, samas kui Cortex-X1 lööb tähtede poole eesmärgiga saavutada maksimaalne lühiajaline tippjõudlus.

ARM ütleb, et Cortex-78 esindab oma "väga parimat" tipptasemel jõudlust ja oma klassi parimat tõhusust. Ka need pole lihtsalt tühjad sõnad. Viimase paari aasta jooksul on Cortex-A76 ja Cortex-A77 näidanud oma klassi parimat energiatõhusust ja oma klassi parimat PPA-d (jõudlus, võimsus ja pindala). Neil ei olnud Apple'i A-seeria kiipidega konkureerimiseks vajalikku disaini, vaid madalamate omaduste tõttu toodetud võimsusega, oli nende energiatõhusus halvimal juhul samasugune kui Apple'il ja parimal juhul isegi kõrgem kui Apple.

A78 jõudluse täiustused hõlmavad tootlikkuse, suhtluse, turvalisuse ja kaamerapõhiste ülesannete, täiustatud mängude, XR-i ja ML-põhiste kogemuste kasutusjuhtumeid.

Cortex-A78 pakub püsivat jõudlust kahekohalise arvu täiustusi. See pakub 20% paremat püsivat jõudlust võrreldes eelkäija Cortex-A77-ga samas mobiilses soojusvõimsuses. AnandTech vaatas numbrid läbi ja selgitas, et 20% näitaja on kombinatsioon 7% kõrgemast IPC-st võrreldes A77-ga, samas kui Ülejäänud 13% jõudluse kasvu on arvestatud 5 nm protsessiga, mille alusel saavad kõik järgmise põlvkonna SoC-d fabritseeritud. ARM märgib püsiva jõudluse tähtsust, öeldes, et mobiilseadmete võimsus on piiratud hajutavad võimsust ja pidev jõudlus väldib võimsuse piiramist rakenduste puhul, mis nõuavad palju võimsus. See omakorda parandab kasutajakogemust, vältides viivitust või kaadri kukkumist.

Energiatõhususe suurendamine tähendab suuremat energiatõhusust, kuna need kaks on omavahel seotud, kuid erinevad mõisted. ARM-i andmetel pakub Cortex-A78 suure jõudlusega punktides, näiteks praeguste mobiilseadmete tipptasemel, 50% energiasäästu võrreldes 2019. aasta seadmetega. samal etendusel nagu Cortex-A77. See on muljetavaldav ja teeb A78-st kõige energiasäästlikuma Cortex-A CPU ARM-i, mis on kunagi loodud.

ARM-i keskendumine püsivale jõudlusele tuleb kasuks järgmisele mobiilse innovatsiooni lainele, nagu uued vormitegurid (kokkupandavad telefonid) ja täiustatud digitaalne keelekümblus 5G kaudu. Reaalsuskontroll on see, et praeguse põlvkonna puhul see nii ei ole ja sellel pole suurt tähtsust isegi järgmise põlvkonna jaoks.

Üks kasutusjuhtum, mida Cortex-A78 täiustab, on AAA mobiilimängud, kombineerituna ARM-i enda uue Mali-G78 GPU-ga. Nende kahe kombinatsiooni eesmärk on tuua mobiilseadmetesse ülitäpsed mängukogemused. Nende suurem jõudlus koos 5G kiire kiiruse ja suure ribalaiusega võimaldab esmaklassilist mängimist mobiilis. A78 tõhusus on siin kasuks, kuna see tagab pikemaks mängimiseks pikema aku tööea. ARM ütleb, et töötab ka ökosüsteemiga, et veelgi parandada jõudlust ja luua rikkalikumat mängukogemust, ning toob näite oma koostööst Unityga Burst Compileri toomiseks Androidi.

Masinõppe (ML) jõudlus on veel üks ARM-i prioriteet. Protsessor on mobiilse ML-arvutite esmavaliku protsessor, kuigi tänapäeval on tipptasemel SoC-del eraldi närviprotsessorid (NPU). ARM-i protsessorid toetavad kõige populaarsemaid reaalmaailma ML-rakendusi ja nutitelefonide kasutusjuhtumeid, nagu sotsiaalmeedia filtrid, dikteerimine, turvalisus ja turvalisus. Cortex-A78 kasutab ML-põhiste ülesannete jaoks keskmiselt 8% vähem energiat võrreldes A77-ga, mis toob kaasa 10% ametliku tõhususe paranemise.

ARM Cortex-A78 – arhitektuur

ARM Cortex-A78 arhitektuur on sama, mis eelmisel põlvkonnal (see on ikkagi ARM v8.2 tuum). ARM lisas siiski mikroarhitektuurseid funktsioone, mille eesmärk on suurendada jõudlust piirkonnas ja energiatõhusal viisil. ARM säästab ala ja võimsust, säilitades samal ajal vajalikud jõudlustasemed. Jällegi keskendub ARM Cortex-A seeriale pigem pindala- ja energiatõhususele, mitte tipptulemusele, mis on nüüd Cortex-X programmi tööülesanne.

Cortex-A78 jõudluse täiustused on võimaldatud täiendavate mikroarhitektuursete funktsioonidega, mis optimeerivad laiust ja sügavust. Käskude dekodeerimise laius jääb 4-laiusele, sama mis A77 ja A76 puhul. (Cortex-X1 dekodeerimislaius on seevastu 5 laiust, A13-l aga 7 laiust.) ARM on lisanud ribalaiuse ja täpsuse suurema haru prognoosimise ning juhiste liitmise juhtumid. Need arhitektuurilised täiustused võimaldavad ühe keermega jõudlust 7% suurendada võrreldes A77-ga.

Tõhusust on maksimeeritud, vähendades madala jõudluse ja pindalaga struktuure, näiteks L1-I ja L1-D vahemälus. ARM on optimeerinud olemasolevaid struktuure, et tarbida vähem energiat, näiteks kaubamärgi ennustusstruktuurid. ARM ütleb, et see vähendab A77-ga võrreldes 4% väiksemat jõudlust mW kohta ja 5% väiksemat pindala mm2 kohta.

A78 keskendub püsivale jõudlusele oma klassi parima efektiivsusega klastri tasemel. 4x Cortex-A77 ja 4x Cortex-A55 protsessoriga DynamIQ klastrit saab täiendada 4x A78 ja 4x A55 tuumaga. See tagab 20% püsiva jõudluse paranemise 15% väiksemal alal. Rakendused, mis nõuavad paralleelselt mitut suure jõudlusega lõime, näiteks ülitäpsed mängud, saavad kasu tänu pidevale jõudlusele.

ARM märgib, et A78 DynamIQ klastri täiustatud alatõhusus muudab selle ideaalseks kokkupandavate telefonide ning mitme ja suurema ekraani jaoks. Veel üks tähelepanu on suunatud nutitelefonide 5G-valmiduse saavutamisele jõudluse ja energia parandamise kaudu. 5G pakub väidetavalt "palju suuremat kiirust", "palju väiksema latentsusaega" ja "palju kiiremat ja laiemalt levinud ühenduvust mobiilseadmetele suure ribalaiusega rakenduste jaoks". See võib juhtuda mõne aasta pärast, kuid praegu pole enamik neist eelistest lõpptarbijatele märgatav.

Üldiselt on Cortex-A78 kindel toode. Järgmise põlvkonna lipulaevade SoC-d sisaldavad mitut A78 tuuma, mis täiendavad üht Cortex-X1 tuuma, mis sellel on kõrgemad võimsus- ja pindalanõuded ning mõned väärtusele orienteeritud SoC-d jätavad isegi Cortex-X1 vahele täielikult. Keskklassi SoC-turu jaoks on A78 2021. aasta SoC-de jaoks valitud protsessorituum ja selle keskendumine püsivale jõudlusele on teretulnud.


ARM Mali-G78

ARM-i Mali GPU-seeria pole pehmelt öeldes olnud nii edukas kui selle Cortexi protsessorite seeria. Apple'i kohandatud GPU-d ja Qualcommi kohandatud Adreno GPU-d on Mali GPU-sid aastast aastasse järjekindlalt edestanud nii jõudluse kui ka energiatõhususe osas. Eelmisel aastal uue Valhalli arhitektuuri ja Mali-G77 GPU käivitamine ei muutnud seda kahjuks midagi. Mali-G77-ga varustatud SoC-d sisaldasid Exynos 990 ja MediaTeki suurus 1000L vastavalt. Kahjuks näis mõlemal olevat nõrk juurutus, mis tähendas nende GPU jõudlust ei konkureeri Qualcommi Adreno 650 GPU-ga, ärge unustage Apple'i klassi juhtivaid GPU-sid Apple A12-s ja A13. Mali on aastaid maha jäänud ja selle täiustused pole olnud piisavad, et muuta mobiilse GPU ruumi status quo.

Sellegipoolest pole ARM midagi, kui mitte optimistlik. Ta märgib, et tema partnerid on tarninud üle miljardi Mali GPU aastas, muutes Mali tarnitud GPU-ks maailmas. Väidetavalt see arv ainult suureneb, kuna palju rohkem erinevaid seadmetüüpe võimaldavad graafiliselt intensiivseid kasutusjuhtumeid, nagu täiustatud mobiilimängud ja XR (VR ja AR). ARM-i sõnul muudab see Malist kogu ökosüsteemis mobiilside arendamiseks kõige laialdasemalt kasutatavaks GPU-ks.

ARM märgib, et 2019. aastal kuulutas ta välja oma esimese Valhalli arhitektuuril põhineva GPU – Mali-G77. 2020. aastal asendab G77 Mali-G78, mis põhineb samuti Valhalli arhitektuuril. Kuigi ARM ütleb, et see on seni kõige jõudlsam GPU esmaklassiliste mobiilseadmete jaoks, ei toeta numbrid seda, hoolimata sellest, mida ARM irooniliselt ütleb selle kohta, et numbrid toetavad seda. G78 parandab jõudlust 25% võrreldes G77-ga, mis on pehmelt öeldes napp. G77 ja Apple A13 GPU vaheline erinevus GPU tipptulemuses oli märkimisväärne, mis tähendab, et G78 ei suuda A13-le järele jõuda, rääkimata tulevasest Apple A14 GPU-st. Qualcomm jätkab ka edaspidi sammu võrra ees, kuna oma jõudlust täiustab.

Mängu muutev graafika ja kogu päeva mobiilis mängimine on juba teistes GPU-des võimalikud, nii et ARM-i turundus on siin veidi õõnes.

ARM-i sõnul on Mali-G78 ehitatud arendajaid ja lõppkasutajaid silmas pidades. See võimaldab kvaliteetset mobiilimängukogemust konsoolimängudega, mis on nüüd saadaval mobiilis. G78 toob esmaklassilistele mobiilseadmetele pikema aku tööea. See suurendab ka ML-i jõudlust veelgi keerukamate mängude, video, kaamera ja ML-i turvafunktsioonide jaoks mobiilseadmetes.

ARM suhtub mobiilimängude väljavaadetesse bullish. Mobiilimängud moodustasid 2019. aastal enam kui 46% ülemaailmsest mänguturust, ulatudes 68,2 miljardi dollarini. Samuti kavatsetakse see järgmiste aastate jooksul jätkata, kuna see ületab nii arvuti- kui ka konsoolmängude. Mobiiliseadmetesse jõuab rohkem esmaklassilisi mängumänge ja kasutajad ootavad mobiilis sarnast kogemust võrreldes konsoolidega.

Nende kogemuste võimaldamiseks on Mali-G78 varustatud vajaliku jõudlusega. Võrreldes G77-ga on sellel mängusisu jõudluse tihedus 15%. Eelmise põlvkonnaga sama suure ala puhul pakub G78 suuremat jõudlust. Selle tõuke teevad võimalikuks neli põhifunktsiooni:

  • Toetus kuni 24 tuumale
  • Asünkroonne tipptase
  • Plaatimise täiustused
  • Täiustatud fragmentide sõltuvuse jälgimine

Kui G77 maksimaalne tuumade arv oli 16, siis ARM on suurendanud G78 tuumade maksimaalset arvu maksimaalselt 24 tuumani. Muidugi ei tähenda see, et maksimum on, et mobiilikiibimüüjad kasutaksid tegelikult 24 tuuma. G77 laieim tuumavariant, mida oleme seni näinud, on Exynos 990 Mali-G77MP11, samas kui Dimensity 1000-l on Mali-G77MC9.

ARM usub, et asünkroonne tipptase on GPU jõudluse jaoks mängu muutev funktsioon. Väidetavalt pigistab see mobiilimängudest välja võimalikult palju jõudlust, tagades maksimaalse jõudluse.

Plaatimise täiustused aga lisavad mobiilimängudele täiendava kvaliteedikihi. Arvutist ja konsoolist üle toodud mängudel on sageli äärmiselt keerulised varad ja keerukad stseenid, mis põhjustavad jõudluses tõrkeid ja kitsaskohti. Plaatimise täiustused vähendavad nende keeruliste stseenide ja varade puhul GPU tipukoormust. See parandab keeruka konsoolilaadse mängusisu jõudlust.

ARM on täiustanud ka G78 fragmentide sõltuvuse jälgimist. See mõjutab eriti keeruliste mängustseenidega mobiilimänge, mis hõlmavad suitsu, puid ja rohtu. Tulemused näitavad, et ARM on G77-ga võrreldes parimate mobiilimängude jõudlust parandanud kuni 17%.

Mali-G78 energiatõhusus on 10% parem kui tema eelkäijal. Sellest jällegi ei piisa, et Qualcommile ega Apple'ile järele jõuda. ARM-i eesmärgid tunduvad siin eriti konservatiivsed. Asünkroonne tipptaseme funktsioon mängib energiatõhususes olulist rolli, kuna see võimaldab vähendada võimsust, võimaldades seega luua sisu säästval viisil. Seega, kui seade väljastab sisu soovitud kaadrisagedusega, võib see energia säästmiseks aeglustuda. Selle ülesande jaoks tipptaseme tõstmine kasutab veidi rohkem energiat, kuid varjundisüdamike sageduse vähendamisest tulenev energiasääst on palju suurem. Põhjus on selles, et varjundi tuumad kasutavad 90–95% GPU energiaeelarvest.

G78 parem energiatõhusus saavutatakse ka tänu Fused multiply-add (FMA) süsteemile. See on algusest peale täielikult ümber kujundatud, mis vähendab seadme energiatarbimist 30%. FMA-üksus vastutab enamiku GPU-s tehtavate arvutuste eest ja seetõttu oli ARM-i jaoks mõttekas suunata see energia vähendamiseks.

GPU paralleelse andmetöötluse võime muudab selle sobivaks ML-i töökoormuste käitamiseks, kuigi ARM tunnistab, et CPU ja GPU jäävad ML-i peamisteks protsessoriteks. Kuna kasutusjuhtumid muutuvad keerukamaks, laaditakse mõned töökoormused GPU-le maha. GPU peamised ML-i kasutusjuhud on seotud seadme turvafunktsioonidega, erinevate kaamera- ja videorežiimidega ning AR-funktsioonidega rakendustega.

ML-i roll GPU-s võimaldab selliseid kogemusi nagu näo jälgimine foto- või videokaadris, AR-funktsioone kasutavad mängud ja palju muud. Nende ML-põhiste ülesannete puhul on Mali-G78-l võrreldes G77-ga erinevate ML-i töökoormuste keskmine jõudluse paranemine 15%. G77 tõi eelmiste põlvkondadega võrreldes ML-i jõudluses 60% paranemise, seega on selle aasta aastane paranemine palju väiksem. Asünkroonne tipptase on ML-i jõudluse suurendamisel ülioluline, kuna varjundituumade taktimine aitab GPU erinevatel ML-i kasutusjuhtudel.

Siis on teadaanne Mali-G68 kohta. See pole midagi muud kui Mali-G78 kitsam variant, nagu ka Mali-G57 oli Mali-G77 kitsam variant. ARM ütleb, et see on esimene madalama tasemega Mali GPU 2021. aasta seadmete jaoks. Sellel on kõik G78 funktsioonid, nagu plaatide täiustused ja uus FMA-üksus täitmismootoris, kuid toetab kuni 6 tuuma 24 asemel. Selle GPU eesmärk on peaaegu esmaklassiline jõudlus madalamate kuludega.

ARM töötas selle madalama kvaliteediga GPU astme välja pärast seda, kui kuulas tagasisidet partneritelt, kes soovisid oma seadmete portfellis esmaklassilisi funktsioone. G68-l on ootuspäraselt madalam ränipind ja see toob suure jõudlusega mängimise laiemale arendajate ja tarbijate publikule.

Lõpuks mainib ARM oma arendajapartnerlusi. See hõlbustab arendajatel oma sisu optimeerimist, et see Mali GPU-del paremini töötaks (teoreetiliselt). Üks näide on Performance Advisor. Teiseks on ARMi koostöö Unityga Burst Compileri toomiseks. Üksikasju selle kohta saab lugeda allika artiklist.

Mali-G78 – Outlook

Mali-G78 väljavaated on sünged. Näib, nagu poleks ARM lihtsalt huvitatud samas vormis, mida Apple valmistab, samas vormis, mille Qualcomm varem valmistas, jõudlust oluliselt parandada aasta-aastalt. Kuigi ka Qualcommi paranemismäär on aeglustunud, on selle lähtetase kõrgemal kohal kui ARM. Androidi ökosüsteemi jaoks tundub halb, kui arvustajad kinnitavad arvuliste tõenditega, et A13 GPU püsiv jõudlus on kõrgem kui Snapdragon 865 tippjõudlus. Apple'i ja Androidi GPU-de vaheline jõudluse delta kasvab ja see kasvab ainult laiemaks.

Seetõttu ei ole G78 maagiline lahendus ARM-i Mali GPU probleemide lahendamiseks ja nende jõudluse edetabelite tippu viimiseks. See jääb endiselt Apple'i ja Qualcommi GPU-de alla. See on mõne SoC-i vaikevalik lihtsalt sellepärast, et see on ARM-i varu GPU IP ja kohandatud lahendustel on turule sisenemise tõkked ja need maksavad rohkem hästi.

Järgmisel aastal on kaheldav, kas Samsung Systems LSI hakkab Mali-G78 kasutama. Samsung on olnud Mali GPU-de kõrgetasemeline klient, kuid eelmisel aastal ta sõlmis partnerluse AMD-ga, et tuua RDNA GPU arhitektuur oma mobiilsetele SoC-dele 2021. aastal. Kui see tegevuskava püsib õigel teel – ja praegu pole meil põhjust kahtlustada, et see pole õigel teel –, on Exynos 990 järglasel Mali GPU asemel AMD RDNA GPU. See on ARM-ile tõepoolest suur disainikaotus. Isegi teistel müüjatel, nagu MediaTek, on tänapäeval rohkem võimalusi. Imagination Technologies uus A-seeria GPU arhitektuur mille disainieesmärk on suurem jõudlus kui G78-l ja on võimalik, et MediaTek lülitub tulevikus Malist eemale. Qualcommil pole muidugi põhjust loobuda Adreno GPU jõupingutustest, mis on endiselt alles oma klassi parim jõudluse ja tõhususe poolest, kui räägime ainult Androidist nutitelefonide turg.

Seega on selge, et ARM peab suurendama iga-aastast Mali GPU-de täiustamise määra, et mobiilse GPU turul tõelisi muutusi teha. Kui see ei suuda seda teha, ähvardab see esmaklassilise mobiilse GPU-ruumi puhul järelmõtlemise ohtu.


ARM Ethos N78

Lõpuks on ARM välja kuulutanud ka Ethos N78 närviprotsessori (NPU). See on N77 NPU järeltulija. See pakub suuremaid seadmesiseseid ML-võimalusi ja kuni 25% suuremat jõudlust. Konfigureeritavus on ka tugevus, kuna saadaolevad konfiguratsioonid ulatuvad 1 TOP/s kuni 10 TOP/s. Lisateabe saamiseks vaadake ARMi ajaveebi postitus. Sellel NPU-l on tõenäoliselt piiratud disainivõidu, kuna Qualcommil, Samsungil, HiSiliconil ja MediaTekil on kõigil oma närvitöötlusüksused / AI-mootorid.


Allikad: ARM (1, 2), AnandTech (1, 2)