ARM praneša apie Cortex-A78 CPU, Mali-G78 GPU, Ethos N78 NPU

ARM paskelbė apie Cortex-A78 procesoriaus architektūrą ir Mali-G78 GPU. Jie du yra „Cortex-A77“ ir „Mali-G77 GPU“ įpėdiniai.

„TechDay 2020“ metu ARM paskelbė tris pagrindinius pranešimus. Pagrindinis pranešimas yra „Cortex-X Custom“ programa (CXC), kurioje yra nauja Cortex-X1 procesoriaus branduolys. „Cortex-X1“ užtikrina didesnį našumą nei bet kuris „Cortex-A“ serijos centrinis procesorius, tuo pačiu sulaužydamas „Cortex-A“ serijos PPA apvalkalą. Kiti du pranešimai, kuriuos paskelbė ARM, buvo daug įprastesni. „Cortex-A78“ ir „Mali-G78“ procesoriai dabar yra oficialūs ir veikia kaip „Cortex-A78“ procesorius. Cortex-A77 CPU ir Malis-G77 CPU atitinkamai. Apimkime šiuos pranešimus po vieną:

ARM Cortex-A78

Naudojant Cortex-A78, ARM pagrindinis dėmesys buvo skiriamas efektyvumo poreikiams, pvz., ilgesniam akumuliatoriaus veikimo laikui, naujiems mobiliųjų formų faktoriams ir mažėjančioms SoC sritims. „Cortex-A78“ raktinis žodis yra tvarus našumas, o „Cortex-X1“ šauna į žvaigždes, siekdamas pasiekti maksimalų trumpalaikį našumą.

ARM teigia, kad „Cortex-78“ yra „labiausiai geriausias“ įrenginys, užtikrinantis aukščiausios klasės našumą ir geriausią savo klasėje efektyvumą. Tai taip pat nėra tik tušti žodžiai. Pastaruosius porą metų „Cortex-A76“ ir „Cortex-A77“ demonstravo geriausią savo klasėje energijos vartojimo efektyvumą ir geriausią savo klasėje PPA (našumas, galia ir plotas). Jie neturėjo dizaino, reikalingo konkuruoti su Apple A serijos lustais, bet dėl ​​mažesnio pagamintos galios, jų energijos vartojimo efektyvumas blogiausiu atveju buvo toks pat kaip Apple ir geriausiu atveju net didesnis nei Apple.

A78 našumo patobulinimai apima produktyvumo, komunikacijos, saugumo ir kameromis pagrįstų užduočių, pažangių žaidimų, XR ir ML pagrįstų funkcijų naudojimo atvejus.

Dėl nuolatinio veikimo „Cortex-A78“ pagerina dviženklį skaičių. Palyginti su pirmtaku Cortex-A77, 20 % geresnis tvarus našumas naudojant tą patį mobiliosios šiluminės galios apvalkalą. AnandTech peržiūrėjo skaičius ir paaiškino, kad 20 % skaičius yra 7 % didesnio IPC derinys nei A77, o likę 13 % našumo padidėjimo priskiriami 5 nm procesui, kuriam bus naudojami naujos kartos SoC pagaminta. ARM pažymi tvaraus veikimo svarbą sakydamas, kad mobiliųjų įrenginių pajėgumai yra riboti išsklaido galią, o nuolatinis veikimas leidžia išvengti galios ribojimo tose programose, kurioms reikia daug galia. Tai savo ruožtu pagerina UX, nes išvengiama vėlavimo ar kadrų kritimo.

Energijos vartojimo efektyvumo didinimas reiškia didesnį energijos vartojimo efektyvumą, nes šios dvi sąvokos yra susijusios, tačiau skirtingos. Pasak ARM, didelio našumo taškuose, pvz., tuose, kuriuose dabartiniai mobilieji įrenginiai yra didžiausi, Cortex-A78 sutaupo 50 % energijos, palyginti su 2019 m. tame pačiame spektaklyje kaip Cortex-A77. Tai įspūdinga, todėl A78 yra efektyviausias Cortex-A CPU ARM, kurį kada nors sukūrė.

ARM dėmesys tvariam veikimui bus naudingas kitai mobiliųjų inovacijų bangai, pvz., nauji formos faktoriai (sulankstomi telefonai), taip pat patobulintas „skaitmeninis panardinimas“ per 5G. Realybės patikrinimas yra toks, kad taip nėra dabartinei kartai ir tai neturės didelės reikšmės net kitai kartai.

Vienas naudojimo atvejis, kurį patobulins „Cortex-A78“, yra AAA mobilieji žaidimai, kartu su ARM naujuoju „Mali-G78 GPU“. Šių dviejų derinio tikslas – suteikti aukštos kokybės žaidimų patirtį mobiliesiems. Didesnis jų našumas kartu su dideliu 5G greičiu ir dideliu pralaidumu leis žaisti aukščiausios kokybės žaidimus mobiliuosiuose įrenginiuose. A78 efektyvumas čia yra naudingas, nes jis užtikrins ilgesnį baterijos veikimo laiką ilgesniam žaidimui. ARM teigia, kad ji taip pat bendradarbiauja su ekosistema, siekdama dar labiau pagerinti našumą ir sukurti turtingesnę žaidimų patirtį, ir pateikia savo darbo su Unity pavyzdį, kad „Burst Compiler“ būtų įdiegta į „Android“.

Mašininio mokymosi (ML) našumas yra dar vienas ARM prioritetas. Centrinis procesorius yra pirmasis procesorius ML skaičiavimui mobiliuosiuose įrenginiuose, nors šiais laikais aukščiausios klasės SoC yra su atskirais neuroniniais apdorojimo įrenginiais (NPU). ARM procesoriai palaiko populiariausias realaus pasaulio ML programas ir išmaniųjų telefonų naudojimo atvejus, pvz., socialinės žiniasklaidos filtrus, diktavimą, saugumą ir saugumą. „Cortex-A78“ sunaudoja vidutiniškai 8 % mažiau energijos ML pagrįstoms užduotims, palyginti su A77, todėl oficialiai efektyvumas pagerėjo 10 %.

ARM Cortex-A78 – architektūra

ARM Cortex-A78 architektūra tokia pati kaip ir ankstesnės kartos (vis dar yra ARM v8.2 branduolys). Tačiau ARM pridėjo mikroarchitektūrinių ypatybių, kuriomis siekiama padidinti našumą ir efektyviau naudoti energiją. ARM taupo plotą ir energiją, išlaikant reikiamą našumo lygį. Vėlgi, ARM daugiausia dėmesio skiria „Cortex-A“ serijai, o ne didžiausiam našumui, o plotui ir galios efektyvumui, o tai dabar yra Cortex-X programos darbas.

„Cortex-A78“ našumo patobulinimai įgalinami dėl papildomų mikroarchitektūrinių funkcijų, kurios optimizuoja plotį ir gylį. Instrukcijos dekodavimo plotis išlieka 4 pločio, kaip ir A77 ir A76. (Kita vertus, „Cortex-X1“ dekodavimo plotis yra 5, o A13 – 7 pločio.) ARM pridėjo didesnį pralaidumo ir tikslumo atšakų numatymą, taip pat instrukcijų sujungimo atvejus. Šie architektūriniai patobulinimai leidžia 7 % padidinti vieno sriegio našumą, palyginti su A77.

Efektyvumas buvo maksimaliai padidintas sumažinus struktūras, kurių našumas ir plotas mažas, pvz., L1-I ir L1-D talpyklose. ARM optimizavo esamas struktūras, kad sunaudotų mažiau energijos, pvz., prekės ženklo numatymo struktūras. ARM teigia, kad tai lemia 4 % mažesnę galią vienam mW ir 5 % mažiau ploto vienam mm2, palyginti su A77.

A78 sutelkia dėmesį į tvarų veikimą ir geriausią savo klasėje efektyvumą klasterio lygiu. DynamIQ klasteris iš 4x Cortex-A77 ir 4x Cortex-A55 procesorių gali būti atnaujintas iki 4x A78 branduolių ir 4x A55 branduolių. Tai užtikrina 20 % ilgalaikį našumo patobulinimą 15 % mažesniame plote. Programos, kurioms lygiagrečiai reikia kelių didelio našumo gijų, pvz., didelio tikslumo žaidimai, bus naudingos dėl nuolatinio našumo padidėjimo.

ARM pažymi, kad A78 DynamIQ klasterio plotas yra efektyvesnis, todėl jis idealiai tinka sulankstomiems telefonams ir keliems bei didesniems ekranams. Kitas dėmesys skiriamas išmaniųjų telefonų paruošimui 5G ryšiui gerinant našumą ir energijos suvartojimą. Manoma, kad 5G užtikrina „daug didesnį greitį“, „daug mažesnį delsą“ ir „daug greitesnį ir visur esantį ryšį mobiliesiems įrenginiams, skirtiems didelio pralaidumo programoms“. Tai gali būti atvejis po kelerių metų, tačiau šiuo metu dauguma šių privalumų galutiniams vartotojams nepastebi.

Apskritai „Cortex-A78“ yra tvirtas produktas. Naujos kartos pavyzdiniai SoC turės kelis A78 branduolius, kurie papildys vieną Cortex-X1 branduolį. turi didesnius galios ir ploto reikalavimus, o kai kurie į vertę orientuoti SoC netgi pasirinks praleisti „Cortex-X1“ visiškai. Vidutinės klasės SoC rinkoje A78 bus pasirinktas 2021 m. SoC procesoriaus branduolys, todėl jo dėmesys tvariam veikimui yra sveikintinas.


ARM Mali-G78

ARM „Mali“ GPU serija nebuvo tokia sėkminga kaip „Cortex“ procesorių serija, švelniai tariant. Kasmet Malio GPU našumo ir energijos vartojimo efektyvumo prasme nuolat lenkė pritaikyti Apple GPU ir Qualcomm pasirinktiniai Adreno GPU. Deja, praėjusiais metais pristatyta nauja Valhall architektūra ir Mali-G77 GPU nieko nepakeitė. SoC su Mali-G77 įtraukta Exynos 990 ir MediaTek Dimensity 1000L atitinkamai. Deja, abiejų jų diegimas buvo silpnas, o tai reiškė, kad jų GPU našumas gali būti toks geras nekonkuruoja su „Qualcomm Adreno 650 GPU“, nesvarbu, kad „Apple“ klasėje pirmaujantys GPU „Apple A12“ ir A13. Malis atsiliko daugelį metų, o jo patobulinimų nepakako, kad būtų pakeista mobiliojo GPU erdvės status quo.

Nepaisant to, ARM nėra nieko, jei ne optimistiškas. Ji pažymi, kad jos partneriai kasmet pristato daugiau nei milijardą Malio GPU, todėl Malis yra vienas iš siunčiamų GPU pasaulyje. Manoma, kad šis skaičius tik padidės, nes daug daugiau skirtingų įrenginių įgalina intensyvų grafinį naudojimą, pavyzdžiui, pažangius mobiliuosius žaidimus ir XR (VR ir AR). Anot ARM, dėl to Malis yra plačiausiai naudojamas GPU mobiliesiems plėtrai visoje ekosistemoje.

ARM pažymi, kad 2019 m. ji paskelbė apie savo pirmąjį GPU, pagrįstą Valhall architektūra - Mali-G77. 2020 m. G77 pakeis Mali-G78, kuris taip pat yra pagrįstas Valhall architektūra. Nors ARM teigia, kad tai iki šiol našiausias GPU, skirtas aukščiausios kokybės mobiliesiems įrenginiams, skaičiai jo nepatvirtina, nepaisant to, ką ARM ironiškai sako, kad tai faktas, pagrįstas skaičiais. G78, palyginti su G77, pagerina našumą 25 %, o tai mažų mažiausiai yra menka. Didžiausio GPU našumo skirtumas tarp G77 ir Apple A13 GPU buvo didelis, o tai reiškia, kad G78 negalės pasivyti A13, jau nekalbant apie būsimą Apple A14 GPU. „Qualcomm“ ir toliau išliks vienu žingsniu priekyje dėl savo laipsniško našumo patobulinimų.

Žaidimą keičianti grafika ir visos dienos žaidimai mobiliuosiuose įrenginiuose jau galimi kituose GPU, todėl ARM rinkodara čia skamba šiek tiek tuščiaviduriai.

Anot ARM, „Mali-G78“ sukurtas galvojant apie kūrėjus ir galutinį vartotoją. Tai įgalina aukštos kokybės mobiliųjų žaidimų patirtį su konsoliniais žaidimais, kurie dabar pasiekiami mobiliuosiuose įrenginiuose. G78 pailgina aukščiausios kokybės mobiliųjų įrenginių akumuliatoriaus veikimo laiką. Tai taip pat dar labiau padidina ML našumą sudėtingesnėms žaidimų, vaizdo, kameros, saugos ML funkcijoms mobiliuosiuose įrenginiuose.

ARM vertina mobiliųjų žaidimų perspektyvą. 2019 m. mobilieji žaidimai sudarė daugiau nei 46 % pasaulinės žaidimų rinkos, o pajamos siekė 68,2 mlrd. Be to, per ateinančius kelerius metus jis toliau augs, nes aplenks tiek asmeninius, tiek konsolinius žaidimus. Į mobiliuosius įrenginius ateina daugiau aukščiausios kokybės žaidimų, o vartotojai tikisi panašios patirties mobiliuosiuose įrenginiuose, palyginti su konsolėmis.

Kad ši patirtis būtų įmanoma, Mali-G78 turi būtiną našumo padidinimą. Palyginti su G77, žaidimų turinio našumas yra 15 % geresnis. Esant tokiam pačiam plotui kaip ir ankstesnė karta, G78 suteiks daugiau našumo. Šis padidėjimas yra įmanomas dėl keturių pagrindinių savybių:

  • Palaikymas iki 24 branduolių
  • Asinchroninis aukščiausias lygis
  • Plytelių klojimo patobulinimai
  • Patobulintas fragmentų priklausomybės stebėjimas

Nors didžiausias G77 branduolių skaičius buvo 16, ARM padidino maksimalų G78 branduolių skaičių iki daugiausiai 24 branduolių. Žinoma, vien todėl, kad yra maksimumas, dar nereiškia, kad mobiliųjų lustų pardavėjai iš tikrųjų turės 24 branduolius. Plačiausias iki šiol matytas G77 branduolio variantas yra „Exynos 990“ esantis „Mali-G77MP11“, o „Dimensionity 1000“ turi „Mali-G77MC9“.

ARM mano, kad asinchroninis aukščiausias lygis yra žaidimą keičianti GPU veikimo funkcija. Teigiama, kad tai leidžia išspausti kuo daugiau mobiliųjų žaidimų našumo ir užtikrinti maksimalų našumą.

Kita vertus, patobulinus plyteles mobiliesiems žaidimams suteikiamas papildomas kokybės sluoksnis. Žaidimai, perkelti iš kompiuterio ir konsolės, dažnai turi labai sudėtingų išteklių ir sudėtingų scenų, dėl kurių našumas trikdo ir trukdo. Plytelių patobulinimai sumažina šių sudėtingų scenų ir išteklių GPU viršūnių apkrovą. Tai pagerina sudėtingo į konsolę panašio žaidimų turinio našumą.

ARM taip pat pagerino G78 fragmentų priklausomybės stebėjimą. Tai ypač paveikia mobiliuosius žaidimus su sudėtingomis žaidimų scenomis, kuriose yra dūmų, medžių ir žolės. Rezultatai yra tai, kad ARM pastebėjo iki 17% geresnių mobiliųjų žaidimų našumo patobulinimų, palyginti su G77.

Mali-G78 energijos vartojimo efektyvumas yra 10 % geresnis nei jo pirmtakas. Vėlgi, to nepakaks norint pasivyti nei „Qualcomm“, nei su „Apple“. ARM tikslai čia atrodo ypač konservatyvūs. Asinchroninio aukščiausio lygio funkcija atlieka svarbų vaidmenį energijos vartojimo efektyvumo srityje, nes ji leidžia sumažinti galią, todėl turinį galima generuoti tvariai. Todėl, kai įrenginys išveda turinį norimu kadrų dažniu, jis gali sulėtėti, kad taupytų energiją. Padidinus aukščiausią šios užduoties lygį, sunaudojama šiek tiek daugiau energijos, tačiau energijos taupymas sumažinus šešėlių branduolių dažnį yra daug didesnis. Taip yra todėl, kad šešėlių branduoliai sunaudoja 90–95% GPU energijos biudžeto.

Geresnis energijos vartojimo efektyvumas G78 taip pat pasiekiamas dėl Fused multiply-add (FMA). Jis buvo visiškai pertvarkytas nuo pat pradžių, todėl įrenginio energija buvo sumažinta 30 %. FMA blokas yra atsakingas už daugumą skaičiavimų, atliekamų GPU viduje, todėl ARM buvo tikslinga nukreipti jį į energijos mažinimą.

Dėl lygiagretaus GPU duomenų apdorojimo galimybių jis tinkamas ML darbo krūviams vykdyti, nors ARM pripažįsta, kad CPU ir GPU išlieka pagrindiniai ML procesoriai. Kadangi naudojimo atvejai tampa sudėtingesni, kai kurie darbo krūviai bus perkeliami į GPU. Pagrindiniai GPU naudojimo ML atvejai yra susieti su įrenginio saugos funkcijomis, skirtingais fotoaparato ir vaizdo režimais bei programomis su AR funkcijomis.

ML vaidmuo GPU suteikia galimybę naudotis tokiomis patirtimis kaip veido sekimas nuotraukos ar vaizdo įrašo kadre, žaidimai, kuriuose naudojamos AR funkcijos, ir kt. Atliekant šias ML pagrįstas užduotis, Mali-G78 pasižymi 15 % vidutiniu įvairių ML darbo krūvių našumo pagerėjimu, palyginti su G77. G77, palyginti su ankstesnėmis kartomis, pagerino ML našumą 60%, todėl šiais metais pagerėjimas per metus yra daug mažesnis. Asinchroninis aukščiausias lygis yra gyvybiškai svarbus siekiant padidinti ML našumą, nes šešėlių branduolių fiksavimas padeda įvairiais ML naudojimo atvejais GPU.

Tada yra anonsas apie Mali-G68. Tai ne kas kita, kaip siauresnis Mali-G78 variantas, kaip ir Mali-G57 buvo siauresnis Mali-G77 variantas. ARM teigia, kad tai pirmasis aukščiausios kokybės Malio GPU 2021 m. įrenginiams. Jis turi visas G78 funkcijas, tokias kaip plytelių klojimo patobulinimai ir naujas FMA blokas vykdymo variklyje, tačiau palaiko iki 6 branduolių, o ne 24. Šio GPU tikslas yra beveik aukščiausios kokybės našumas už mažesnę kainą.

ARM sukūrė šį aukščiausios kokybės GPU pakopą, išklausęs partnerių, kurie norėjo aukščiausios kokybės funkcijų savo įrenginių portfelyje, atsiliepimų. Kaip ir tikėtasi, G68 turi mažesnį silicio plotą ir suteikia didelio našumo žaidimus platesnei kūrėjų ir vartotojų auditorijai.

Galiausiai ARM mini savo kūrėjų partnerystę. Tai leidžia kūrėjams lengvai optimizuoti savo turinį, kad jis geriau veiktų Malio GPU (teoriškai). Vienas iš pavyzdžių yra Performance Advisor. Antra, ARM bendradarbiavimas su „Unity“ sukuria „Burst Compiler“. Išsamią informaciją apie tai galite perskaityti šaltinio straipsnyje.

Mali-G78 – „Outlook“.

Mali-G78 perspektyvos yra niūrios. Atrodo, kad ARM tiesiog nėra suinteresuotas kasmet gerokai pagerinti tos pačios formos, kurią gamina „Apple“, našumą toje pačioje formoje, kurią anksčiau gamino „Qualcomm“. Nors Qualcomm tobulėjimo tempas taip pat sulėtėjo, jo pradinis lygis yra aukštesnis nei ARM. „Android“ ekosistemai atrodo blogai, kai apžvalgininkai pateikia skaitinius įrodymus, kad A13 GPU nuolatinis našumas yra didesnis nei „Snapdragon 865“ didžiausias našumas. „Apple“ ir „Android“ GPU našumo skirtumas auga ir tik didėja.

Todėl G78 nėra stebuklingas sprendimas, padedantis išspręsti ARM Malio GPU bėdas ir iškelti jas į našumo diagramų viršūnę. Jis vis tiek bus žemiau Apple ir Qualcomm GPU. Tai bus numatytasis kai kurių SoC pasirinkimas vien todėl, kad tai yra ARM GPU IP, o pasirinktiniai sprendimai turi kliūčių patekti į rinką ir kainuoja daugiau gerai.

Kitais metais abejotina, ar „Samsung Systems LSI“ iš tikrųjų naudos „Mali-G78“. „Samsung“ buvo garsus Malio GPU klientas, tačiau praėjusiais metais ji pasirašė partnerystę su AMD, kad įdiegtų RDNA GPU architektūrą į savo mobiliuosius SoC 2021 m. Jei šis planas išliks teisingas – ir šiuo metu neturime pagrindo įtarti, kad jis nevyksta – tuomet „Exynos 990“ įpėdinis turės AMD RDNA GPU, o ne Mali GPU. Tai iš tikrųjų bus didelis ARM dizaino praradimas. Net kiti pardavėjai, tokie kaip „MediaTek“, šiomis dienomis turi daugiau galimybių. Imagination Technologies naujiena A serijos GPU architektūra turi didesnį našumą nei G78, todėl gali būti, kad „MediaTek“ ateityje atsisakys Malio. Žinoma, „Qualcomm“ neturi jokios priežasties atsisakyti „Adreno GPU“ pastangų, kurios vis dar išlieka geriausias savo klasėje pagal našumą ir efektyvumą, kai kalbame tik apie „Android“. išmaniųjų telefonų rinka.

Taigi akivaizdu, kad ARM turės padidinti kasmetinių Malio GPU patobulinimų tempą, kad iš tikrųjų pasikeistų mobiliųjų GPU rinka. Jei to padaryti nepavyks, gresia pavojus, kad aukščiausios kokybės pavyzdinėje mobiliojo GPU erdvėje bus negalvota.


ARM Ethos N78

Galiausiai ARM taip pat paskelbė apie Ethos N78 neuronų apdorojimo bloką (NPU). Tai N77 NPU įpėdinis. Tai suteikia didesnes įrenginio ML galimybes ir iki 25 % didesnį našumo efektyvumą. Konfigūravimas taip pat yra privalumas, nes galimos konfigūracijos svyruoja nuo 1 TOP/s iki 10 TOP/s. Norėdami gauti daugiau informacijos, peržiūrėkite ARM tinklaraščio įrašas. Šis NPU tikriausiai turės ribotą dizaino laimėjimą, nes „Qualcomm“, „Samsung“, „HiSilicon“ ir „MediaTek“ turi savo neuronų apdorojimo įrenginius / AI variklius.


Šaltiniai: ARM (1, 2), AnandTech (1, 2)