ARM anunță CPU Cortex-A78, GPU Mali-G78, NPU Ethos N78

ARM a anunțat arhitectura CPU Cortex-A78, precum și GPU-ul Mali-G78. Cei doi sunt succesorii procesorului Cortex-A77 și GPU-ului Mali-G77.

Ca parte a TechDay 2020, ARM a făcut trei anunțuri majore. Anunțul principal principal este programul Cortex-X Custom (CXC), care conține noul Core CPU Cortex-X1. Cortex-X1 aduce o performanță de vârf mai mare decât orice procesor din seria Cortex-A, în timp ce rupe limitele PPA din seria Cortex-A. Celelalte două anunțuri pe care le-a făcut ARM au fost mult mai de rutină. Procesorul Cortex-A78 și procesorul Mali-G78 sunt acum oficiale și acționează ca succesori ai Cortex-A77 CPU și Mali-G77 respectiv CPU. Să acoperim aceste anunțuri unul câte unul:

ARM Cortex-A78

Cu Cortex-A78, accentul-cheie al ARM s-a pus pe cerințele de eficiență, cum ar fi cerințele pentru o durată de viață mai lungă a bateriei, noi factori de formă mobile și zonele SoC în scădere. Performanța susținută este cuvântul cheie aici pentru Cortex-A78, în timp ce Cortex-X1 trage după stele cu scopul său de a atinge performanța maximă pe termen scurt.

ARM spune că Cortex-78 reprezintă „cel mai bun” din unitatea sa pentru performanță de vârf la cea mai bună eficiență din clasă. Nici acestea nu sunt doar cuvinte goale. În ultimii doi ani, Cortex-A76 și Cortex-A77 au demonstrat cea mai bună eficiență energetică din clasă și cel mai bun PPA (performanță, putere și suprafață). Nu aveau designul necesar pentru a concura cu cipurile Apple din seria A, ci din cauza mai mici puterea generată, eficiența lor energetică a fost în cel mai rău caz la fel ca Apple și în cel mai bun caz chiar mai mare decât Măr.

Îmbunătățirile de performanță ale lui A78 acoperă cazurile de utilizare ale sarcinilor bazate pe productivitate, comunicare, securitate și camere, jocuri avansate, XR și experiențe bazate pe ML.

În performanță susținută, Cortex-A78 aduce îmbunătățiri de două cifre. Oferă o îmbunătățire cu 20% a performanței susținute față de predecesorul său, Cortex-A77, în același pachet de putere termică mobilă. AnandTech a analizat cifrele și a explicat că cifra de 20% este o combinație de IPC cu 7% mai mare față de A77, în timp ce câștigurile de performanță rămase de 13% sunt creditate procesului de 5 nm, pe care vor fi toate SoC-urile de generație următoare. fabricat. ARM observă importanța performanței susținute spunând că dispozitivele mobile au o capacitate limitată de a disipă puterea, iar performanța susținută evită limitarea puterii pentru aplicațiile care necesită mult putere. Acest lucru, la rândul său, îmbunătățește UX-ul evitând întârzierea sau scăderea cadrelor.

Impingerea asupra eficienței energetice se traduce printr-o eficiență energetică mai mare, deoarece cele două sunt legate, dar concepte diferite. Potrivit ARM, în punctele de înaltă performanță, cum ar fi cele care reprezintă vârful pentru dispozitivele mobile actuale, Cortex-A78 oferă economii de energie de 50% față de dispozitivele din 2019. la aceeasi performanta precum Cortex-A77. Acest lucru este impresionant și face din A78 cel mai eficient din punct de vedere energetic Cortex-A CPU ARM pe care l-a proiectat vreodată.

Accentul acordat de ARM pe performanța susținută va beneficia următorul val de inovații mobile, cum ar fi noi factori de formă (telefoane pliabile), precum și „imersiune digitală” îmbunătățită prin 5G. Verificarea realității este că nu este cazul generației actuale și nu va conta prea mult nici măcar în generația următoare.

Un caz de utilizare care va fi îmbunătățit de Cortex-A78 este jocurile mobile AAA, atunci când sunt combinate cu noul GPU Mali-G78 al ARM. Combinația celor două își propune să aducă experiențe de joc de înaltă fidelitate pe mobil. Performanța lor mai mare, atunci când este cuplată cu viteza rapidă și lățimea de bandă mare a 5G, va permite jocuri premium pe mobil. Eficiența lui A78 are un avantaj aici, deoarece va oferi o durată de viață mai lungă a bateriei pentru jocuri extinse. ARM spune că lucrează, de asemenea, cu ecosistemul pentru a îmbunătăți și mai mult performanța și pentru a construi experiențe de joc mai bogate și oferă un exemplu al muncii sale cu Unity pentru a aduce Burst Compiler pe Android.

Performanța învățării automate (ML) este o altă prioritate pentru ARM. Procesorul este procesorul de primă alegere pentru calculul ML pe mobil, deși în zilele noastre SoC-urile de ultimă generație vin cu unități de procesare neuronală (NPU-uri) separate. Procesoarele ARM acceptă cele mai populare aplicații ML din lumea reală și cazuri de utilizare pe smartphone-uri, cum ar fi filtrele de social media, dictarea, securitatea și securitatea. Cortex-A78 utilizează în medie cu 8% mai puțină putere pentru sarcinile bazate pe ML, comparativ cu A77, ceea ce duce la îmbunătățiri oficiale cu 10% a eficienței.

ARM Cortex-A78 - Arhitectură

ARM Cortex-A78 are aceeași arhitectură ca generația anterioară (este încă un nucleu ARM v8.2). Cu toate acestea, ARM a adăugat caracteristici microarhitecturale care urmăresc să sporească performanța într-o zonă și o manieră eficientă din punct de vedere energetic. ARM economisește suprafață și energie, menținând în același timp nivelurile de performanță necesare. Din nou, atenția ARM asupra seriei Cortex-A rămâne pe eficiența zonei și a energiei, mai degrabă decât pe performanța de vârf, care este acum o sarcină preluată de programul Cortex-X.

Îmbunătățirile de performanță ale lui Cortex-A78 sunt activate prin caracteristici microarhitecturale suplimentare care optimizează lățimea și adâncimea. Lățimea de decodare a instrucțiunii rămâne la 4 lățime, la fel ca A77 și A76. (Lățimea de decodare a lui Cortex-X1, pe de altă parte, este de 5 lățime, în timp ce A13 are o lățime de decodare de 7.) ARM a adăugat o predicție mai mare a ramurilor pentru lățime de bandă și acuratețe, precum și cazuri de fuziune a instrucțiunilor. Aceste îmbunătățiri arhitecturale permit o creștere cu 7% a performanței cu un singur fir față de A77.

Eficiența a fost maximizată prin reducerea structurilor care au performanță și zonă scăzute, cum ar fi cache-urile L1-I și L1-D. ARM a optimizat structurile existente pentru a consuma mai puțină energie, cum ar fi structurile de predicție a mărcii. ARM spune că acest lucru duce la cu 4% mai puțină putere pentru performanță per mW și cu 5% mai puțină suprafață pentru performanță per mm2 în comparație cu A77.

A78 păstrează accentul pe performanța susținută la cea mai bună eficiență din clasă la nivel de cluster. Un cluster DynamIQ de 4x procesoare Cortex-A77 și 4x Cortex-A55 poate fi actualizat la 4x nuclee A78 și 4x nuclee A55. Aceasta oferă îmbunătățiri susținute de performanță cu 20% într-o zonă cu 15% mai mică. Aplicațiile care necesită mai multe fire de înaltă performanță în paralel, cum ar fi jocurile de înaltă fidelitate, vor beneficia din cauza impulsului susținut de performanță.

ARM observă că eficiența sporită a zonei a clusterului A78 DynamIQ îl face ideal pentru telefoane pliabile și ecrane multiple și mai mari. Un alt accent este pregătirea smartphone-urilor pentru 5G prin îmbunătățirea performanței și a energiei. Se presupune că 5G oferă „viteze mult mai mari”, „latență mult mai mică” și „conectivitate mult mai rapidă și mai omniprezentă pentru dispozitivele mobile pentru aplicații cu lățime de bandă mare”. Acesta poate fi cazul peste câțiva ani, dar în prezent, majoritatea acestor beneficii nu sunt vizibile pentru consumatorii finali.

În general, Cortex-A78 este un produs solid. SoC-urile emblematice de următoarea generație vor încorpora mai multe nuclee A78 pentru a completa singurul nucleu Cortex-X1 care are cerințe mai mari de putere și zonă, iar unele SoC-uri orientate spre valoare vor opta chiar să ignore Cortex-X1 în întregime. Pentru piața de SoC de gamă medie, A78 va fi nucleul procesorului ales pentru SoC-urile din 2021, iar accentul său pe performanță susținută este binevenit.


ARM Mali-G78

Seria de GPU Mali de la ARM nu a avut nici pe departe la fel de succes ca seria sa de procesoare Cortex, ca să spunem ușor. GPU-urile din Mali au fost depășite constant atât în ​​ceea ce privește performanța, cât și eficiența energetică, de către GPU-urile personalizate de la Apple și GPU-urile personalizate Adreno de la Qualcomm, an de an. Lansarea de anul trecut a noii arhitecturi Valhall și a GPU-ului Mali-G77 nu a schimbat nimic, din păcate. SoC-urile cu Mali-G77 au inclus Exynos 990 si MediaTek Dimensity 1000L respectiv. Ambii, din păcate, păreau să aibă implementări slabe, ceea ce înseamnă că performanța lor GPU ar putea nu concurează cu GPU-ul Adreno 650 de la Qualcomm, nu contează GPU-urile Apple de vârf din clasă din Apple A12 și A13. Mali a rămas în urmă de ani de zile, iar îmbunătățirile sale nu au fost suficiente pentru a schimba status quo-ul în spațiul GPU mobil.

Cu toate acestea, ARM nu este decât optimist. Acesta observă că partenerii săi au livrat peste un miliard de GPU-uri Mali anual, ceea ce face din Mali numărul unu GPU livrat din lume. Acest număr va crește doar, se presupune, pe măsură ce multe tipuri diferite de dispozitive permit cazuri de utilizare intensivă grafică, cum ar fi jocurile mobile avansate și XR (VR și AR). Potrivit ARM, acest lucru face din Mali cel mai utilizat GPU pentru dezvoltarea mobilă în întregul ecosistem.

ARM notează că, în 2019, și-a anunțat primul GPU bazat pe arhitectura Valhall - Mali-G77. În 2020, G77 este succedat de Mali-G78, care se bazează și pe arhitectura Valhall. În timp ce ARM spune că este cel mai performant GPU pentru dispozitivele mobile premium de până acum, numerele nu îl susțin, în ciuda a ceea ce ARM spune în mod ironic despre faptul că este un fapt susținut de cifre. G78 aduce o îmbunătățire cu 25% a performanței față de G77, ceea ce este cel puțin slab. Diferența dintre performanța maximă a GPU-ului dintre G77 și GPU-ul Apple A13 a fost semnificativă, ceea ce înseamnă că G78 nu va putea ajunge din urmă cu A13, indiferent de viitorul GPU al Apple A14. Qualcomm va continua, de asemenea, să rămână cu un pas înainte datorită propriilor îmbunătățiri incrementale de performanță.

Grafica care schimbă jocul și jocurile pe tot parcursul zilei pe mobil sunt deja posibile pe alte GPU-uri, așa că marketingul ARM aici sună puțin gol.

Mali-G78 este construit având în vedere dezvoltatorii și utilizatorul final, potrivit ARM. Permite experiențe de jocuri mobile de înaltă calitate, cu jocuri de consolă disponibile acum pe mobil. G78 oferă o durată de viață mai lungă a bateriei dispozitivelor mobile premium. De asemenea, aduce o creștere suplimentară a performanței ML pentru jocuri mai complexe, video, cameră, funcții ML de securitate pe dispozitivele mobile.

ARM este optimist cu privire la perspectiva jocurilor mobile. Jocurile mobile au reprezentat peste 46% din piața globală a jocurilor în 2019, atingând venituri de 68,2 miliarde de dolari. De asemenea, este programat să continue să crească în următorii câțiva ani, deoarece va depăși atât jocurile pe computer, cât și pe consolă. Mai multe titluri de jocuri premium vin pe mobil, iar utilizatorii se așteaptă la o experiență similară pe mobil în comparație cu consolele.

Pentru a face posibile aceste experiențe, Mali-G78 vine cu sporul necesar de performanță. Are o îmbunătățire a densității performanței cu 15% pentru conținutul de jocuri în comparație cu G77. Pentru aceeași suprafață ca și generația anterioară, G78 va oferi mai multă performanță. Acest impuls este posibil de patru caracteristici cheie:

  • Suport pentru până la 24 de nuclee
  • Nivel superior asincron
  • Îmbunătățiri pentru gresie
  • Urmărirea dependenței de fragmente îmbunătățită

În timp ce numărul maxim de nuclee al G77 a fost de 16, ARM a crescut numărul maxim de nuclee pe G78 la maximum 24 de nuclee. Desigur, doar pentru că există un maxim nu înseamnă că vânzătorii de cipuri mobile vor încorpora de fapt 24 de nuclee. Cea mai largă variantă de bază a G77 pe care am văzut-o până acum este Mali-G77MP11 de pe Exynos 990, în timp ce Dimensity 1000 are un Mali-G77MC9.

ARM consideră că Asynchronous Top Level este o caracteristică care schimbă jocul pentru performanța GPU-ului. Se spune că acest lucru stoarce cât mai mult posibil din jocurile mobile, asigurând performanță maximă.

Îmbunătățirile Tiler, pe de altă parte, adaugă un strat suplimentar de calitate jocurilor mobile. Jocurile aduse de pe PC și de pe consolă au adesea active extrem de complicate și scene sofisticate, care provoacă probleme de performanță și blocaje. Îmbunătățirile Tiler reduc încărcarea vârfurilor pe GPU pentru aceste scene și active complexe. Acest lucru îmbunătățește performanța pentru conținutul complicat de jocuri asemănător consolei.

ARM a îmbunătățit, de asemenea, urmărirea dependenței de fragment pe G78. Acest lucru afectează în special jocurile mobile cu scene de joc complexe care implică fum, copaci și iarbă. Rezultatele sunt că ARM a înregistrat îmbunătățiri de performanță cu până la 17% la cele mai bune jocuri mobile, comparativ cu G77.

Mali-G78 are o eficiență energetică cu 10% mai bună decât predecesorul său. Din nou, asta nu va fi suficient pentru a ajunge din urmă nici cu Qualcomm, nici cu Apple. Obiectivele ARM aici par deosebit de conservatoare. Funcția Asynchronous Top Level joacă un rol important în eficiența energetică, deoarece permite o reducere a puterii, permițând astfel generarea de conținut într-un mod durabil. Prin urmare, atunci când un dispozitiv redă conținut la frecvența de cadre dorită, se poate opri pentru a economisi energie. Creșterea nivelului superior pentru această sarcină folosește puțin mai multă energie, dar economisirea de energie prin reducerea frecvenței nucleelor ​​shaderului este mult mai mare. Asta pentru că nucleele shader folosesc 90-95% din bugetul energetic al GPU-ului.

O eficiență energetică mai bună în G78 este, de asemenea, obținută datorită Fused Multiply-Add (FMA). A fost complet reproiectat de la zero, ceea ce duce la o reducere de energie cu 30% a unității. Unitatea FMA este responsabilă pentru majoritatea calculelor care au loc în interiorul unui GPU și de aceea a avut sens ca ARM să-l vizeze pentru reduceri de energie.

Capacitatea de procesare a datelor paralelă a unui GPU îl face potrivit pentru rularea sarcinilor de lucru ML, deși ARM recunoaște că CPU și GPU rămân procesoarele principale pentru ML. Pe măsură ce cazurile de utilizare devin mai complexe, unele sarcini de lucru vor fi descărcate pe GPU. Principalele cazuri de utilizare ML pentru GPU sunt legate de funcțiile de securitate ale dispozitivului, diferite moduri de cameră și video, precum și aplicații cu caracteristici AR.

Rolul ML pe GPU permite experiențe precum urmărirea feței în cadrul foto sau video, jocuri care folosesc caracteristici AR și multe altele. Pentru aceste sarcini bazate pe ML, Mali-G78 prezintă o îmbunătățire medie a performanței cu 15% pentru diferite sarcini de lucru ML, comparativ cu G77. G77 a adus o îmbunătățire cu 60% a performanței ML față de generațiile anterioare, astfel încât îmbunătățirea de la an la an este mult mai mică. Nivelul superior asincron este vital pentru creșterea performanței ML, deoarece sincronizarea nucleelor ​​shader ajută la diferitele cazuri de utilizare ML de pe GPU.

Apoi, este anunțul Mali-G68. Aceasta nu este altceva decât o variantă mai îngustă a lui Mali-G78, la fel cum Mali-G57 a fost o variantă mai îngustă a lui Mali-G77. ARM spune că acesta este primul GPU Mali sub-premium pentru dispozitivele din 2021. Are toate caracteristicile lui G78, cum ar fi îmbunătățirile pentru tiler și noua unitate FMA în motorul de execuție, dar acceptă până la 6 nuclee în loc de 24. Performanța aproape premium la un cost mai mic este scopul acestui GPU.

ARM a dezvoltat acest nivel GPU sub-premium după ce a ascultat feedback-ul partenerilor care doreau funcții premium în portofoliul lor de dispozitive. G68 are o zonă mai mică de siliciu, așa cum era de așteptat, și aduce jocuri de înaltă performanță unui public mai larg de dezvoltatori și consumatori.

În cele din urmă, ARM menționează parteneriatele cu dezvoltatori. Le permite dezvoltatorilor să își optimizeze conținutul pentru a rula mai bine pe GPU-urile Mali (teoretic). Un exemplu este consilierul de performanță. În al doilea rând este colaborarea ARM cu Unity pentru a aduce Burst Compiler. Detalii despre acest lucru pot fi citite în articolul sursă.

Mali-G78 - Outlook

Perspectivele pentru Mali-G78 sunt sumbre. Se pare că ARM pur și simplu nu este interesat să facă îmbunătățiri substanțiale de performanță de la an la an în același model pe care îl face Apple, în același model pe care l-a făcut Qualcomm în trecut. În timp ce rata de îmbunătățire a Qualcomm a scăzut și ea, linia de bază este la un loc mai ridicat decât ARM. Arată rău pentru ecosistemul Android când recenzenții declară cu dovezi numerice că performanța susținută a GPU-ului A13 este mai mare decât performanța de vârf a lui Snapdragon 865. Delta de performanță dintre GPU-urile Apple și Android este în creștere și doar crește.

Prin urmare, G78 nu este o soluție magică pentru a rezolva problemele GPU-ului ARM Mali și pentru a le aduce în topul topurilor de performanță. Acesta va fi în continuare clasat sub GPU-urile Apple și Qualcomm. Va fi alegerea implicită pentru unele SoC-uri doar pentru că este IP-ul GPU de stoc al ARM, iar soluțiile personalizate au bariere la intrare și costă mai mult ca bine.

Anul viitor, este îndoielnic dacă Samsung Systems LSI va ajunge de fapt să folosească Mali-G78. Samsung a fost un client important al GPU-urilor din Mali, dar anul trecut, a semnat un parteneriat cu AMD pentru a aduce arhitectura GPU RDNA la SoC-urile sale mobile în 2021. Dacă această foaie de parcurs rămâne pe drumul cel bun - și în acest moment nu avem niciun motiv să bănuim că nu este pe drumul cel bun - atunci succesorul lui Exynos 990 va avea un GPU AMD RDNA în loc de un GPU Mali. Va fi, într-adevăr, o mare pierdere de design pentru ARM. Chiar și alți furnizori, cum ar fi MediaTek, au mai multe opțiuni în aceste zile. Imagination Technologies nou Arhitectura GPU din seria A are o țintă de design pentru performanțe mai mari decât G78 și este posibil ca MediaTek să treacă de la Mali în viitor. Qualcomm, desigur, nu are niciun motiv să abandoneze eforturile sale Adreno GPU, care încă rămân cel mai bun din categoria în ceea ce privește performanța și eficiența atunci când vorbim exclusiv despre Android piata smartphone-urilor.

Astfel, este clar că ARM va trebui să crească rata de îmbunătățiri anuale în GPU-urile din Mali pentru a face o diferență reală pe piața GPU-urilor mobile. Dacă nu poate face acest lucru, se confruntă cu riscul de a fi luat în considerare ulterior în spațiul GPU mobil premium.


ARM Ethos N78

În cele din urmă, ARM a anunțat și unitatea de procesare neuronală (NPU) Ethos N78. Este succesorul NPU-ului N77. Oferă capabilități mai mari de ML pe dispozitiv și cu până la 25% mai multă eficiență a performanței. Configurabilitatea este, de asemenea, un punct forte, deoarece configurațiile disponibile variază de la 1 TOP/s până la 10 TOP/s. Pentru mai multe detalii, verificați Postarea pe blog a ARM. Acest NPU va avea probabil câștiguri limitate în design, deoarece Qualcomm, Samsung, HiSilicon și MediaTek au toate propriile lor unități de procesare neuronală/motoare AI.


Surse: ARM (1, 2), AnandTech (1, 2)