ARM annuncia CPU Cortex-A78, GPU Mali-G78, NPU Ethos N78

ARM ha annunciato l'architettura della CPU Cortex-A78 e la GPU Mali-G78. Entrambi sono i successori della CPU Cortex-A77 e della GPU Mali-G77.

Nell'ambito del TechDay 2020, ARM ha fatto tre annunci importanti. L'annuncio principale principale è il programma Cortex-X Custom (CXC), contenente il nuovo Nucleo della CPU Cortex-X1. Cortex-X1 offre prestazioni di picco più elevate rispetto a qualsiasi CPU della serie Cortex-A, rompendo i limiti del PPA della serie Cortex-A. Gli altri due annunci fatti da ARM erano molto più di routine. La CPU Cortex-A78 e la CPU Mali-G78 sono ora ufficiali e fungono da successori della Corteccia-A77 CPU e il Mali-G77 CPU rispettivamente. Esaminiamo questi annunci uno per uno:

BRACCIO Cortex-A78

Con Cortex-A78, l'attenzione principale di ARM si è concentrata sulle esigenze di efficienza, come la richiesta di una maggiore durata della batteria, nuovi fattori di forma mobili e dimensioni del SoC in riduzione. Prestazioni sostenute sono la parola chiave qui per il Cortex-A78, mentre il Cortex-X1 punta alle stelle con l'obiettivo di raggiungere le massime prestazioni di picco a breve termine.

ARM afferma che il Cortex-78 rappresenta il "meglio" della sua spinta verso prestazioni di fascia alta con l'efficienza migliore della categoria. Anche queste non sono solo parole vuote. Negli ultimi due anni, Cortex-A76 e Cortex-A77 hanno dimostrato l'efficienza energetica migliore della categoria e il PPA (prestazioni, potenza e area) migliore della categoria. Non avevano il design necessario per competere con i chip della serie A di Apple, ma a causa di un design inferiore energia generata, la loro efficienza energetica era nel peggiore dei casi uguale a quella di Apple e nel migliore dei casi addirittura superiore Mela.

I miglioramenti delle prestazioni dell'A78 coprono i casi d'uso di produttività, comunicazione, sicurezza e attività basate su fotocamera, giochi avanzati, esperienze XR ed esperienze basate su ML.

In termini di prestazioni sostenute, Cortex-A78 apporta miglioramenti a doppia cifra. Fornisce un miglioramento del 20% nelle prestazioni sostenute rispetto al suo predecessore, Cortex-A77, nello stesso inviluppo di potenza termica mobile. AnandTech ha esaminato i numeri e ha spiegato che la cifra del 20% è una combinazione di un IPC più alto del 7% rispetto all'A77, mentre il il restante 13% di aumento delle prestazioni è attribuito al processo produttivo a 5 nm, sul quale saranno tutti i SoC di prossima generazione fabbricato. ARM sottolinea l'importanza di prestazioni durature affermando che i dispositivi mobili hanno una capacità limitata dissipare la potenza e le prestazioni sostenute evitano la limitazione della potenza per le applicazioni che ne richiedono molta energia. Questo, a sua volta, migliora la UX evitando ritardi o cali di frame.

La spinta sull’efficienza energetica si traduce in una maggiore efficienza energetica, poiché i due sono concetti correlati, ma diversi. Secondo ARM, nei punti ad alte prestazioni, come quelli che rappresentano il picco per gli attuali dispositivi mobili, il Cortex-A78 offre un risparmio energetico del 50% rispetto ai dispositivi del 2019 alla stessa prestazione come Cortex-A77. Ciò è impressionante e rende l'A78 la CPU ARM Cortex-A più efficiente dal punto di vista energetico mai progettata.

L'attenzione di ARM sulle prestazioni durature andrà a beneficio della prossima ondata di innovazione mobile come nuovi fattori di forma (telefoni pieghevoli) e una migliore "immersione digitale" attraverso il 5G. La realtà è che questo non è il caso della generazione attuale, e non avrà molta importanza nemmeno nella prossima generazione.

Un caso d'uso che sarà migliorato dal Cortex-A78 è il gaming mobile AAA, se combinato con la nuova GPU Mali-G78 di ARM. La combinazione dei due mira a portare esperienze di gioco ad alta fedeltà sui dispositivi mobili. Le loro maggiori prestazioni, se abbinate alla velocità elevata e all’elevata larghezza di banda del 5G, consentiranno giochi premium su dispositivi mobili. L'efficienza dell'A78 ha un vantaggio qui, poiché fornirà una maggiore durata della batteria per giochi prolungati. ARM afferma che sta anche lavorando con l'ecosistema per migliorare ulteriormente le prestazioni e creare esperienze di gioco più ricche e fornisce un esempio del suo lavoro con Unity per portare Burst Compiler su Android.

Le prestazioni del machine learning (ML) sono un'altra priorità per ARM. La CPU è il processore di prima scelta per l'elaborazione ML su dispositivi mobili, anche se oggigiorno i SoC di fascia alta sono dotati di unità di elaborazione neurale (NPU) separate. Le CPU ARM supportano le applicazioni ML del mondo reale più popolari e i casi d'uso sugli smartphone, come filtri dei social media, dettatura, sicurezza e protezione. Il Cortex-A78 utilizza in media l'8% di energia in meno per le attività basate su ML rispetto all'A77, il che porta a miglioramenti ufficiali dell'efficienza del 10%.

ARM Cortex-A78 - Architettura

L'ARM Cortex-A78 ha la stessa architettura della generazione precedente (è ancora un core ARM v8.2). ARM, tuttavia, ha aggiunto caratteristiche microarchitettoniche che mirano a spingere le prestazioni più in alto in un'area e in modo efficiente dal punto di vista energetico. ARM risparmia area ed energia mantenendo i livelli di prestazioni necessari. Ancora una volta, l'attenzione di ARM sulla serie Cortex-A rimane sull'area e sull'efficienza energetica piuttosto che sulle prestazioni di picco, che ora è un lavoro ripreso dal programma Cortex-X.

I miglioramenti prestazionali del Cortex-A78 sono possibili attraverso funzionalità microarchitettoniche aggiuntive che ottimizzano larghezza e profondità. L'ampiezza della decodifica dell'istruzione rimane a 4, come l'A77 e l'A76. (La larghezza di decodifica del Cortex-X1, d'altra parte, è di 5 larghezze, mentre l'A13 ha una larghezza di decodifica di 7 larghezze.) ARM ha aggiunto una maggiore previsione dei rami per larghezza di banda e precisione, nonché casi di fusione delle istruzioni. Questi miglioramenti architetturali consentono un aumento del 7% delle prestazioni a thread singolo rispetto all'A77.

L'efficienza è stata massimizzata riducendo le strutture con prestazioni e area ridotte, come le cache L1-I e L1-D. ARM ha ottimizzato le strutture esistenti per consumare meno energia, come le strutture di previsione del marchio. ARM afferma che ciò comporta il 4% in meno di potenza per prestazioni per mW e il 5% in meno di area per prestazioni per mm2 rispetto all'A77.

L'A78 mantiene l'attenzione su prestazioni durature con la migliore efficienza della categoria a livello di cluster. Un cluster DynamIQ di 4 CPU Cortex-A77 e 4 CPU Cortex-A55 può essere aggiornato a 4 core A78 e 4 core A55. Ciò fornisce miglioramenti prestazionali sostenuti del 20% in un'area inferiore del 15%. Le applicazioni che richiedono diversi thread ad alte prestazioni in parallelo, come i giochi ad alta fedeltà, trarranno vantaggio dalla spinta sostenuta delle prestazioni.

ARM rileva che la maggiore efficienza dell'area del cluster DynamIQ A78 lo rende ideale per telefoni pieghevoli e display multipli e più grandi. Un altro obiettivo è rendere gli smartphone pronti per il 5G attraverso miglioramenti in termini di prestazioni ed energia. Si suppone che il 5G offra “velocità molto più elevate”, “latenza molto più bassa” e “connettività molto più veloce e più onnipresente per dispositivi mobili per applicazioni a larghezza di banda elevata”. Potrebbe essere così tra qualche anno, ma al momento la maggior parte di questi vantaggi non sono evidenti per i consumatori finali.

Nel complesso, il Cortex-A78 è un prodotto solido. I SoC di punta di prossima generazione incorporeranno più core A78 per integrare il singolo core Cortex-X1 ha requisiti di potenza e area più elevati, e alcuni SoC orientati al valore sceglieranno addirittura di saltare il Cortex-X1 interamente. Per il mercato dei SoC di fascia media, l'A78 sarà il core CPU preferito per i SoC del 2021, e la sua attenzione alle prestazioni durature è benvenuta.


BRACCIO Mali-G78

La serie di GPU Mali di ARM non ha avuto lo stesso successo della serie di CPU Cortex, per usare un eufemismo. Le GPU Mali sono state costantemente superate sia in termini di prestazioni che di efficienza energetica dalle GPU personalizzate di Apple e dalle GPU Adreno personalizzate di Qualcomm, anno dopo anno. Il lancio dello scorso anno della nuova architettura Valhall e della GPU Mali-G77 non ha cambiato nulla, purtroppo. I SoC con Mali-G77 includevano il Exynos 990 e il MediaTek Dimensione 1000L rispettivamente. Entrambi, sfortunatamente, sembravano avere implementazioni deboli, il che significava che le prestazioni della loro GPU potevano farlo non competere con la GPU Adreno 650 di Qualcomm, per non parlare delle GPU leader della categoria Apple nell'Apple A12 e A13. Il Mali è rimasto indietro per anni e i suoi miglioramenti non sono stati sufficienti a cambiare lo status quo nello spazio delle GPU mobili.

Tuttavia, ARM è assolutamente ottimista. Si rileva che i suoi partner hanno spedito oltre un miliardo di GPU del Mali ogni anno, rendendo il Mali la GPU più venduta al mondo. Questo numero non farà altro che aumentare, presumibilmente, poiché molti altri tipi diversi di dispositivi consentono casi d'uso ad alta intensità grafica come giochi mobili avanzati e XR (VR e AR). Secondo ARM, ciò rende il Mali la GPU più utilizzata per lo sviluppo mobile in tutto l’ecosistema.

ARM rileva che nel 2019 ha annunciato la sua prima GPU basata sull'architettura Valhall: la Mali-G77. Nel 2020, al G77 succederà il Mali-G78, anch'esso basato sull'architettura Valhall. Anche se ARM afferma che è la GPU più performante per dispositivi mobili premium fino ad oggi, i numeri non lo confermano, nonostante ciò che ARM dice ironicamente che è un fatto supportato dai numeri. Il G78 apporta un miglioramento delle prestazioni del 25% rispetto al G77, che è a dir poco scarso. Il divario nelle prestazioni massime della GPU tra il G77 e la GPU dell'Apple A13 è stato significativo, il che significa che il G78 non sarà in grado di raggiungere l'A13, per non parlare della prossima GPU dell'Apple A14. Qualcomm continuerà inoltre a rimanere un passo avanti grazie ai propri miglioramenti incrementali delle prestazioni.

La grafica rivoluzionaria e il gaming che dura tutto il giorno su dispositivi mobili sono già possibili su altre GPU, quindi il marketing di ARM in questo caso suona un po' vuoto.

Secondo ARM, il Mali-G78 è stato progettato pensando agli sviluppatori e all'utente finale. Consente esperienze di gioco mobile di alta qualità con i giochi per console ora disponibili su dispositivi mobili. Il G78 offre una maggiore durata della batteria ai dispositivi mobili premium. Offre inoltre un ulteriore incremento delle prestazioni ML per funzionalità ML più complesse di giochi, video, fotocamere e sicurezza sui dispositivi mobili.

ARM è ottimista riguardo alla prospettiva dei giochi mobili. I giochi mobili hanno rappresentato oltre il 46% del mercato globale dei giochi nel 2019, raggiungendo ricavi per 68,2 miliardi di dollari. È inoltre destinato a continuare a crescere nei prossimi anni poiché supererà sia i giochi per PC che quelli per console. Sempre più titoli di gioco premium stanno arrivando sui dispositivi mobili e gli utenti si aspettano un'esperienza simile sui dispositivi mobili rispetto alle console.

Per rendere possibili queste esperienze, il Mali-G78 è dotato del necessario incremento di prestazioni. Ha un miglioramento della densità di prestazioni del 15% per i contenuti di gioco rispetto al G77. Per la stessa quantità di area della generazione precedente, il G78 fornirà maggiori prestazioni. Questa spinta è resa possibile da quattro caratteristiche chiave:

  • Supporto per un massimo di 24 core
  • Livello superiore asincrono
  • Miglioramenti del piastrellista
  • Tracciamento delle dipendenze dei frammenti migliorato

Mentre il numero massimo di core del G77 era 16, ARM ha aumentato il numero massimo di core del G78 a un massimo di 24 core. Naturalmente, solo perché esiste un limite massimo non significa che i fornitori di chip mobili incorporeranno effettivamente 24 core. La variante core più ampia del G77 che abbiamo visto finora è la Mali-G77MP11 sull'Exynos 990, mentre il Dimensity 1000 ha un Mali-G77MC9.

ARM ritiene che Asynchronous Top Level sia una funzionalità rivoluzionaria per le prestazioni della GPU. Si dice che questo riesca a spremere quante più prestazioni possibili dai giochi per dispositivi mobili, garantendo le massime prestazioni.

I miglioramenti del piastrellista, d'altra parte, aggiungono un ulteriore livello di qualità ai giochi mobili. I giochi importati da PC e console spesso hanno risorse estremamente complicate e scene sofisticate, che causano punti critici e colli di bottiglia nelle prestazioni. I miglioramenti del piastrellista riducono il carico sui vertici della GPU per queste scene e risorse complesse. Ciò migliora le prestazioni per contenuti di gioco complicati simili a quelli di una console.

ARM ha inoltre migliorato il tracciamento delle dipendenze dei frammenti sul G78. Ciò riguarda in particolare i giochi per dispositivi mobili con scene di gioco complesse che coinvolgono fumo, alberi ed erba. I risultati sono che ARM ha visto miglioramenti delle prestazioni fino al 17% sui migliori giochi per dispositivi mobili rispetto al G77.

Il Mali-G78 ha un’efficienza energetica migliore del 10% rispetto al suo predecessore. Ancora una volta, questo non sarà sufficiente per raggiungere Qualcomm o Apple. Gli obiettivi di ARM in questo caso sembrano particolarmente conservatori. La funzionalità Asynchronous Top Level svolge un ruolo importante nell'efficienza energetica, poiché consente una riduzione della potenza, consentendo così la generazione di contenuti in modo sostenibile. Pertanto, quando un dispositivo trasmette contenuti al frame rate desiderato, può rallentare per risparmiare energia. Aumentando il livello superiore per questa attività si utilizza un po' più di energia, ma il risparmio energetico derivante dalla riduzione della frequenza dei core dello shader è molto più elevato. Questo perché gli shader core utilizzano il 90-95% del budget energetico della GPU.

Una migliore efficienza energetica nel G78 si ottiene anche grazie a Fused multiply-add (FMA). È stato completamente riprogettato da zero, portando a una riduzione del consumo energetico dell'unità del 30%. L'unità FMA è responsabile della maggior parte dei calcoli che avvengono all'interno di una GPU, ed è per questo motivo che aveva senso che ARM la puntasse alla riduzione dei consumi.

La capacità di elaborazione parallela dei dati di una GPU la rende adatta per l'esecuzione di carichi di lavoro ML, sebbene ARM riconosca che CPU e GPU rimangono i processori principali per ML. Man mano che i casi d'uso diventano più complessi, alcuni carichi di lavoro verranno scaricati sulla GPU. I principali casi d'uso ML per la GPU sono legati alle funzionalità di sicurezza del dispositivo, alle diverse modalità fotocamera e video, nonché alle applicazioni con funzionalità AR.

Il ruolo del ML sulla GPU consente esperienze come il rilevamento dei volti all'interno della cornice di una foto o di un video, giochi che utilizzano funzionalità AR e altro ancora. Per queste attività basate su ML, il Mali-G78 presenta un miglioramento medio delle prestazioni del 15% per vari carichi di lavoro ML rispetto al G77. Il G77 ha apportato un miglioramento del 60% nelle prestazioni ML rispetto alle generazioni precedenti, quindi il miglioramento anno su anno quest'anno è molto inferiore. Il livello superiore asincrono è fondamentale per migliorare le prestazioni ML poiché il clock dei core shader aiuta con i vari casi d'uso ML sulla GPU.

Poi c’è l’annuncio del Mali-G68. Questa non è altro che una variante più stretta del Mali-G78, proprio come il Mali-G57 era una variante più stretta del Mali-G77. ARM afferma che questa è la prima GPU Mali sub-premium per i dispositivi del 2021. Ha tutte le caratteristiche del G78 come i miglioramenti del piastrellista e la nuova unità FMA nel motore di esecuzione ma supporta fino a 6 core invece di 24. Prestazioni quasi premium a un costo inferiore è l'obiettivo di questa GPU.

ARM ha sviluppato questo livello di GPU sub-premium dopo aver ascoltato il feedback dei partner che desideravano funzionalità premium nel loro portafoglio di dispositivi. Il G68 ha un'area di silicio inferiore, come previsto, e offre giochi ad alte prestazioni a un pubblico più ampio di sviluppatori e consumatori.

Infine, ARM menziona le sue partnership con gli sviluppatori. Rende facile per gli sviluppatori ottimizzare i propri contenuti per funzionare meglio sulle GPU del Mali (in teoria). Un esempio è il Performance Advisor. La seconda è la collaborazione di ARM con Unity per portare il Burst Compiler. I dettagli su questo possono essere letti nell'articolo originale.

Mali-G78 – Prospettive

Le prospettive per il Mali-G78 sono desolanti. Sembra che ARM semplicemente non sia interessata ad apportare miglioramenti sostanziali alle prestazioni anno dopo anno nello stesso stampo che Apple sta realizzando, nello stesso stampo che Qualcomm ha realizzato in passato. Sebbene anche il tasso di miglioramento di Qualcomm sia rallentato, la sua linea di base si trova a un livello più alto rispetto a ARM. Non va bene per l'ecosistema Android quando i revisori affermano con prove numeriche che le prestazioni sostenute della GPU dell'A13 sono superiori alle prestazioni di picco dello Snapdragon 865. Il delta prestazionale tra le GPU Apple e Android sta crescendo, e non farà altro che ampliarsi.

Il G78, quindi, non è una soluzione magica per risolvere i problemi delle GPU ARM Mali e portarle in cima alle classifiche delle prestazioni. Sarà comunque classificato sotto le GPU di Apple e Qualcomm. Sarà la scelta predefinita per alcuni SoC solo perché si tratta dell'IP GPU di serie di ARM e le soluzioni personalizzate hanno barriere all'ingresso e costano di più BENE.

L'anno prossimo, è dubbio che Samsung Systems LSI finirà per utilizzare il Mali-G78. Samsung è stato un cliente di alto profilo delle GPU del Mali, ma l'anno scorso ha firmato una partnership con AMD per portare l'architettura GPU RDNA ai suoi SoC mobili nel 2021. Se la tabella di marcia rimane sulla buona strada - e a questo punto non abbiamo motivo di sospettare che non sia sulla buona strada - allora il successore dell'Exynos 990 presenterà una GPU AMD RDNA invece di una GPU Mali. Sarà, infatti, una grande perdita di progettazione per ARM. Anche altri fornitori come MediaTek hanno più opzioni al giorno d'oggi. Le novità di Imagination Technologies Architettura GPU serie A ha un obiettivo di progettazione per prestazioni più elevate rispetto al G78, ed è possibile che MediaTek abbandoni il Mali in futuro. Qualcomm, ovviamente, non ha motivo di abbandonare i suoi sforzi per la GPU Adreno, che rimangono ancora il migliore della categoria in termini di prestazioni ed efficienza quando si parla esclusivamente di Android mercato degli smartphone.

Pertanto, è chiaro che ARM dovrà aumentare il tasso di miglioramenti annuali delle GPU del Mali per fare davvero la differenza nel mercato delle GPU mobili. Se non riesce a farlo, corre il rischio di essere messo in secondo piano nello spazio delle GPU mobili di punta premium.


BRACCIO Etica N78

Infine, ARM ha annunciato anche l'unità di elaborazione neurale (NPU) Ethos N78. È il successore della NPU N77. Offre maggiori funzionalità ML sul dispositivo e fino al 25% in più di efficienza delle prestazioni. Anche la configurabilità è un punto di forza poiché le configurazioni disponibili vanno da 1 TOP/s fino a 10 TOP/s. Per maggiori dettagli, controlla Il post sul blog di ARM. Questa NPU avrà probabilmente vantaggi di progettazione limitati poiché Qualcomm, Samsung, HiSilicon e MediaTek hanno tutti le proprie unità di elaborazione neurale/motori AI.


Fonti: ARM (1, 2), AnandTech (1, 2)