I nuovi Cortex X4, A720 e A520 di Arm sono core solo a 64 bit con una grande attenzione all'efficienza

Sono stati annunciati i nuovi core di Arm come parte della sua Total Compute Solution per il 2023, e sono piuttosto interessanti.

Link veloci

Solo 64 bit: "Missione compiuta"

Arm Cortex-X4: ancora più prestazioni e migliore efficienza

Arm Cortex-A720: bilanciamento tra prestazioni e consumo energetico

Arm Cortex A520: raddoppiare l'efficienza

DSU-120: fino a 14 core di potenza computazionale

L’efficienza è il nuovo obiettivo

Arm è l'azienda che progetta praticamente tutti i core della CPU che finiscono per essere utilizzati nei tuoi smartphone Android, e ogni anno annuncia nuove iterazioni che in seguito troveranno la loro strada nei chipset come l'ammiraglia Snapdragon di quell'anno o la prossima ammiraglia MediaTek Dimensione. Quest'anno rilascerà un core Cortex-X4 di punta, un core prestazionale Cortex-A720 e un core efficiente Cortex-A520. Questi core costituiscono la base dei nuovi progetti compatibili con Arm v9.2 dell'azienda e della soluzione di calcolo totale dell'azienda per il 2023, o TCS23. Oltre a ciò, vediamo anche una nuova unità condivisa DynamIQ e una GPU Immortalis-G720 aggiornata. Ancora più grande è la transizione completa verso l'elaborazione a 64 bit, senza che nessuno di questi core supporti i 32 bit.

Tutti e tre i nuovi core sono successori microarchitettonici di quelli dell'anno scorso e si concentrano principalmente sull'introduzione dell'IPC e sul miglioramento dell'efficienza.

Solo 64 bit: "Missione compiuta"

Uno dei maggiori cambiamenti nella Total Compute Solution di Arm di quest'anno è il passaggio solo a 64 bit. Mentre l'A510R1 dell'anno scorso supportava la modalità di esecuzione AArch32 a 32 bit, così come l'A710 lanciato con TCS22 l'anno scorso, quest'anno i core di Arm sono solo AArch64. Il tempo scorre per le applicazioni a 32 bit su Android, soprattutto da allora Google stessa ha imposto l'aggiornamento di tutte le app dal 2019 vengono caricati come file binari a 64 bit.

Come dice Arm, la transizione a 64 bit è considerata "missione compiuta". La ragione di ciò è che il mercato cinese delle app è quello ha frenato il resto del settore nella transizione, ma la stragrande maggioranza delle app sugli app store cinesi sono ora conformi a 64 bit, pure.

Il motivo del ritardo è stata la mancanza di un ecosistema applicativo omogeneo, il che significa che diversi app store richiedevano standard diversi da parte degli sviluppatori. Poiché Arm ha collaborato con vari app store in Cina, tuttavia, insieme ai ripetuti avvertimenti che sarebbe avvenuto un cambiamento, quegli app store hanno incoraggiato anche gli sviluppatori a cambiare.

Apparentemente è giunto il momento affinché la transizione avvenga nella sua interezza, e ci vorranno ancora alcuni mesi prima di vedere questi core Arm nei nuovi chipset.

Arm Cortex-X4: ancora più prestazioni e migliore efficienza

La serie X di core di Arm si è discostata dalla serie A diversi anni fa, con la filosofia che si tratta di un core potente a cui è consentito consumare un po' più di potenza quando ne ha bisogno. In genere, i produttori di chipset ne includono solo uno o due al massimo, poiché sono assetati di energia, nonostante le capacità di cui dispongono.

Come puoi vedere dal grafico sopra, il Cortex-X4 è il core Arm più potente finora, ma queste capacità di calcolo vanno a scapito del consumo energetico. Il Cortex-X4 è simile all'X3 dell'anno scorso e, come afferma Arm, può anche funzionare alle stesse frequenze del core dell'anno scorso e utilizzare fino al 40% di energia in meno. È meno del 10% più grande in termini di dimensioni fisiche ed è il core Cortex-X più efficiente mai costruito.

Per quanto riguarda l'origine di questi miglioramenti IPC, ci sono una serie di miglioramenti front-end e back-end sull'X4. In questi miglioramenti front-end, è stata dedicata una grande quantità di lavoro alla riscrittura e al miglioramento delle previsioni dei rami, poiché le previsioni dei rami errate sono costose in termini di prestazioni. Arm promette inoltre che una dimensione della cache L2 di 2 MB garantisce prestazioni più elevate, non tanto nei benchmark ma nell'utilizzo nel mondo reale.

Il nuovo core Cortex-X4 aumenta il numero di unità logiche aritmetiche (ALU) da 6 a 8, aggiunge un ramo aggiuntivo (per un totale di 3), aggiunge un'ulteriore unità Multiply-Accumulator e convoglia la virgola mobile e la radice quadrata operazioni.

Per quanto riguarda il back-end, ci sono anche una serie di miglioramenti. La generazione dell'indirizzo del magazzino di carico è passata da tre istruzioni a quattro per ciclo, poiché il tubo del magazzino di carico è stato preso e suddiviso. C'è anche un buffer lookaside della traduzione raddoppiato in L1, insieme a miglioramenti sui conflitti bancari.

Tutto questo si unisce per portare un notevole incremento delle prestazioni nel Cortex-X4 di Arm. Nel complesso, ci si può aspettare un miglioramento medio delle prestazioni del 15% con il Cortex-X4. Nella curva di potenza e prestazioni condivisa da Arm, l'X4 si estende davanti all'X3 sia in termini di prestazioni che di consumo energetico. In altre parole, il miglioramento delle prestazioni del 15% comporta un consumo energetico piuttosto significativo. Vale anche la pena ricordare, però, che non è proprio un confronto da mele a mele; il Cortex-X3 è stato fornito con 1 MB di cache L2 l'anno scorso, il che significa che se un produttore dovesse attenersi alla stessa dimensione della cache L2 quest'anno, potrebbe non esserci necessariamente un aumento delle prestazioni del 15%.

Una cosa è certa, però, ed è che se utilizzi l'X4 alla massima velocità, probabilmente sarà un grande divoratore di potenza. Potremmo vedere alcuni OEM quest'anno continuare a fare ciò che hanno fatto l'anno scorso e limitare molti dei chipset di quest'anno. Ad esempio, OnePlus e Oppo lo fanno entrambi, e con questi guadagni di efficienza energetica quando funzionano allo stesso tempo punti di prestazione come l'X3, è probabile che ci saranno vantaggi per quelle aziende che continueranno a farlo COSÌ. Potremmo non vedere un aumento delle prestazioni del 15% su tutta la linea, ma potremmo invece vedere ulteriori miglioramenti in termini di efficienza per i chipset del prossimo anno.

Arm Cortex-A720: bilanciamento tra prestazioni e consumo energetico

Mentre la serie X di core di Arm viene generalmente lasciata un po' selvaggia, la serie di core A mira in genere a bilanciare il consumo energetico con le prestazioni. Con il Cortex-A720, Arm promette un core più efficiente del 20%, con prestazioni migliorate alla stessa potenza dell'A715 dello scorso anno.

Per quanto riguarda l'origine dei miglioramenti dell'A720 di quest'anno, la maggior parte di essi riguarda la parte anteriore. Le pipeline sono state accorciate con la rimozione di un ciclo dal motore di previsione errata del ramo, e si dice che questo singolo calo del ciclo rappresenti un aumento dell'1% nei benchmark. I benchmark in genere comportano il minor numero di previsioni errate delle filiali, il che significa che ciò probabilmente migliorerà le prestazioni complessive nel mondo reale di un importo più significativo (ma in gran parte non misurabile).

Nel nucleo fuori servizio, vediamo una serie di miglioramenti strutturali che aiutano a migliorare le prestazioni senza incidere sull'area occupata dal nucleo o sulla sua efficienza. Per cominciare, proprio come nell'X4, le divisioni in virgola mobile e le operazioni di radice quadrata sono ora in pipeline. Sono inoltre disponibili trasferimenti più rapidi da numeri in virgola mobile, NEON e SVE2 a numeri interi e altri miglioramenti generali per accelerare l'elaborazione.

Arm ha condiviso il grafico sopra per illustrare il confronto tra l'A720 e l'A715 dell'anno scorso in termini di prestazioni ed efficienza, dove in SPECint_base2006 vengono utilizzati un processo ISO e una frequenza ISO. Anche le dimensioni della cache rimangono le stesse, quindi è più un confronto da mele a mele.

In termini di consumo energetico, l'A720 rimane molto in linea con il modello dell'anno scorso, anche se offre prestazioni leggermente superiori agli stessi livelli di potenza. Con l'A720, come con l'X4, Arm sembra concentrarsi maggiormente sull'evidenziare come sta migliorando prestazioni fuori dai vincoli energetici dello scorso anno piuttosto che aumentare continuamente la potenza di questi nuclei capace di.

Arm Cortex A520: raddoppiare l'efficienza

Naturalmente, quando si tratta dei core Arm, non è solo una questione di prestazioni. Con la serie X che mette tutto in pura potenza di calcolo e l'A7xx che bilancia le esigenze di calcolo e l'assorbimento di potenza, la serie A5xx si concentra esclusivamente sull'elaborazione efficiente. È il core Arm v9.2 con il consumo per area più basso e si basa sulla stessa architettura a core uniti che abbiamo visto introdotta con l'A510.

Ciò che significa questa architettura di core uniti è che alcune risorse possono essere condivise tra due core, dove possono esserlo due core raggruppati in un "complesso". Al suo interno sono condivisi la cache L2, il buffer lookaside della traduzione L2 e i percorsi dati vettoriali complesso. Per essere chiari, questo non significa questo ha essere raggruppato in due core e un complesso a un core può essere assemblato per ottenere le massime prestazioni. In effetti, uno dei layout core TCS2023 di Arm che ci hanno mostrato prevedeva un singolo core X4, cinque core A720 e tre core A520, il che significa che almeno un core A520 è isolato.

L'A520 è un progetto incentrato sull'efficienza e, come gli altri core, Arm si è concentrato principalmente sul miglioramento di tale efficienza agli stessi punti di potenza dell'ultima generazione. Ciò include il miglioramento delle previsioni dei rami e la rimozione o il ridimensionamento di alcune funzionalità prestazionali. Questa prestazione è stata recuperata grazie ad una maggiore efficienza. È interessante notare che Arm ha rimosso la terza ALU presente nell'A510, risparmiando energia nell'emissione della logica e nell'inoltro dei risultati.

Nei risultati del mondo reale, sembra che l'A520 non sia così grande rispetto ai suoi predecessori come lo sono l'A720 e l'X4. Gran parte delle sue capacità a intervalli di potenza inferiori si sovrappongono a quelle dell'A510 del grafico sopra, ed è solo ai livelli più alti delle prestazioni che vediamo miglioramenti in termini di efficienza. La divergenza in termini di prestazioni e potenza tra i due core è promettente, ma non è chiaro se vedremo dei vantaggi reali nel mondo reale confrontando l'A520 con l'A510. Dopotutto, è difficile misurare correttamente le differenze di prestazioni ed efficienza tra i due nel mondo reale.

DSU-120: fino a 14 core di potenza computazionale

La DynamIQ Shared Unit, o DSU, integra uno o più core con un sistema di memoria L3, logica di controllo e interfacce esterne per formare un cluster multicore. È essenzialmente il tessuto di Arm che consente a tutti questi nuclei di comunicare tra loro e condividere risorse, e così via pertanto, è un pezzo abbastanza importante del puzzle per qualsiasi produttore di chipset che desideri costruire un chip con i design principali di Arm.

Basandosi sul DSU-110, Arm ha apportato una serie di miglioramenti al DSU-120 che andranno a beneficio dell'intero chip in cui è incluso. Per cominciare, ora sono disponibili fino a 14 core per cluster (da 12) e supporto fino a 32 MB di cache L3. Inoltre, migliora notevolmente l'efficienza in una serie di aree chiave, anche in caso di problemi con la cache, riducendo al tempo stesso le perdite di potenza.

In un certo senso, la DSU di Arm è la spina dorsale di TCS23, poiché costituisce la base del modo in cui ciascuno di questi core interagisce tra loro e condivide i dati. Qualsiasi miglioramento qui andrà a beneficio dell'intero cluster, ma sembra che la maggior parte dei cambiamenti siano legati al consumo energetico e all'efficienza.

L’efficienza è il nuovo obiettivo

Sembra che il settore stia cambiando da un po', ma la prima impressione che ottengo da questi core è che l'efficienza è ora la parola d'ordine. Anche se ci è stato detto quanto è più veloce il core X4 e come sia il core più veloce mai realizzato dall'azienda, sono stati molto rapidi nel notare i miglioramenti in termini di efficienza derivanti dal funzionamento al massimo delle prestazioni dell'anno scorso Invece.

Nel complesso, ogni miglioramento delle prestazioni è stato sostenuto da quanto più efficiente fosse anche quel componente e, più o meno, tutti i cambiamenti della DSU riguardavano l'efficienza e la dispersione di potenza. Le prestazioni sono importanti, ma sembra davvero che il settore nel suo insieme stia cercando di attualizzarsi livelli di calcolo più efficienti piuttosto che puntare a massicci aumenti di prestazioni anno dopo anno.

Ci aspettiamo che questi core formuleranno la base del MediaTek Dimensity 9400 e del Qualcomm Snapdragon 8 Gen 3, ma resta da vedere in quale formazione. Come accennato in precedenza, Arm ha parlato di utilizzare un layout core 1+5+3 nei propri test interni, ma ciò non significa che sia ciò che partner come MediaTek e Qualcomm stanno cercando di fare da soli.