Noile Cortex X4, A720 și A520 de la Arm sunt nuclee doar pe 64 de biți, cu un accent mare pe eficiență

Au fost anunțate noile nuclee Arm ca parte a soluției totale de calcul pentru 2023 și sunt destul de interesante.

Legături rapide

Doar pe 64 de biți: „Misiune îndeplinită”

Arm Cortex-X4: Performanță și mai mare și eficiență mai bună

Arm Cortex-A720: echilibrează performanța și consumul de energie

Arm Cortex A520: Dublarea eficienței

DSU-120: Până la 14 nuclee de bunătate computațională

Eficiența este noul obiectiv

Arm este compania care proiectează aproape toate nucleele CPU care ajung să fie folosite în smartphone-ul tău Android și în fiecare an anunță noi iterații care mai târziu își vor găsi drumul în chipset-uri precum nava emblematică Snapdragon din acel an sau următorul flagship MediaTek Dimensiunea. Anul acesta, lansează un nucleu emblematic Cortex-X4, un nucleu de performanță Cortex-A720 și un nucleu de eficiență Cortex-A520. Aceste nuclee formează baza noilor design-uri compatibile cu Arm v9.2 ale companiei și a soluției totale de calcul a companiei pentru 2023 sau TCS23. Pe lângă asta, vedem și o nouă unitate partajată DynamIQ și un GPU Immortalis-G720 actualizat. Mai mare este o tranziție completă către calcularea pe 64 de biți, niciunul dintre aceste nuclee nu acceptă 32 de biți.

Toate cele trei noile nuclee sunt succesoare microarhitecturale ale celei de anul trecut și se concentrează în primul rând pe introducerea IPC și pe câștiguri de eficiență.

Doar pe 64 de biți: „Misiune îndeplinită”

Una dintre cele mai mari schimbări în soluția Total Compute din acest an de la Arm este trecerea la doar 64 de biți. În timp ce A510R1 de anul trecut a suportat modul de execuție AArch32 pe 32 de biți, la fel ca și A710 care a fost lansat cu TCS22 anul trecut, anul acesta, nucleele Arm sunt doar AArch64. Ceasul a trecut pentru aplicațiile pe 32 de biți pe Android, mai ales de atunci Însuși Google a impus ca toate aplicațiile să fie actualizate începând cu 2019 sunt încărcate ca binare pe 64 de biți.

După cum spune Arm, tranziția pe 64 de biți este considerată „misiune îndeplinită”. Motivul pentru aceasta este că piața de aplicații din China este ceea ce a împiedicat restul industriei în tranziție, dar marea majoritate a aplicațiilor din magazinele de aplicații din China sunt acum compatibile cu 64 de biți, de asemenea.

Motivul întârzierii a fost lipsa unui ecosistem de aplicații omogenizat, ceea ce înseamnă că diferite magazine de aplicații au necesitat standarde diferite ale dezvoltatorilor. Deoarece Arm a lucrat cu diverse magazine de aplicații din China, totuși, împreună cu avertismentele repetate că ar avea loc o schimbare, acele magazine de aplicații au încurajat dezvoltatorii să treacă și ei.

Se pare că a venit momentul ca această tranziție să se întâmple în întregime și vor mai fi câteva luni până când vom vedea aceste nuclee Arm în noi chipset-uri, oricum.

Arm Cortex-X4: Performanță și mai mare și eficiență mai bună

Seria de nuclee Arm's X s-a îndepărtat de seria A cu câțiva ani în urmă, filozofia fiind că este un nucleu puternic căruia i se permite să bea puțin mai multă putere atunci când are nevoie. În mod obișnuit, producătorii de chipset-uri vor include doar unul sau două dintre acestea la maximum, deoarece au foame de energie, chiar și în ciuda capacităților pe care le au.

După cum puteți vedea din graficul de mai sus, Cortex-X4 este cel mai puternic nucleu Arm de până acum, dar aceste capacități de calcul vin cu prețul consumului de energie. Cortex-X4 este similar cu X3 de anul trecut și, după cum spune Arm, poate fi rulat chiar la aceleași frecvențe ca și nucleul de anul trecut și poate folosi cu până la 40% mai puțină putere. Este cu mai puțin de 10% mai mare ca dimensiune fizică și cel mai eficient nucleu Cortex-X construit vreodată.

În ceea ce privește de unde provin acele îmbunătățiri IPC, există o serie de îmbunătățiri front-end și back-end pentru X4. În acele îmbunătățiri front-end, a fost depusă o cantitate mare de muncă pentru rescrierea și îmbunătățirea predicțiilor de ramuri, deoarece predicțiile incorecte ale ramurilor sunt costisitoare, din punct de vedere al performanței. Arm promite, de asemenea, că o dimensiune cache L2 de 2 MB oferă performanțe mai mari, nu atât în benchmark-uri, cât și în utilizarea în lumea reală.

Noul nucleu Cortex-X4 crește numărul de unități aritmetice logice (ALU) de la 6 la 8, adaugă o ramură suplimentară unitate (pentru un total de 3), adaugă o unitate suplimentară Multiply-Acumulator și conducte în virgulă mobilă și rădăcină pătrată operațiuni.

În ceea ce privește partea din spate, există și o serie de îmbunătățiri. Generarea adresei depozitului de încărcare a trecut de la trei instrucțiuni la patru pe ciclu, deoarece conducta de depozitare a încărcăturii a fost luată și divizată. Există, de asemenea, un tampon de traducere dublat în L1, împreună cu îmbunătățiri ale conflictelor bancare.

Toate acestea se reunesc pentru a aduce o creștere impresionantă a performanței în Arm's Cortex-X4. Per total, vă puteți aștepta la o medie de îmbunătățire a performanței cu 15% cu Cortex-X4. În curba de putere și performanță împărtășită de Arm, X4 se extinde înaintea lui X3 atât în ceea ce privește performanța, cât și consumul de energie. Cu alte cuvinte, acea îmbunătățire a performanței cu 15% vine la un consum destul de semnificativ de putere. Merită menționat, de asemenea, că nu este chiar o comparație de mere cu mere; Cortex-X3 a venit cu 1MB de cache L2 anul trecut, ceea ce înseamnă că, în cazul în care un producător rămâne la aceeași dimensiune a memoriei cache L2 anul acesta, s-ar putea să nu existe neapărat o creștere a performanței cu 15%.

Un lucru este sigur, totuși, și este că, dacă rulați X4 la viteză maximă, probabil că va fi un consumator de putere major. S-ar putea să vedem că unii producători OEM continuă anul acesta să facă ceea ce au făcut anul trecut și scot din cutie multe dintre chipset-urile din acest an. De exemplu, OnePlus și Oppo fac acest lucru și cu acele câștiguri de eficiență energetică atunci când funcționează în același timp puncte de performanță ca X3, este probabil că vor exista beneficii pentru acele companii pe care să le facă în continuare asa de. S-ar putea să nu vedem o creștere a performanței cu 15% la nivel general, dar este posibil să vedem mai multe îmbunătățiri ale eficienței pentru chipset-urile de anul viitor.

Arm Cortex-A720: echilibrează performanța și consumul de energie

În timp ce seria X de nuclee a lui Arm este de obicei lăsată să funcționeze puțin, seria A de nuclee urmărește de obicei să echilibreze consumul de energie cu performanța. Cu Cortex-A720, Arm promite un nucleu cu 20% mai eficient, cu performanțe crescute la aceeași putere ca și A715 de anul trecut.

În ceea ce privește de unde provin îmbunătățirile A720 din acest an, cele mai multe dintre ele se află în front-end. Conductele au fost scurtate cu un ciclu eliminat din motorul de predicție greșită a ramurilor, despre că această scădere a unui singur ciclu este considerată că reprezintă o creștere cu 1% a benchmark-urilor. Valorile de referință au ca rezultat, de obicei, cele mai puține predicții greșite de ramură, ceea ce înseamnă că acest lucru va îmbunătăți probabil performanța generală în lumea reală cu o sumă mai semnificativă (dar în mare parte incomensurabilă).

În nucleul în afara ordinului, vedem o serie de îmbunătățiri structurale care ajută la îmbunătățirea performanței fără a afecta zona ocupată de nucleu sau eficiența acestuia. Pentru început, la fel ca în X4, operațiunile de divizări în virgulă mobilă și rădăcină pătrată sunt acum canalizate. Există, de asemenea, transferuri mai rapide de la numere în virgulă mobilă, NEON și SVE2 la numere întregi și alte îmbunătățiri generale pentru a accelera procesarea.

Arm a împărtășit graficul de mai sus pentru a ilustra modul în care A720 se compară cu A715 de anul trecut în ceea ce privește performanța și eficiența, unde un proces ISO și frecvența ISO sunt utilizate în SPECint_base2006. Dimensiunile memoriei cache rămân și ele aceleași, deci este o comparație între mere și mere.

În ceea ce privește consumul de energie, A720 rămâne mult în concordanță cu modelul de anul trecut, deși obține puțin mai multă performanță la aceleași niveluri de putere. Cu A720, ca și cu X4, Arm pare să se concentreze mai mult pe evidențierea modului în care se îmbunătățește. performanța față de constrângerile de putere de anul trecut, mai degrabă decât creșterea continuă a puterii acestor nuclee capabil de.

Arm Cortex A520: Dublarea eficienței

Desigur, când vine vorba de nucleele lui Arm, nu totul este vorba despre performanță. Cu seria X care pune totul în putere de calcul brută și A7xx echilibrând nevoile de calcul și consumul de energie, seria A5xx se concentrează exclusiv pe procesarea eficientă. Este cea mai mică putere pe zonă de nucleu Arm v9.2 și se bazează pe aceeași arhitectură de nuclee îmbinate pe care am văzut-o introdusă cu A510.

Ceea ce înseamnă această arhitectură de bază îmbinată este că unele resurse pot fi partajate între două nuclee, unde pot fi două nuclee grupate într-un „complex”. Cache-ul L2, buffer-ul de traducere L2 și căile de date vectoriale sunt partajate în aceasta complex. Pentru a fi clar, asta nu înseamnă asta are să fie grupat în două nuclee, iar un complex cu un singur nucleu poate fi asamblat pentru performanță de vârf. De fapt, unul dintre modelele de nuclee TCS2023 ale Arm pe care ni le-au arătat a implicat un singur nucleu X4, cinci nuclee A720 și trei nuclee A520, ceea ce înseamnă că cel puțin un nucleu A520 este izolat.

A520 este un design care primește eficiență și, ca și celelalte nuclee, Arm s-a concentrat în mare măsură pe îmbunătățirea acelei eficiențe la aceleași puncte de putere ca și ultima generație. Aceasta include îmbunătățirea predicțiilor de ramuri, în același timp cu eliminarea sau reducerea unor funcții de performanță. Această performanță a fost recuperată printr-o eficiență mai mare ca rezultat. Interesant, de asemenea, Arm a eliminat al treilea ALU care era în A510, economisind energie în emiterea logicii și transmiterea rezultatelor.

În rezultatele din lumea reală, se pare că A520 nu este la fel de mare față de predecesorii săi precum A720 și X4. Multe dintre capacitățile sale la intervale de putere mai mici se suprapun cu A510 din graficul de mai sus și doar la eșaloanele superioare de performanță vedem câștiguri de eficiență. Divergența de performanță și putere dintre cele două nuclee este promițătoare, dar nu este clar dacă vom vedea beneficii reale în lumea reală când comparăm A520 cu A510. La urma urmei, este greu să măsori corect diferențele de performanță și eficiență dintre cele două în lumea reală.

DSU-120: Până la 14 nuclee de bunătate computațională

Unitatea partajată DynamIQ, sau DSU, integrează unul sau mai multe nuclee cu un sistem de memorie L3, logica de control și interfețe externe pentru a forma un cluster multicore. Este, în esență, țesătura lui Arm care permite tuturor acestor nuclee să comunice între ele și să partajeze resurse și, pe măsură ce astfel, este o piesă destul de importantă a puzzle-ului pentru orice producător de chipset-uri care dorește să construiască un cip cu modelele de bază ale lui Arm.

Bazându-se pe DSU-110, Arm a adus o serie de îmbunătățiri la DSU-120, care vor beneficia de întregul cip pe care este inclus. Pentru început, există acum până la 14 nuclee per cluster (de la 12) și suport pentru până la 32 MB de cache L3. De asemenea, îmbunătățește considerabil eficiența într-o serie de domenii cheie, inclusiv în cazul erorilor de cache, reducând în același timp pierderile de energie.

Într-un fel, DSU Arm este coloana vertebrală a TCS23, deoarece formează baza modului în care fiecare dintre aceste nuclee interacționează între ele și partajează date. Orice îmbunătățiri aici vor aduce beneficii întregului cluster, dar se pare că majoritatea schimbărilor sunt legate de consumul de energie și eficiență.

Eficiența este noul obiectiv

Se pare că industria s-a schimbat de ceva vreme, dar prima impresie principală pe care o am de la aceste nuclee este că eficiența este acum numele jocului. Deși ni s-a spus cât de mult este mai rapid nucleul X4 și cum este cel mai rapid nucleu al companiei vreodată, au observat foarte repede îmbunătățirile de eficiență ale rulării acestuia la performanța maximă de anul trecut in schimb.

În general, fiecare câștig de performanță a fost susținut de cât de mult mai eficientă a fost acea componentă și, mai mult sau mai puțin, toate modificările DSU au fost în eficiență și pierderi de energie. Performanța este importantă, dar se simte într-adevăr că industria în ansamblu încearcă să se actualizeze nivelurile de calcul mai eficiente decât să meargă la o performanță masivă crește de la an la an.

Ne așteptăm ca aceste nuclee să formuleze baza MediaTek Dimensity 9400 și Qualcomm Snapdragon 8 Gen 3, dar în ce formație rămâne de văzut. După cum sa menționat anterior, Arm a vorbit despre utilizarea unui aspect de bază 1+5+3 în propria testare internă, dar asta nu înseamnă că este ceea ce parteneri precum MediaTek și Qualcomm caută să facă ei înșiși.