Samsung Austini uurimis- ja arenduskeskus paljastab üksikasjad oma seni avaldamata Exynos M6 protsessori mikroarhitektuuri kohta

click fraud protection

Samsung Austini uurimis- ja arenduskeskus (SARC) on välja andnud dokumendi, milles kirjeldatakse üksikasjalikult tühistatud Exynos M6 kohandatud protsessori tuuma mikroarhitektuuri.

Teame, et kohandatud CPU põhiprojekt Samsungi Austini uurimis- ja arenduskeskuses (SARC) lõppes oktoobril 2019. Projekti jaoks, mida 2016. aastal Exynos M1-ga varustatud Exynos 8890 turuletoomisega nii suure hooga reklaamiti, oli see kurb lõpp. Miks SARC projekti kokku pani? Exynos M5 kohandatud tuum, mis on esile tõstetud Exynos 990 SoC on lähitulevikus viimane Samsungi disainitud täielikult kohandatud tuum ja tagantjärele on lihtne mõista, miks Samsung loobus kohandatud tuumadest, kuna need lihtsalt ei olnud piisavalt konkurentsivõimelised. Nüüd on teada, et Exynos M5 tuum on 100% energiatõhususe puudujääk ARM-i Cortex-A77 vastu, mis ütleb palju. Ometi ei pidanud see nii välja tulema. Exynos M1 ja Exynos M2 kujundused näitasid mõningast lubadust ning kohandatud CPU põhiprojekti peeti sel ajal oluliseks mobiilse protsessori ruumi konkurentsi huvides. Exynos M3 oli suur langus hoolimata IPC suurest tõusust ja

Exynos M4 ja Exynos M5 ei suutnud ARM-i aktsia CPU IP-ga sammu pidada. Millised olid mikroarhitektuurilised muudatused järgmises kohandatud tuumas, tühistatud Exynos M6-s?

Siiani oli vastus sellele küsimusele teadmata. Nüüd aga on SARC CPU arendusmeeskond esitanud artikli pealkirjaga "Samsung Exynose CPU arhitektuuri areng" (millest saime teada AnandTech) rahvusvahelisel arvutiarhitektuuri sümpoosionil (ISCA), mis on IEEE konverents. See paljastab palju üksikasju nii eelmiste Exynos M-seeria protsessorite kui ka tühistatud Exynos M6 arhitektuuri kohta.

SARC-i CPU arendusmeeskonna esitatud artikkel kirjeldab üksikasjalikult meeskonna jõupingutusi selle kaheksa-aastase eksisteerimise jooksul ja paljastab ka kohandatud ARM-i tuumade põhidetailid, alates Exynos M1-st. (Mongoose) praeguse põlvkonna Exynos M5 (Lion) ja isegi veel avaldamata Exynos M6 protsessoriga, mis oleks enne tühistamist eeldatud Exynos 990 2021. aasta SoC-s. järglane.

Samsungi SARC CPU meeskond asutati 2011. aastal, et arendada kohandatud protsessori tuumasid, mida seejärel kuvati Samsung Systemsis. LSI Exynose SoC-d. Esimene Exynose SoC, mis kasutas kohandatud südamikku, oli Exynos 8890, mida esitleti 2016. aasta Samsung Galaxys S7. Kohandatud tuumad jäid Exynose SoC-de osaks kuni Exynos 990-ni koos Exynos M5 tuumadega, mida kasutati Exynose toega Samsung Galaxy S20 variantides. (tulevane Exynos 992, mis tõenäoliselt esineb Galaxy Note 20-s, sisaldab eeldatavasti ARM-i Cortex-A78 ja mitte Exynos M5.) SARC oli aga Exynos M6 arhitektuuri valmis saanud enne, kui CPU meeskond oli sai teate selle laiali saatmisest 2019. aasta oktoobris ja laialisaatmine jõustus aastal detsembril.

ISCA paberil on ülevaatetabel Samsungi kohandatud protsessori tuumade mikroarhitektuurilistest erinevustest alates Exynos M1-st kuni Exynos M6-ni. Ettevõte avalikustas mõned disaini tuntud omadused oma esialgses M1 CPU arhitektuuri sügavas sukeldumises HotChips 2016 üritusel. HotChipsil 2018 tegi Samsung sügava sukeldumise Exynos M3-le. Samuti on üksikasjalikult kirjeldatud Exynos M4 ja Exynos M5 tuumade arhitektuur, samuti M6 oma.

Allikas: SARC

AnandTech märgib, et Samsungi disainilahenduste üks peamisi omadusi aastate jooksul oli see, et see põhines samal RTL-i kavandil, mis sai alguse Exynos M1 Mongoose tuumaga. Samsung jätkas aastate jooksul tuumade funktsionaalsete plokkide täiustamist. Exynos M3 kujutas endast muudatust võrreldes esimeste iteratsioonidega, kuna see laiendas tuuma mitmes aspektis oluliselt, minnes 4-laiusest kujundusest 6-laiusele kesktuumale. (Teisalt Apple A11, A12 ja A13 dekodeerimislaius on 7 laiust, Cortex-A76, A77 ja A78 aga 4 laiust. Cortex-X1 suurendab dekodeerimise laiust 5 laiuseks.)

Aruandes avaldatakse ka Exynos M5 ja M6 kohta mõningaid avalikustamisi, mis varem ei olnud avalikud. Samsung tegi Exynos M5 puhul suuremaid muudatusi tuumade vahemälu hierarhias, asendades privaatsed L2 vahemälud uuega. suurem jagatud vahemälu, samuti avalikustada L3 struktuuri muutus 3-pangalisest kujundusest 2-pangalisele kujundusele, kus on vähem latentsusaeg.

Tühistatud M6 tuum oleks olnud mikroarhitektuuri mõttes suurem hüpe. SARC on teinud suuri täiustusi, näiteks kahekordistanud L1 juhiste ja andmevahemälu 64 KB-lt 128 KB-le - AnandTech märgib, et see on disainivalik, mida on seni rakendanud ainult Apple'i A-seeria tuumad, alustades Apple A12-st.

L2 ribalaiust kahekordistati kuni 64B/tsükli kohta, samas kui L3 puhul oleks see suurenenud 3MB-lt 4MB-le. Exynos M6 oleks olnud 8-laiune dekodeerimistuum. Nagu märkis AnandTech, oleks see dekodeerimise mõttes olnud praegu kõige laiem kaubanduslik mikroarhitektuur. Kuigi tuum oli palju laiem, ei näinud täisarvude täitmisüksused palju muutusi. Üks keerukas torujuhe lisas teise täisarvude jagamise võimaluse, samas kui laadimis-/laotorustikud jäid samaks, mis M5-l, ühe laadimisüksuse, ühe laoüksuse ja ühe laadimis-/laoüksusega. Ujukoma/SIMD torujuhtmed oleksid näinud täiendavat neljandat FMAC-funktsiooniga seadet. L1 DTLB-d suurendati 48 lehelt 128-le ja põhilist TLB-d kahekordistati 4K-lt 8K-le (32MB katvus).

Exynos M6 oleks olnud veel üks oluline muutus võrreldes eelkäijatega, suurendades südamiku korrast ära akent esimest korda pärast M3. Oleksid olnud suuremad täisarvulised ja ujukoma füüsilise registri failid ning ROB (Reorder Buffer) oleks suurenenud 228-lt 256-le. AnandTech märgib, et kohandatud Exynose tuumade üks oluline nõrkus on endiselt M5-l ja oleks olnud ka M6-l. Just selle sügavamad konveieri etapid tooksid kaasa kalli 16-tsüklilise valeennustuse karistuse, mis oli kõrgem kui ARM-i protsessori tuumadel, millel on 11-tsükliline valeennustus. SARC-paber läheb veelgi sügavamale haru ennustaja disainile, tutvustades protsessori tuuma skaleeritud räsitud perceptronil põhinevat disaini. See disain oleks aastate ja rakenduste jooksul pidevalt paranenud, parandades haru täpsust ja vähendades pidevalt valeennustusi kilojuhiste kohta (MPKI). SARC esitab tabeli, mis näitab salvestusstruktuuride hulka, mille haru ennustaja esiotsas võtab. Tuuma eellaadimistehnoloogiaid kirjeldati üksikasjalikult ka artiklis, mis hõlmab µOP vahemälu kasutuselevõttu. M5-s, samuti meeskonna jõupingutusi tugevdada tuumit selliste turvaaukude vastu nagu Spectre.

SARC kirjeldas dokumendis ka jõupingutusi mälu latentsuse parandamiseks kohandatud Exynose tuumades. Exynos M4-s hõlmas SARC-i meeskond koormus-koormuse kaskaadimehhanismi, mis vähendas efektiivse L1 tsükli latentsust neljalt tsüklilt kolmele järgnevatel koormustel. M4 tuum tutvustas ka uue liidesega tee ümbersõitu protsessori tuumadest otse mälukontrolleriteni, mis vältis liiklust läbi ühenduse. Vastavalt AnandTech, see selgitas mõningaid suuremaid latentsusaja täiustusi, mida väljaanne suutis Exynos 9820 abil mõõta. Exynos M5 võttis kasutusele spekulatiivse vahemälu otsimise möödaviigu, mis väljastas taotluse nii ühenduse kui ka vahemälu siltidele samaaegselt. See võib-olla säästaks latentsusaega vahemälu puudumise korral, kuna mälupäring on pooleli. Ka keskmist koormuse latentsust parandati põlvkondade jooksul pidevalt 14,9 tsüklilt M1-l 8,3 tsüklile M6-l.

Kuigi ülaltoodud mikroarhitektuursed omadused on üsna tehnilised, on protsessori entusiastid tuttavad terminiga Instructions Per Clock (IPC), mis tähendab per-MHz. jõudlus ühe lõime CPU jõudluses (see on peamine tegur, mis määrab ühe lõime CPU jõudluse, teine ​​tegur on tuum). Täisarvuline IPC ja ujukoma IPC on mõlemad IPC määrajad. SARC-i meeskonnal õnnestus saada M1-lt M6-le keskmiselt 20% aastaseid täiustusi. Eelkõige M3 näitas IPC-s suurt protsentuaalset paranemist, kuigi selle alla andsid teised tegurid. Exynos M5 näitas IPC 15–17% paranemist, samas kui IPC parendus avaldamata Exynos M6 jaoks on avalikustatud, et M1 keskmine on 2,71 versus 1,06, mis tähendab 20% paranemist võrreldes M5.

Ajalehe saatejuht Brian Grayson vastas küsimuste ja vastuste seansi ajal küsimustele programmi tühistamise kohta. Ta ütles, et meeskond on alati olnud eesmärgi ja ajakava järgi ning jõudlust ja tõhusust iga põlvkonnaga parandanud. (Kas see tähendab, et eesmärgid ei olnud alguses piisavalt kõrged?). Meeskonna suurim raskus oli seevastu tuleviku suhtes äärmiselt ettevaatlik olemine disaini muutused, kuna meeskonnal polnud ressursse nullist alustamiseks või a täielikult ümber kirjutamiseks blokk. Tagantjärele mõeldes oleks meeskond mõne disainisuunaga varem erinevaid valikuid teinud. Vastupidiselt on ARM-il mitu CPU meeskonda, kes töötavad erinevates kohtades, mis tegelikult konkureerivad üksteisega. See võimaldab "põhjalikku ümberkujundamist", näiteks Cortex-A76. The Cortex-A77 ja Cortex-A78 on A76 otsesed järglased.

SARC-i meeskonnal oli ideid tulevaste tuumade (nt hüpoteetilise Exynos M7) täiustamiseks. Kuid väidetavalt otsustas see kohandatud põhiprogrammi tühistada Samsungi väga kõrgel tasemel inimene. Nagu AnandTech märgib, et kohandatud tuumad ei olnud energiatõhususe, jõudluse ja pindalakasutuse (PPA) osas konkurentsivõimelised, võrreldes ühegi konkreetse põlvkonna ARM-i protsessoritega. Eelmisel kuul kuulutas ARM välja Cortex-X Custom programmi, mis sisaldab uut Cortex-X1, järgmise põlvkonna tuum, mis on mõeldud 2021. aasta mobiilseadmetele. Selle disainifilosoofia on murda Cortex-A PPA ümbris ja minna selle asemel absoluutse jõudluse poole. Seetõttu oleks Exynos M6-l olnud sellega raske konkureerida. Sellegipoolest näib, et Samsung ei kohanda Cortex-X1 ja läheb Exynos 992-s ainult kombinatsiooniga Cortex-A78 + Cortex-A55 – see võidakse siiski kasutusele võtta järgmise aasta Galaxy S lipulaevas.

SARC-i meeskond kavandab endiselt Samsung Systems LSI jaoks kohandatud ühendusi ja mälukontrollereid. See töötas ka kohandatud GPU arhitektuuride, kuid Samsung Systems LSI kallal sõlmis lepingu AMD-ga kasutada alates 2021. aastast tulevastes Exynose GPU-des AMD järgmise põlvkonna (Next graphics architecture) RDNA GPU arhitektuuri.

Üldiselt oli kohandatud CPU põhiprojekt mobiilikiibimüüjatele valgustav õppetund selle kohta, mis võib valesti minna. SARC CPU meeskonnal olid suured ambitsioonid konkureerida Apple'iga, mis on mobiilse protsessori ruumi vaieldamatu liider. Kahjuks ei suutnud see ARM-iga konkureerida, Apple'iga rääkimata. Probleemid oleks võinud laheneda, kuid aastast aastasse jäid SARCi jõupingutused sammu või paar maas ja see kajastus negatiivselt selliste toodete tarnimisel nagu Samsung Galaxy S9 Exynos 9810 variandid. Nüüd kasutavad kõik suuremad Androidi mobiilikiibi müüjad alates 2021. aastast ARM-i aktsiate CPU IP-d ning sellesse loendisse kuuluvad Qualcomm, Samsung, MediaTek ja HiSilicon. Võitlus toimub Apple'i tuumadega, nagu Cortex-X1, mitte nullist loodud kohandatud ARM-i tuumadega.


Allikas: Samsung Exynose CPU arhitektuuri areng | Läbi: AnandTech