Samsung Austin R&D Center paljastaa yksityiskohtia julkaisemattomasta Exynos M6 -suorittimen mikroarkkitehtuuristaan

click fraud protection

Samsung Austin Research & Development Center (SARC) on julkaissut paperin, jossa kerrotaan perutun Exynos M6:n mukautetun CPU-ytimen mikroarkkitehtuurista.

Tiedämme, että mukautettu CPU-ydinprojekti Samsungin Austinin tutkimus- ja kehityskeskuksessa (SARC) päättyi lokakuussa 2019. Hankkeelle, jota edistettiin niin kovasti, kun Exynos M1:tä sisältävä Exynos 8890 julkaistiin vuonna 2016, lopputulos oli surullinen. Miksi SARC hajotti projektin? Mukautettu Exynos M5 -ydin, joka on esillä Exynos 990 SoC on viimeinen Samsungin suunnittelema täysin räätälöity ydin lähitulevaisuudessa, ja jälkikäteen ajatellen on helppo ymmärtää, miksi Samsung luopui mukautetuista ytimistä, koska ne eivät yksinkertaisesti olleet tarpeeksi kilpailukykyisiä. Nyt tiedetään, että Exynos M5 ydin sillä on 100 % tehonkulutusvaje ARM: n Cortex-A77:ää vastaan, mikä kertoo paljon. Sen ei kuitenkaan tarvinnut mennä niin. Exynos M1- ja Exynos M2 -mallit olivat lupaavia, ja mukautettua CPU-ydinprojektia pidettiin tuolloin tärkeänä mobiiliprosessoritilan kilpailun vuoksi. Exynos M3 oli suuri taantuma huolimatta merkittävästä IPC: n noususta ja

Exynos M4 ja Exynos M5 ei pysynyt ARM: n varastossa olevan prosessorin IP: n tahdissa. Mitkä olivat mikroarkkitehtoniset muutokset seuraavassa mukautetussa ytimessä, peruutetussa Exynos M6:ssa?

Tähän asti vastausta kysymykseen ei tiedetty. Nyt kuitenkin SARC-suorittimen kehitystiimi on esittänyt paperin nimeltä "Samsung Exynos CPU Architecture -evoluutio" (jonka saimme tietää AnandTech) International Symposium for Computer Architecture (ISCA), joka on IEEE-konferenssi. Se paljastaa paljon yksityiskohtia aiemmista Exynos M -sarjan prosessoreista sekä peruutetun Exynos M6:n arkkitehtuurista.

SARCin prosessorikehitystiimin esittelemä paperi kertoo tiimin ponnisteluista sen kahdeksanvuotisen olemassaolon aikana ja paljastaa myös tärkeimmät yksityiskohdat mukautetuista ARM-ytimistä Exynos M1:stä. (Mongoose) nykyisen sukupolven Exynos M5:een (Lion) ja jopa julkaisemattomaan Exynos M6 -suorittimeen, jonka olisi ennen peruuttamista odotettu olevan Exynos 990:n 2021 SoC: ssa. seuraaja.

Samsungin SARC CPU -tiimi perustettiin vuonna 2011 kehittämään mukautettuja CPU-ytimiä, jotka sitten esiteltiin Samsung Systemsissä. LSI: n Exynos SoC: t. Ensimmäinen mukautettua ydintä käyttänyt Exynos SoC oli Exynos 8890, joka esiteltiin vuoden 2016 Samsung Galaxyssa. S7. Mukautetut ytimet pysyivät osana Exynos SoC: ia Exynos 990:een asti Exynos M5 -ytimien kanssa, jotka esiintyivät Exynos-käyttöisissä Samsung Galaxy S20 -versioissa. (Tuleva Exynos 992, joka todennäköisesti esiintyy Galaxy Note 20:ssä, sen odotetaan sisältävän ARM-laitteita Cortex-A78 eikä Exynos M5.) SARC oli kuitenkin saanut valmiiksi Exynos M6 -arkkitehtuurin ennen kuin CPU-tiimi oli sai tiedon sen purkamisesta lokakuussa 2019, jolloin hajottaminen astui voimaan Joulukuu.

ISCA-paperissa on yleiskatsaus taulukkoon mikroarkkitehtonisista eroista Samsungin mukautettujen suoritinytimien välillä Exynos M1:stä Exynos M6:een. Yhtiö oli paljastanut osan suunnittelun tunnetuista ominaisuuksista alkuperäisessä M1 CPU -arkkitehtuurin syväsukelluksessa HotChips 2016 -tapahtumassa. Samsung esitteli HotChips 2018 -messuilla syvän Exynos M3:n. Exynos M4:n ja Exynos M5:n ytimien arkkitehtuuri on myös tarkennettu, samoin kuin M6:n.

Lähde: SARC

AnandTech panee merkille, että Samsungin vuosien mittaan suunniteltujen mallien yksi tärkeimmistä ominaisuuksista oli se, että se perustui samaan RTL-suunnitelmaan, joka aloitettiin Exynos M1 Mongoose -ytimellä. Samsung jatkoi parannusten tekemistä ydinten toiminnallisiin lohkoihin vuosien ajan. Exynos M3 edusti muutosta ensimmäisiin iteraatioihin verrattuna, koska se laajensi ydintä huomattavasti useissa suhteissa siirtyen 4-leveästä suunnittelusta 6-leveäksi keskiytimeksi. (Toisaalta Applen A11, A12 ja A13 dekoodausleveys on 7 leveä, kun taas Cortex-A76, A77 ja A78 on 4 leveä. Cortex-X1 lisää dekoodauksen leveyttä 5 leveyteen.)

Raportti sisältää myös joitain Exynos M5:n ja M6:n paljastuksia, jotka eivät olleet julkisia aiemmin. Samsung teki Exynos M5:ssä suurempia muutoksia ytimien välimuistihierarkiaan ja korvasi yksityiset L2-välimuistit uudella. suuremman jaetun välimuistin sekä L3-rakenteen muutoksen paljastaminen 3 pankin mallista 2 pankin malliin, jossa on vähemmän viive.

Peruutettu M6-ydin olisi ollut suurempi hyppy mikroarkkitehtuurin kannalta. SARC oli tehnyt suuria parannuksia, kuten kaksinkertaistanut L1-käskyt ja datavälimuistit 64 kt: sta 128 kilotavuun - AnandTech huomauttaa, että tämä on suunnitteluvalinta, joka on toistaiseksi toteutettu vain Applen A-sarjan ytimillä, alkaen Apple A12:sta.

L2:n kaistanleveys kaksinkertaistettiin 64 B/sykliin asti, kun taas L3:n kaistanleveys olisi kasvanut 3 megatavusta 4 megatavuun. Exynos M6 olisi ollut 8-leveä dekoodausydin. Kuten huomautti AnandTech, tämä olisi ollut laajin tällä hetkellä tunnettu kaupallinen mikroarkkitehtuuri dekoodauksen suhteen. Vaikka ydin oli paljon leveämpi, kokonaislukujen suoritusyksiköt eivät kuitenkaan nähneet paljon muutosta. Yksi monimutkainen putkisto lisäsi toisen kokonaislukujakokyvyn, kun taas kuorma/varasto-putkilinjat pysyivät samoina kuin M5:ssä yksi latausyksikkö, yksi varastoyksikkö ja yksi kuorma/varastoyksikkö. Liukuluku/SIMD-putkistojen yhteydessä olisi nähty neljäs ylimääräinen yksikkö FMAC-ominaisuuksilla. L1 DTLB nostettiin 48 sivusta 128 sivuun, ja pää-TLB kaksinkertaistettiin 4K-sivusta 8K-sivuksi (32 Mt: n peitto).

Exynos M6 olisi ollut toinen merkittävä muutos edeltäjiinsä verrattuna, kun ytimen epäkunnossa olevaa ikkunaa olisi lisätty ensimmäistä kertaa M3:n jälkeen. Fyysisiä kokonaisluku- ja liukulukurekisteritiedostoja olisi ollut suurempia, ja ROB (Reorder Buffer) olisi kasvanut 228:sta 256:een. AnandTech panee merkille, että yksi tärkeä räätälöityjen Exynos-ytimien heikkous on edelleen M5:ssä ja se olisi ollut myös M6:ssa. Sen syvemmät vaiheet johtaisivat kalliiseen 16-jakson virhearvioon, joka on korkeampi kuin ARM: n CPU-ytimillä, joissa on 11-syklin virhearviointi. SARC-paperi menee entistä syvemmälle haaran ennustajan suunnitteluun esitellen CPU-ytimen Scaled Hashed Perceptron -pohjaista suunnittelua. Tämä suunnittelu olisi parantunut jatkuvasti vuosien ja toteutusten myötä, parantaen haaran tarkkuutta ja vähentäen jatkuvasti virheellisiä ennusteita kilo-käskyjä (MPKI) kohti. SARC esittää taulukon, joka näyttää tallennusrakenteiden määrän, jonka haaran ennustaja käyttää käyttöliittymässä. Ytimen esihakuteknologiat esitettiin myös yksityiskohtaisesti asiakirjassa, joka kattaa µOP-välimuistin käyttöönoton M5:ssä sekä tiimin ponnistelut kovettamaan ydintä tietoturva-aukkoja, kuten esim. Peikko.

SARC selosti myös pyrkimyksiä parantaa muistilatenssia mukautetuissa Exynos-ytimissä. Exynos M4:ssä SARC-tiimi sisälsi kuorma-kuormituskaskadimekanismin, joka pienensi tehokkaan L1-jakson latenssin neljästä jaksosta kolmeen seuraavilla kuormituksilla. M4-ydin esitteli myös polun ohituksen, jossa oli uusi rajapinta CPU-ytimistä suoraan muistiohjaimiin, mikä vältti liikennettä yhteenliittämisen kautta. Mukaan AnandTech, tämä selitti osan suuremmista latenssiparannuksista, joita julkaisu pystyi mittaamaan Exynos 9820:lla. Exynos M5 esitteli spekulatiivisen välimuistihaun ohituksen, joka lähetti pyynnön sekä yhteenliittämiselle että välimuistin tunnisteille samanaikaisesti. Tämä mahdollisesti säästäisi viivettä välimuistin puuttuessa, koska muistipyyntö on käynnissä. Keskimääräistä kuormitusviivettä parannettiin myös jatkuvasti sukupolvien ajan 14,9 jaksosta M1:ssä 8,3 jaksoon M6:ssa.

Vaikka yllä olevat mikroarkkitehtoniset ominaisuudet ovat melko teknisiä, CPU-harrastajat tuntevat termin Instructions Per Clock (IPC), joka tarkoittaa per-MHz. suorituskyky yksisäikeisen suorittimen suorituskyvyssä (se on ensisijainen yksisäikeisen suorittimen suorituskyvyn määräävä tekijä, ja toinen tekijä on CPU: n kellonopeus ydin). Kokonaisluku IPC ja liukuluku IPC ovat molemmat IPC: n määrääviä tekijöitä. SARC-tiimi onnistui saamaan keskimäärin 20 % vuosittaiset parannukset M1:stä M6:een. Erityisesti M3 edusti suurta prosentuaalista parannusta IPC: ssä, vaikka muut tekijät pettyivätkin. Exynos M5 edusti 15-17 % parannusta IPC: ssä, kun taas IPC: n parannus julkaisemattomassa Exynos M6:ssa on ilmoitettu olevan M1:n keskiarvo 2,71 verrattuna 1,06:een, mikä on 20 % parannus M5.

Lehden juontaja Brian Grayson vastasi kysymyksiin ohjelman peruuttamisesta Q&A-istunnon aikana. Hän sanoi, että tiimi oli aina ollut tavoitteessa ja aikataulussa parantaen suorituskykyä ja tehokkuutta jokaisen sukupolven myötä. (Tarkoittaako tämä, että tavoitteet eivät olleet tarpeeksi korkealla?). Joukkueen suurin vaikeus toisaalta oli erittäin varovainen tulevaisuuden suhteen suunnittelumuutoksia, koska tiimillä ei ollut resursseja aloittaa tyhjästä tai kirjoittaa kokonaan uudelleen a lohko. Jälkikäteen ajatellen tiimi olisi tehnyt erilaisia ​​valintoja aiemmin joidenkin suunnittelusuuntien kanssa. Sitä vastoin ARM: ssa on useita eri paikoissa työskenteleviä prosessoriryhmiä, jotka todella kilpailevat keskenään. Tämä mahdollistaa "pohjaiset uudelleensuunnittelut", kuten Cortex-A76. The Cortex-A77 ja Cortex-A78 ovat A76:n suoria seuraajia.

SARC-tiimillä oli ideoita parannuksista tuleviin ytimiin, kuten hypoteettiseen Exynos M7:ään. Se oli kuitenkin oletettavasti erittäin korkealla oleva Samsungin henkilö, joka päätti peruuttaa mukautetun ydinohjelman. Kuten AnandTech huomauttaa, että mukautetut ytimet eivät olleet kilpailukykyisiä virrantehokkuuden, suorituskyvyn ja alueen käytön (PPA) suhteen verrattuna ARM: n minkään sukupolven prosessoreihin. Viime kuussa ARM julkisti Cortex-X Custom -ohjelman, joka sisältää uuden Cortex-X1, seuraavan sukupolven ydin, joka on tarkoitettu vuoden 2021 mobiililaitteille. Sen suunnittelufilosofia on rikkoa Cortex-A PPA-kuori ja pyrkiä sen sijaan absoluuttiseen suorituskykyyn. Exynos M6:lla olisi siis ollut vaikea kilpailla sen kanssa. Silti näyttää siltä, ​​​​että Samsung ei mukauta Cortex-X1:tä ja käy vain Cortex-A78 + Cortex-A55 -yhdistelmän kanssa Exynos 992:ssa - se voidaan kuitenkin ottaa käyttöön ensi vuoden Galaxy S -lippulaivassa.

SARC-tiimi suunnittelee edelleen mukautettuja liitäntöjä ja muistiohjaimia Samsung Systems LSI: lle. Se työskenteli myös mukautettujen GPU-arkkitehtuurien, mutta Samsung Systems LSI: n, parissa allekirjoitti sopimuksen AMD: n kanssa käyttää AMD: n seuraavan sukupolven (Next grafiikkaarkkitehtuuri) RDNA GPU -arkkitehtuuria tulevissa Exynos GPU: issa vuodesta 2021 alkaen.

Kaiken kaikkiaan mukautettu CPU-ydinprojekti oli valaiseva oppitunti mobiilisirujen toimittajille siitä, mikä voi mennä pieleen. SARC CPU -tiimillä oli korkeat tavoitteet kilpailla Applen kanssa, joka on kiistaton johtaja mobiilisuorittimissa. Valitettavasti se ei pystynyt kilpailemaan ARM: n kanssa, puhumattakaan Applesta. Ongelmat olisi voitu ratkaista, mutta vuosi toisensa jälkeen SARC: n ponnistelut olivat askeleen tai kaksi jäljessä, ja se heijastui kielteisesti toimitustuotteisiin, kuten Samsung Galaxy S9:n Exynos 9810 -muunnelmiin. Nyt kaikki suuret Android-mobiilisirujen toimittajat käyttävät ARM: n osakeprosessorin IP-osoitetta vuodesta 2021 lähtien, ja tähän luetteloon kuuluvat Qualcomm, Samsung, MediaTek ja HiSilicon. Taistelu viedään Applelle Cortex-X1:n kaltaisilla ytimillä, ei tyhjästä suunnitelluilla mukautetuilla ARM-ytimillä.


Lähde: Samsung Exynos -suoritinarkkitehtuurin kehitys | Kautta: AnandTech