Výskumné a vývojové centrum Samsung Austin odhaľuje podrobnosti o svojej nevydanej mikroarchitektúre CPU Exynos M6

click fraud protection

Výskumné a vývojové centrum Samsung Austin (SARC) zverejnilo dokument podrobne o mikroarchitektúre zrušeného vlastného CPU jadra Exynos M6.

Vieme, že vlastný projekt jadra CPU v Austine Research & Development Center (SARC) spoločnosti Samsung sa skončilo v októbri 2019. Pre projekt, ktorý bol s takou fanfárou propagovaný uvedením Exynos 8890 s Exynos M1 v roku 2016, to bol smutný koniec. Prečo SARC projekt zložil? Vlastné jadro Exynos M5, ktoré sa nachádza v Exynos 990 SoC je posledným plne prispôsobeným jadrom navrhnutým spoločnosťou Samsung v dohľadnej budúcnosti a pri spätnom pohľade je ľahké pochopiť, prečo sa spoločnosť Samsung vzdala vlastných jadier, pretože jednoducho neboli dostatočne konkurencieschopné. Teraz je známe, že jadro Exynos M5 má 100% deficit energetickej účinnosti proti Cortex-A77 od ARM, ktorý hovorí veľa. Napriek tomu to tak nemuselo dopadnúť. Návrhy Exynos M1 a Exynos M2 ukázali určitý prísľub a projekt vlastného jadra CPU sa v tom čase považoval za dôležitý v záujme konkurencie v priestore mobilných CPU. Exynos M3 bol veľkým poklesom napriek veľkému nárastu IPC a

Exynos M4 a Exynos M5 nedokázal držať krok s IP CPU CPU spoločnosti ARM. Aké boli mikroarchitektonické zmeny v ďalšom vlastnom jadre, zrušenom Exynos M6?

Doteraz bola odpoveď na túto otázku neznáma. Teraz však vývojový tím CPU SARC predstavil dokument s názvom „Vývoj architektúry CPU Samsung Exynos“ (o ktorom sme sa dozvedeli prostredníctvom AnandTech) na International Symposium for Computer Architecture (ISCA), čo je konferencia IEEE. Odhaľuje veľa podrobností o predchádzajúcich procesoroch Exynos série M, ako aj o architektúre zrušeného Exynos M6.

Dokument prezentovaný tímom vývoja CPU SARC podrobne opisuje úsilie tímu počas jeho osemročnej existencie a tiež odhaľuje kľúčové detaily vlastných jadier ARM od Exynos M1. (Mongoose) na súčasnú generáciu Exynos M5 (Lion) a dokonca aj nevydaný procesor Exynos M6, od ktorého by sa pred zrušením očakávalo, že bude súčasťou SoC Exynos 990 na rok 2021. nástupcu.

Tím CPU SARC spoločnosti Samsung bol založený v roku 2011 s cieľom vyvinúť vlastné jadrá CPU, ktoré sa potom objavili v systémoch Samsung. SoC Exynos od LSI. Prvý Exynos SoC, ktorý používal vlastné jadro, bol Exynos 8890, ktorý bol predstavený v roku 2016 v Samsung Galaxy. S7. Vlastné jadrá zostali súčasťou Exynos SoC až do Exynos 990 s jadrami Exynos M5, ktoré sa vyskytovali vo variantoch Samsung Galaxy S20 poháňaných Exynosom. (Nadchádzajúce Exynos 992, ktorý bude pravdepodobne súčasťou Galaxy Note 20, sa očakáva, že bude obsahovať ARM Cortex-A78 a nie Exynos M5.) SARC však dokončil architektúru Exynos M6 skôr, ako tím CPU dostali správy o rozpustení v októbri 2019, pričom rozpad nadobudol účinnosť v r December.

Dokument ISCA obsahuje prehľadnú tabuľku mikroarchitektonických rozdielov medzi vlastnými jadrami CPU Samsung od Exynos M1 po Exynos M6. Niektoré z dobre známych charakteristík dizajnu spoločnosť odhalila vo svojom prvom hĺbkovom ponore do architektúry CPU M1 na podujatí HotChips 2016. Na veľtrhu HotChips 2018 spoločnosť Samsung podrobne preskúmala model Exynos M3. Podrobná bola aj architektúra jadier Exynos M4 a Exynos M5, ako aj M6.

Zdroj: SARC

AnandTech poznamenáva, že jednou z kľúčových charakteristík návrhov spoločnosti Samsung v priebehu rokov bolo to, že boli založené na rovnakom pláne RTL, ktorý sa začal s jadrom Exynos M1 Mongoose. Samsung v priebehu rokov pokračoval vo vylepšovaní funkčných blokov jadier. Exynos M3 predstavoval zmenu oproti prvým iteráciám, pretože podstatne rozšíril jadro v niekoľkých ohľadoch, pričom prešiel zo 4-širokého dizajnu na 6-široké stredné jadro. (Apple A11, A12 a A13, na druhej strane, majú šírku dekódovania 7, zatiaľ čo Cortex-A76, A77 a A78 majú šírku 4. Cortex-X1 zväčšuje šírku dekódovania na šírku 5.)

Správa tiež obsahuje niektoré zverejnenia, ktoré predtým neboli verejné, týkajúce sa Exynos M5 a M6. V prípade modelu Exynos M5 spoločnosť Samsung vykonala väčšie zmeny v hierarchii vyrovnávacej pamäte jadier a nahradila súkromné ​​vyrovnávacie pamäte L2 novými. väčšia zdieľaná vyrovnávacia pamäť, ako aj zverejnenie zmeny v štruktúre L3 z 3-bankového dizajnu na 2-bankový dizajn s menšou latencia.

Zrušené jadro M6 by bolo z hľadiska mikroarchitektúry väčším skokom. SARC urobil veľké vylepšenia, ako je zdvojnásobenie inštrukcií L1 a dátových vyrovnávacích pamätí zo 64 KB na 128 KB - AnandTech poznamenáva, že ide o dizajnovú voľbu, ktorá bola doteraz implementovaná iba jadrami Apple série A, počnúc Apple A12.

L2 bola zdvojnásobená vo svojich možnostiach šírky pásma až na 64B/cyklus, zatiaľ čo L3 by zaznamenala nárast z 3MB na 4MB. Exynos M6 by bol 8-široké dekódovacie jadro. Ako poznamenal AnandTech, toto by bola najširšia komerčná mikroarchitektúra, ktorá je v súčasnosti známa z hľadiska dekódovania. Avšak aj keď bolo jadro oveľa širšie, celočíselné vykonávacie jednotky nezaznamenali veľa zmien. Jedno zložité potrubie pridalo možnosť druhého celočíselného delenia, zatiaľ čo potrubia nakládky/skladu zostali rovnaké ako pri M5 s jednou nákladovou jednotkou, jednou skladovou jednotkou a jednou zaťažovacou/skladovou jednotkou. Potrubia s plávajúcou rádovou čiarkou/SIMD by videli ďalšiu štvrtú jednotku s funkciami FMAC. DTLB L1 sa zvýšilo zo 48 strán na 128 strán a hlavná TLB sa zdvojnásobila zo 4 000 strán na 8 000 strán (32 MB pokrytie).

Exynos M6 by predstavoval ďalšiu významnú zmenu od svojich predchodcov tým, že by sa v porovnaní s prvým od modelu M3 zvýšilo okno mimo poradia jadra. Existovali by väčšie celočíselné súbory a súbory fyzického registra s pohyblivou rádovou čiarkou a ROB (Reorder Buffer) by sa zvýšil z 228 na 256. AnandTech poznamenáva, že jedna dôležitá slabina vlastných jadier Exynos je stále prítomná na M5 a bola by prítomná aj na M6. Bolo by to jeho hlbšie potrubie, ktoré by viedlo k drahej 16-cyklovej chybnej predpovedi, ktorá bola vyššia ako CPU jadrá ARM, ktoré majú 11-cyklovú chybnú predikciu. Dokument SARC ide ešte hlbšie do návrhu prediktora vetvy a predstavuje dizajn jadra CPU založený na Scaled Hashed Perceptron. Tento dizajn by sa v priebehu rokov a implementácií neustále zdokonaľoval, čím by sa zlepšila presnosť vetvy a neustále sa znižovali nesprávne predpovede na kilogram inštrukcií (MPKI). SARC predstavuje tabuľku, ktorá ukazuje množstvo úložných štruktúr, ktoré prediktor vetvy zaberá v rámci front-endu. V článku boli tiež podrobne opísané technológie predbežného načítania jadra, ktoré sa týkali zavedenia vyrovnávacej pamäte µOP v M5, ako aj snahy tímu posilniť jadro proti bezpečnostným zraniteľnostiam, ako napr. Spectre.

Snahy o zlepšenie latencie pamäte vo vlastných jadrách Exynos tiež podrobne popísal SARC v článku. V Exynos M4 tím SARC zahrnul mechanizmus kaskády zaťaženia a zaťaženia, ktorý znížil efektívnu latenciu cyklu L1 zo štyroch cyklov na tri pri nasledujúcich zaťaženiach. Jadro M4 tiež zaviedlo obchádzanie cesty s novým rozhraním od jadier CPU priamo k radičom pamäte, čím sa vyhlo premávke cez prepojenie. Podľa AnandTech, to vysvetľuje niektoré z väčších zlepšení latencie, ktoré bola publikácia schopná merať s Exynos 9820. Exynos M5 zaviedol špekulatívne obchádzanie vyhľadania vyrovnávacej pamäte, ktoré súčasne vydalo požiadavku na prepojenie aj na značky vyrovnávacej pamäte. To by mohlo ušetriť na latencii v prípade vynechania vyrovnávacej pamäte, pretože prebieha požiadavka na pamäť. Priemerná latencia zaťaženia sa počas generácií neustále zlepšovala zo 14,9 cyklov na M1 na 8,3 cyklov na M6.

Zatiaľ čo vyššie uvedené mikroarchitektonické charakteristiky sú dosť technické, nadšenci CPU budú oboznámení s pojmom Instructions Per Clock (IPC), čo znamená na MHz. výkon pri výkone jednovláknového procesora (je to primárny hlavný faktor určujúci výkon jednovláknového procesora, pričom druhým faktorom je rýchlosť hodín jadro). Celočíselné IPC a IPC s pohyblivou rádovou čiarkou sú determinantmi IPC. Tímu SARC sa podarilo dosiahnuť v priemere 20% ročných zlepšení z M1 na M6. Najmä M3 predstavovalo veľké percentuálne zlepšenie IPC, aj keď ho sklamali iné faktory. Exynos M5 predstavoval 15-17% zlepšenie IPC, zatiaľ čo zlepšenie IPC pre nevydaný Exynos M6 bolo zverejnené, že má priemer 2,71 oproti 1,06 pre M1, čo predstavuje 20 % zlepšenie oproti M5.

Brian Grayson, moderátor novín, odpovedal na otázky o zrušení programu počas relácie otázok a odpovedí. Povedal, že tím bol vždy na cieli a podľa plánu so zvyšovaním výkonu a efektívnosti s každou generáciou. (Znamená to, že ciele neboli v prvom rade dostatočne vysoké?). Na druhej strane, najväčší problém tímu spočíval v tom, že bol mimoriadne opatrný s budúcnosťou zmeny dizajnu, pretože tím nemal prostriedky na to, aby začal od nuly alebo aby úplne prepísal a blokovať. Pri spätnom pohľade by tím v minulosti urobil rôzne rozhodnutia s niektorými smermi dizajnu. V ostrom kontraste má ARM viacero tímov CPU pracujúcich na rôznych miestach, ktoré si navzájom konkurujú. To umožňuje „základné prerobenia“, ako napr Cortex-A76. The Cortex-A77 a Cortex-A78 sú priamymi nástupcami A76.

Tím SARC mal nápady na vylepšenia pre nadchádzajúce jadrá, ako je hypotetický Exynos M7. Bol to však údajne veľmi vysoko postavený človek v spoločnosti Samsung, ktorý sa rozhodol zrušiť vlastný základný program. Ako AnandTech poznamenáva, že vlastné jadrá neboli konkurencieschopné z hľadiska energetickej účinnosti, výkonu a využitia oblasti (PPA) v porovnaní s CPU ARM akejkoľvek konkrétnej generácie. Minulý mesiac spoločnosť ARM oznámila program Cortex-X Custom s novinkou Cortex-X1, jadro novej generácie určené pre mobilné zariadenia na rok 2021. Má filozofiu dizajnu prelomiť obálku Cortex-A PPA a namiesto toho dosiahnuť absolútny výkon. Exynos M6 by s ním mal preto ťažké konkurovať. Napriek tomu sa zdá, že Samsung neprispôsobí Cortex-X1 a pôjde iba s kombináciou Cortex-A78 + Cortex-A55 v Exynos 992 – môže byť však prijatá v budúcoročnej vlajkovej lodi Galaxy S.

Tím SARC v súčasnosti stále navrhuje vlastné prepojenia a pamäťové radiče pre Samsung Systems LSI. Pracovalo sa aj na vlastných architektúrach GPU, ale Samsung Systems LSI podpísal zmluvu s AMD používať architektúru GPU RDNA novej generácie (Next graphics architecture) v budúcich GPU Exynos od roku 2021.

Celkovo bol projekt vlastného jadra CPU poučnou lekciou pre predajcov mobilných čipov o tom, čo sa môže pokaziť. Tím CPU SARC mal vysoké ambície konkurovať spoločnosti Apple, ktorá je nesporným lídrom v oblasti mobilných CPU. Bohužiaľ, nedokázal konkurovať ARM, bez ohľadu na Apple. Problémy mohli byť vyriešené, ale rok čo rok boli snahy SARC o krok alebo dva pozadu, a Nepriaznivo sa to prejavilo pri preprave produktov, ako sú varianty Exynos 9810 Samsungu Galaxy S9. Teraz budú všetci hlavní predajcovia mobilných čipov Android používať IP CPU CPU od ARM od roku 2021 a tento zoznam zahŕňa Qualcomm, Samsung, MediaTek a HiSilicon. Boj sa odohrá spoločnosti Apple s jadrami, ako je Cortex-X1, nie vlastnými jadrami ARM navrhnutými od začiatku.


Zdroj: Evolúcia architektúry CPU Samsung Exynos | Cez: AnandTech