ARM обявява Cortex-A78 CPU, Mali-G78 GPU, Ethos N78 NPU

click fraud protection

ARM обяви процесорната архитектура Cortex-A78, както и графичния процесор Mali-G78. Двата са наследници на Cortex-A77 CPU и Mali-G77 GPU.

Като част от своя TechDay 2020, ARM направи три големи съобщения. Главното основно съобщение е програмата Cortex-X Custom (CXC), съдържаща новото Cortex-X1 CPU ядро. Cortex-X1 осигурява по-висока пикова производителност от който и да е CPU от серията Cortex-A, като същевременно нарушава обвивката на PPA на серията Cortex-A. Другите две съобщения, които ARM направиха, бяха много по-рутинни. Процесорът Cortex-A78 и процесорът Mali-G78 вече са официални и действат като наследници на Cortex-A77 Процесорът и Мали-G77 CPU съответно. Нека разгледаме тези съобщения едно по едно:

ARM Cortex-A78

С Cortex-A78 ключовият фокус на ARM беше върху изискванията за ефективност, като например изисквания за по-дълъг живот на батерията, нови мобилни форм фактори и свиващи се области на SoC. Устойчивата производителност е ключовата дума тук за Cortex-A78, докато Cortex-X1 се стреми към звездите с целта си да постигне максимална краткосрочна пикова производителност.

ARM казва, че Cortex-78 представлява „най-доброто“ от своя двигател за висока производителност при най-добра ефективност в класа. Това също не са празни приказки. През последните няколко години Cortex-A76 и Cortex-A77 показаха най-добрата в класа енергийна ефективност и най-доброто в класа PPA (производителност, мощност и площ). Те нямаха необходимия дизайн, за да се конкурират с чиповете от A-серията на Apple, но поради по-ниските генерирана енергия, тяхната енергийна ефективност е в най-лошия случай същата като на Apple, а в най-добрия дори по-висока от Ябълка.

Подобренията в производителността на A78 покриват случаите на използване на производителност, комуникация, сигурност и задачи, базирани на камера, усъвършенствани игри, XR и базирани на ML изживявания.

В постоянната производителност Cortex-A78 носи двуцифрени подобрения. Той осигурява 20% подобрение в устойчивата производителност в сравнение със своя предшественик, Cortex-A77, в същата мобилна обвивка на топлинна мощност. AnandTech прегледа числата и обясни, че цифрата от 20% е комбинация от 7% по-висок IPC спрямо A77, докато останалите 13% подобрения в производителността се приписват на 5n процес, на който ще бъдат всички SoC от следващо поколение измислени. ARM отбелязва значението на устойчивата производителност, като казва, че мобилните устройства имат ограничен капацитет за разсейва мощността и поддържаната производителност избягва ограничаването на мощността за приложения, изискващи много мощност. Това, от своя страна, подобрява UX, като избягва забавянето или падането на рамката.

Натискането на енергийната ефективност се превръща в по-висока енергийна ефективност, тъй като двете са свързани, но различни концепции. Според ARM, в точки с висока производителност, като тези, които са пиковите за настоящите мобилни устройства, Cortex-A78 предлага 50% икономия на енергия спрямо устройства от 2019 г. при едно и също изпълнение като Cortex-A77. Това е впечатляващо и прави A78 най-енергийно ефективният Cortex-A CPU ARM, който някога е проектирал.

Фокусът на ARM върху устойчивата производителност ще бъде от полза за следващата вълна от мобилни иновации, като нови форм фактори (сгъваеми телефони), както и подобрено „дигитално потапяне“ чрез 5G. Проверката на реалността е, че това не е така за сегашното поколение и няма да има голямо значение дори за следващото поколение.

Един случай на употреба, който ще бъде подобрен от Cortex-A78, е AAA мобилна игра, когато се комбинира със собствения нов Mali-G78 GPU на ARM. Комбинацията от двете има за цел да пренесе висококачествени игрови изживявания на мобилни устройства. Тяхната по-голяма производителност, съчетана с бързата скорост на 5G и високата честотна лента, ще даде възможност за първокласни игри на мобилни устройства. Ефективността на A78 има предимство тук, тъй като ще осигури по-дълъг живот на батерията за продължителни игри. ARM казва, че също така работи с екосистемата за допълнително подобряване на производителността и изграждане на по-богати игрови изживявания и дава пример за работата си с Unity, за да пренесе Burst Compiler в Android.

Производителността на машинното обучение (ML) е друг приоритет за ARM. Централният процесор е процесорът с първи избор за ML изчисления на мобилни устройства, въпреки че в наши дни SoC от висок клас идват с отделни модули за невронна обработка (NPU). Процесорите на ARM поддържат най-популярните реални ML приложения и случаи на използване на смартфони, като филтри за социални медии, диктовка, сигурност и сигурност. Cortex-A78 използва средно 8% по-малко енергия за базирани на ML задачи в сравнение с A77, което води до 10% официални подобрения на ефективността.

ARM Cortex-A78 - Архитектура

ARM Cortex-A78 има същата архитектура като предишното поколение (все още е ARM v8.2 ядро). ARM обаче добави микроархитектурни характеристики, които имат за цел да повишат производителността по площ и енергийно ефективен начин. ARM пести площ и енергия, като същевременно поддържа необходимите нива на производителност. Отново фокусът на ARM върху серията Cortex-A остава върху площта и енергийната ефективност, а не върху върховата производителност, която сега е работа, поета от програмата Cortex-X.

Подобренията в производителността на Cortex-A78 са активирани чрез допълнителни микроархитектурни функции, които оптимизират ширината и дълбочината. Ширината на декодиране на инструкциите остава 4-широка, същата като при A77 и A76. (Ширината на декодиране на Cortex-X1, от друга страна, е 5-широка, докато A13 има 7-широка ширина на декодиране.) ARM добави по-голямо предсказване на разклонения за честотна лента и точност, както и случаи на сливане на инструкции. Тези архитектурни подобрения позволяват 7% увеличение на производителността на една нишка спрямо A77.

Ефективността е увеличена чрез намаляване на структури, които имат ниска производителност и площ, като например L1-I и L1-D кеш паметта. ARM оптимизира съществуващите структури, за да консумират по-малко енергия, като структурите за предсказване на марката. ARM казва, че това води до 4% по-малко мощност за производителност на mW и 5% по-малко площ за производителност на mm2 в сравнение с A77.

A78 поддържа фокуса върху устойчивата производителност при най-добрата ефективност в класа на ниво клъстер. DynamIQ клъстер от 4x Cortex-A77 и 4x Cortex-A55 CPU може да бъде надстроен до 4x A78 ядра и 4x A55 ядра. Това осигурява 20% устойчиви подобрения на производителността в 15% по-малко площ. Приложенията, които изискват паралелно няколко нишки с висока производителност, като игри с висока прецизност, ще се възползват поради продължително повишаване на производителността.

ARM отбелязва, че подобрената площна ефективност на клъстера A78 DynamIQ го прави идеален за сгъваеми телефони и множество и по-големи дисплеи. Друг акцент е върху подготовката на смартфоните за 5G чрез подобрения на производителността и енергията. Предполага се, че 5G осигурява „далеч по-високи скорости“, „далеч по-ниска латентност“ и „далеч по-бърза и повсеместна свързаност за мобилни устройства за приложения с висока честотна лента“. Това може да е така след няколко години, но в момента повечето от тези предимства не са забележими за крайните потребители.

Като цяло Cortex-A78 е солиден продукт. Водещи SoC от следващо поколение ще включват множество ядра A78, за да допълнят едното ядро ​​Cortex-X1, което има по-високи изисквания за мощност и площ, а някои ориентирани към стойност SoC дори ще изберат да пропуснат Cortex-X1 изцяло. За пазара на SoC от среден клас, A78 ще бъде избраното CPU ядро ​​за SoC през 2021 г. и неговият фокус върху устойчивата производителност е добре дошъл.


ARM Mali-G78

Серията графични процесори Mali на ARM не беше толкова успешна, колкото серията процесори Cortex, меко казано. Графичните процесори на Mali постоянно се превъзхождат както по отношение на производителност, така и на енергийна ефективност от персонализираните графични процесори на Apple и персонализираните графични процесори Adreno на Qualcomm, година след година. Миналогодишното стартиране на новата архитектура Valhall и графичния процесор Mali-G77 не направи нищо, за да промени това, за съжаление. SoC, включващи Mali-G77, включваха Exynos 990 и на MediaTek Dimensity 1000L съответно. И двете, за съжаление, изглежда имат слаби реализации, което означава, че тяхната производителност на GPU може не се конкурира с графичния процесор Adreno 650 на Qualcomm, без значение водещите в класа графични процесори на Apple в Apple A12 и A13. Mali изостава от години и неговите подобрения не бяха достатъчни, за да променят статуквото в пространството на мобилните GPU.

Въпреки това ARM не е нищо друго освен оптимистично. Отбелязва, че нейните партньори са доставили над един милиард графични процесори Мали годишно, което прави Мали номер едно доставяни графични процесори в света. Предполага се, че този брой само ще се увеличи, тъй като много повече различни видове устройства позволяват случаи на използване с интензивна графика, като например усъвършенствани мобилни игри и XR (VR и AR). Според ARM, това прави Mali най-широко използваният GPU за мобилно развитие в цялата екосистема.

ARM отбелязва, че през 2019 г. обяви първия си графичен процесор, базиран на архитектурата Valhall - Mali-G77. През 2020 г. G77 ще бъде наследен от Mali-G78, който също е базиран на архитектурата Valhall. Докато ARM казва, че това е най-производителният графичен процесор за премиум мобилни устройства до момента, числата не го подкрепят, въпреки това, което ARM иронично казва, че това е факт, подкрепен от числата. G78 носи 25% подобрение в производителността спрямо G77, което е меко казано малко. Разликата в пиковата производителност на GPU между G77 и GPU на Apple A13 беше значителна, което означава, че G78 няма да може да настигне A13, без значение предстоящия GPU на Apple A14. Qualcomm също така ще продължи да бъде една крачка напред поради собствените си постепенни подобрения в производителността.

Променящата играта графика и целодневната игра на мобилни устройства вече са възможни на други графични процесори, така че маркетингът на ARM тук звучи малко кухо.

Mali-G78 е създаден с мисъл за разработчиците и крайния потребител, според ARM. Той позволява висококачествени мобилни игри с конзолни игри, които вече са налични на мобилни устройства. G78 осигурява по-дълъг живот на батерията на първокласни мобилни устройства. Той също така носи допълнително повишаване на производителността на ML за по-сложни функции за игри, видео, камера, сигурност на ML на мобилни устройства.

ARM са оптимистично настроени относно перспективите за мобилни игри. Мобилните игри представляват повече от 46% от световния пазар на игри през 2019 г., достигайки 68,2 милиарда долара приходи. Също така се очаква да продължи да расте през следващите няколко години, тъй като ще изпревари както компютърните, така и конзолните игри. Повече първокласни заглавия за игри идват за мобилни устройства и потребителите очакват подобно изживяване на мобилни устройства в сравнение с конзолите.

За да направи тези изживявания възможни, Mali-G78 идва с необходимото подобрение на производителността. Той има 15% подобрение на плътността на производителността за игрово съдържание в сравнение с G77. За същото количество площ като предишното поколение, G78 ще осигури повече производителност. Този тласък е възможен благодарение на четири ключови характеристики:

  • Поддръжка на до 24 ядра
  • Асинхронно най-високо ниво
  • Подобрения на плочка
  • Подобрено проследяване на зависимостта на фрагмента

Докато максималният брой ядра на G77 беше 16, ARM увеличи максималния брой ядра на G78 до максимум 24 ядра. Разбира се, само защото има максимум не означава, че доставчиците на мобилни чипове действително ще включат 24 ядра. Най-широкият вариант на ядрото на G77, който сме виждали досега, е Mali-G77MP11 на Exynos 990, докато Dimensity 1000 има Mali-G77MC9.

ARM вярва, че Asynchronous Top Level е функция, променяща играта за производителността на GPU. Твърди се, че това извлича възможно най-голяма производителност от мобилните игри, осигурявайки максимална производителност.

Подобренията на Tiler, от друга страна, добавят допълнителен слой качество към мобилните игри. Игрите, пренесени от компютър и конзола, често имат изключително сложни активи и сложни сцени, които причиняват проблеми с производителността и затруднения. Подобренията на Tiler намаляват натоварването на върховете върху GPU за тези сложни сцени и активи. Това подобрява производителността за сложно игрово съдържание, подобно на конзола.

ARM също подобри проследяването на зависимостта от фрагменти на G78. Това засяга особено мобилните игри със сложни игрови сцени, включващи дим, дървета и трева. Резултатите са, че ARM е отбелязал до 17% подобрения в производителността на най-добрите мобилни игри в сравнение с G77.

Mali-G78 има 10% по-добра енергийна ефективност от своя предшественик. Отново, това няма да е достатъчно, за да се изравнят нито с Qualcomm, нито с Apple. Целите на ARM тук изглеждат особено консервативни. Функцията Asynchronous Top Level играе важна роля за енергийната ефективност, тъй като позволява намаляване на мощността, като по този начин позволява съдържанието да се генерира по устойчив начин. Следователно, когато дадено устройство извежда съдържание с желаната кадрова честота, то може да намали часовника, за да пести енергия. Увеличаването на най-високото ниво за тази задача използва малко повече енергия, но спестяването на енергия от намаляване на честотата на шейдърните ядра е много по-високо. Това е така, защото шейдърните ядра използват 90-95% от енергийния бюджет на GPU.

По-добра енергийна ефективност в G78 също се постига благодарение на Fused multiply-add (FMA). Той е напълно преработен от самото начало, което води до 30% намаление на енергията за устройството. Модулът FMA е отговорен за повечето от изчисленията, които се случват вътре в GPU, и затова имаше смисъл ARM да го насочи към намаляване на енергията.

Възможността на GPU за паралелна обработка на данни го прави подходящ за изпълнение на работни натоварвания на ML, въпреки че ARM признава, че CPU и GPU остават основните процесори за ML. Тъй като случаите на използване стават по-сложни, някои работни натоварвания ще бъдат прехвърлени към GPU. Основните случаи на използване на ML за GPU са свързани с функции за сигурност на устройството, различни режими на камера и видео, както и приложения с функции за AR.

Ролята на ML върху графичния процесор позволява изживявания като проследяване на лица в рамката за снимки или видео, игри, които използват функции за AR и др. За тези задачи, базирани на ML, Mali-G78 разполага с 15% средно подобрение на производителността за различни натоварвания на ML в сравнение с G77. G77 донесе 60% подобрение в производителността на ML спрямо предишните поколения, така че подобрението през годината тази година е много по-малко. Асинхронното най-високо ниво е жизненоважно за повишаване на производителността на ML, тъй като клокването на ядрата на шейдърите помага при различните случаи на използване на ML на GPU.

След това е обявяването на Mali-G68. Това не е нищо друго освен по-тесен вариант на Mali-G78, точно както Mali-G57 беше по-тесен вариант на Mali-G77. ARM казва, че това е първият суб-премиум Mali GPU за устройства от 2021 г. Той има всички характеристики на G78, като подобрения на плочките и новото FMA устройство в изпълнителния двигател, но поддържа до 6 ядра вместо 24. Почти първокласна производителност на по-ниска цена е целта на този GPU.

ARM разработи това подпремиум GPU ниво, след като изслуша обратната връзка от партньори, които искаха премиум функции в своето портфолио от устройства. G68 има по-ниска силициева площ, както се очаква, и предоставя високопроизводителни игри на по-широка аудитория от разработчици и потребители.

И накрая, ARM споменава своите партньорства с разработчици. Това улеснява разработчиците да оптимизират съдържанието си, за да работят по-добре на графични процесори Mali (на теория). Един пример е Performance Advisor. Второто е сътрудничеството на ARM с Unity за предоставяне на Burst Compiler. Подробности за това можете да прочетете в статията източник.

Mali-G78 - Outlook

Перспективата за Mali-G78 е мрачна. Изглежда, че ARM просто не се интересуват от значителни подобрения на производителността през годината в същата форма, която прави Apple, в същата форма, която Qualcomm направи в миналото. Докато темпът на подобрение на Qualcomm също се забави, базовата му линия е на по-високо място от ARM. Изглежда лошо за екосистемата на Android, когато рецензенти заявяват с числени доказателства, че поддържаната производителност на GPU на A13 е по-висока от пиковата производителност на Snapdragon 865. Делтата в производителността между графичните процесори на Apple и Android нараства и само се увеличава.

Следователно G78 не е магическо решение за решаване на проблемите на Mali GPU на ARM и за извеждането им на върха на класациите за производителност. Той все още ще бъде класиран под графичните процесори на Apple и Qualcomm. Това ще бъде изборът по подразбиране за някои SoC просто защото това е стандартният GPU IP на ARM, а персонализираните решения имат бариери за навлизане и струват повече като добре.

Следващата година е съмнително дали Samsung Systems LSI наистина ще използва Mali-G78. Samsung беше известен клиент на графични процесори Mali, но миналата година, той подписа партньорство с AMD за предоставяне на RDNA GPU архитектурата към своите мобилни SoC през 2021 г. Ако тази пътна карта остане на плана – и на този етап нямаме причина да подозираме, че не е на път – тогава наследникът на Exynos 990 ще включва AMD RDNA GPU вместо Mali GPU. Това наистина ще бъде голяма загуба на дизайн за ARM. Дори други доставчици като MediaTek имат повече възможности в наши дни. Новото на Imagination Technologies A-серия GPU архитектура има дизайнерска цел за по-висока производителност от G78 и е възможно MediaTek да се откаже от Mali в бъдеще. Qualcomm, разбира се, няма причина да изостави усилията си за Adreno GPU, които все още остават най-добрият в класа си по отношение на производителност и ефективност, когато говорим изключително за Android пазар на смартфони.

По този начин е ясно, че ARM ще трябва да увеличи скоростта на годишните подобрения в графичните процесори на Мали, за да направи реална разлика в пазара на мобилни графични процесори. Ако не може да направи това, той е изправен пред риска да бъде превърнат в закъснение в пространството на премиум водещия мобилен GPU.


ARM Ethos N78

И накрая, ARM обявиха и модула за невронна обработка Ethos N78 (NPU). Това е наследник на N77 NPU. Той предоставя по-големи възможности за ML на устройството и до 25% по-голяма ефективност. Конфигурируемостта също е силна страна, тъй като наличните конфигурации варират от 1 TOP/s до 10 TOP/s. За повече подробности вижте Публикация в блога на ARM. Този NPU вероятно ще има ограничени дизайнерски победи, тъй като Qualcomm, Samsung, HiSilicon и MediaTek имат свои собствени модули за невронна обработка/AI двигатели.


Източници: ARM (1, 2), AnandTech (1, 2)