ARM анонсирует процессор Cortex-A78, графический процессор Mali-G78 и NPU Ethos N78

ARM анонсировала архитектуру процессора Cortex-A78, а также графический процессор Mali-G78. Эти два процессора являются преемниками процессора Cortex-A77 и графического процессора Mali-G77.

В рамках TechDay 2020 компания ARM сделала три важных объявления. Главным анонсом является программа Cortex-X Custom (CXC), содержащая новый Ядро процессора Cortex-X1. Cortex-X1 обеспечивает более высокую пиковую производительность, чем любой процессор серии Cortex-A, при этом выходя за рамки PPA серии Cortex-A. Два других объявления, сделанные ARM, были гораздо более рутинными. Процессоры Cortex-A78 и Mali-G78 теперь официально представлены и являются преемниками процессоров Кортекс-А77 ЦП и Мали-G77 ЦП соответственно. Давайте рассмотрим эти объявления одно за другим:

ARM Кортекс-A78

В Cortex-A78 основное внимание ARM уделялось требованиям эффективности, таким как требования к увеличению времени автономной работы, новым форм-факторам мобильных устройств и сокращению площади SoC. Ключевым словом для Cortex-A78 является устойчивая производительность, а Cortex-X1 стремится к звездам, стремясь достичь максимальной кратковременной пиковой производительности.

ARM заявляет, что Cortex-78 представляет собой «самое лучшее» из своих решений, обеспечивающее высочайшую производительность при лучшей в своем классе эффективности. Это тоже не пустые слова. За последние пару лет Cortex-A76 и Cortex-A77 продемонстрировали лучшую в своем классе энергоэффективность и лучший в своем классе PPA (производительность, мощность и площадь). У них не было дизайна, необходимого для того, чтобы конкурировать с чипами Apple A-серии, но из-за более низкой вырабатываемой энергии, их энергоэффективность была в худшем случае такой же, как у Apple, а в лучшем случае даже выше, чем у Apple. Яблоко.

Улучшения производительности A78 охватывают варианты использования производительности, связи, безопасности и задач с использованием камеры, продвинутых игр, XR и ML.

Улучшение устойчивой производительности Cortex-A78 выражается двузначными числами. Он обеспечивает улучшение устойчивой производительности на 20 % по сравнению со своим предшественником Cortex-A77 при том же уровне тепловой мощности мобильного устройства. АнандТех просмотрел цифры и объяснил, что цифра в 20% представляет собой комбинацию повышения IPC на 7% по сравнению с A77, в то время как Остальные 13% прироста производительности связаны с 5-нм техпроцессом, на котором будут производиться все SoC следующего поколения. сфабриковано. ARM отмечает важность устойчивой производительности, заявляя, что мобильные устройства имеют ограниченные возможности для рассеивают мощность, а устойчивая производительность позволяет избежать регулирования мощности для приложений, требующих большого количества власть. Это, в свою очередь, улучшает UX, избегая задержек или пропадания кадров.

Повышение энергоэффективности приводит к повышению энергоэффективности, поскольку эти две взаимосвязанные, но разные концепции. По данным ARM, в точках высокой производительности, например тех, которые являются пиковыми для современных мобильных устройств, Cortex-A78 обеспечивает 50% экономию энергии по сравнению с устройствами 2019 года. в том же исполнении как Cortex-A77. Это впечатляет и делает A78 самым энергоэффективным процессором Cortex-A, когда-либо созданным ARM.

Акцент ARM на устойчивой производительности принесет пользу следующей волне мобильных инноваций, таких как новые форм-факторы (складные телефоны), а также улучшенное «цифровое погружение» посредством 5G. Проверка на практике заключается в том, что для нынешнего поколения это не так, и это не будет иметь большого значения даже для следующего поколения.

Одним из вариантов использования, который будет улучшен с помощью Cortex-A78, являются мобильные игры AAA в сочетании с новым графическим процессором Mali-G78 от ARM. Сочетание этих двух технологий направлено на то, чтобы обеспечить высококачественные игровые возможности на мобильных устройствах. Их более высокая производительность в сочетании с высокой скоростью и высокой пропускной способностью 5G позволит играть на мобильных устройствах премиум-класса. Эффективность A78 имеет здесь преимущество, поскольку она обеспечивает более длительное время автономной работы для продолжительных игр. ARM заявляет, что также работает с экосистемой для дальнейшего повышения производительности и создания более богатых игровых возможностей, и приводит пример своей работы с Unity по внедрению Burst Compiler в Android.

Производительность машинного обучения (ML) является еще одним приоритетом для ARM. Центральный процессор является процессором первого выбора для вычислений машинного обучения на мобильных устройствах, хотя в наши дни высокопроизводительные SoC поставляются с отдельными нейронными процессорами (NPU). Процессоры ARM поддерживают самые популярные реальные приложения машинного обучения и варианты использования на смартфонах, такие как фильтры социальных сетей, диктовка, безопасность и безопасность. Cortex-A78 потребляет в среднем на 8% меньше энергии для задач, основанных на машинном обучении, по сравнению с A77, что приводит к официальному повышению эффективности на 10%.

ARM Cortex-A78 — Архитектура

ARM Cortex-A78 имеет ту же архитектуру, что и предыдущее поколение (это по-прежнему ядро ​​ARM v8.2). Однако ARM добавила микроархитектурные функции, направленные на повышение производительности за счет площади и энергоэффективности. ARM экономит площадь и энергопотребление, сохраняя при этом необходимый уровень производительности. Опять же, внимание ARM к серии Cortex-A по-прежнему сосредоточено на эффективности использования площади и энергопотребления, а не на максимальной производительности, что теперь является задачей программы Cortex-X.

Повышение производительности Cortex-A78 обеспечивается за счет дополнительных микроархитектурных функций, которые оптимизируют ширину и глубину. Ширина декодирования инструкций остается равной 4, как и в A77 и A76. (С другой стороны, ширина декодирования Cortex-X1 составляет 5, а ширина декодирования A13 — 7.) ARM добавила улучшенное прогнозирование ветвей для обеспечения пропускной способности и точности, а также случаев объединения команд. Эти архитектурные улучшения позволяют увеличить однопоточную производительность на 7% по сравнению с A77.

Эффективность была максимизирована за счет сокращения структур с низкой производительностью и площадью, например, в кэшах L1-I и L1-D. ARM оптимизировала существующие структуры, чтобы потреблять меньше энергии, например структуры прогнозирования бренда. ARM утверждает, что это приводит к снижению мощности на 4% на мВт и на 5% меньше площади на мм2 по сравнению с A77.

В A78 основное внимание уделяется устойчивой производительности и лучшей в своем классе эффективности на уровне кластера. Кластер DynamIQ, состоящий из 4 процессоров Cortex-A77 и 4 процессоров Cortex-A55, можно обновить до 4 ядер A78 и 4 ядер A55. Это обеспечивает устойчивое повышение производительности на 20 %, занимая на 15 % меньше площади. Приложения, которым требуется несколько высокопроизводительных потоков параллельно, например игры с высокой точностью воспроизведения, выиграют от устойчивого повышения производительности.

ARM отмечает, что повышенная эффективность использования площади кластера A78 DynamIQ делает его идеальным для складных телефонов и нескольких дисплеев большего размера. Еще одно внимание уделяется подготовке смартфонов к 5G за счет улучшения производительности и энергопотребления. Предполагается, что 5G обеспечивает «гораздо более высокие скорости», «намного меньшую задержку» и «гораздо более быстрое и повсеместное подключение мобильных устройств для приложений с высокой пропускной способностью». Возможно, так оно и будет через несколько лет, но в настоящее время большинство этих преимуществ не заметны для конечных потребителей.

В целом Cortex-A78 — надежный продукт. Флагманские SoC следующего поколения будут включать в себя несколько ядер A78 в дополнение к одному ядру Cortex-X1, которое имеет более высокие требования к мощности и площади, а некоторые бюджетные SoC даже предпочтут отказаться от Cortex-X1 полностью. На рынке SoC среднего класса A78 станет процессорным ядром для SoC 2021 года, и его ориентация на устойчивую производительность приветствуется.


АРМ Мали-G78

Серия графических процессоров ARM Mali, мягко говоря, не так успешна, как серия процессоров Cortex. Графические процессоры Mali из года в год постоянно уступают по производительности и энергоэффективности специальным графическим процессорам Apple и специальным графическим процессорам Adreno от Qualcomm. К сожалению, прошлогодний запуск новой архитектуры Valhall и графического процессора Mali-G77 ничего не изменил. SoC с Mali-G77 включали Эксинос 990 и МедиаТек Дименсити 1000л соответственно. К сожалению, оба они имели слабые реализации, а это означало, что производительность их графических процессоров могла снизиться. не конкурировать с графическим процессором Qualcomm Adreno 650, не говоря уже о лучших в своем классе графических процессорах Apple в Apple A12 и А13. Мали отстает на долгие годы, и ее улучшений было недостаточно, чтобы изменить статус-кво в сфере мобильных графических процессоров.

Тем не менее, ARM настроена оптимистично. Он отмечает, что его партнеры ежегодно поставляют более одного миллиарда графических процессоров Mali, что делает Mali крупнейшим поставляемым графическим процессором в мире. Предполагается, что это число будет только увеличиваться, поскольку все больше различных типов устройств позволяют использовать сценарии с интенсивным использованием графики, такие как продвинутые мобильные игры и XR (VR и AR). По данным ARM, это делает Mali наиболее широко используемым графическим процессором для мобильной разработки во всей экосистеме.

ARM отмечает, что в 2019 году анонсировала свой первый графический процессор на базе архитектуры Valhall — Mali-G77. В 2020 году на смену G77 придет Mali-G78, который также основан на архитектуре Valhall. Хотя ARM заявляет, что на сегодняшний день это самый производительный графический процессор для мобильных устройств премиум-класса, цифры не подтверждают это, несмотря на то, что ARM иронично говорит о том, что это факт, подтвержденный цифрами. G78 обеспечивает улучшение производительности на 25% по сравнению с G77, что, мягко говоря, скудно. Разрыв в пиковой производительности графического процессора между G77 и графическим процессором Apple A13 был значительным, а это означает, что G78 не сможет догнать A13, не говоря уже о будущем графическом процессоре Apple A14. Qualcomm также продолжит оставаться на шаг впереди благодаря собственным постепенным улучшениям производительности.

Изменяющая правила игры графика и игры на мобильных устройствах в течение всего дня уже возможны на других графических процессорах, поэтому маркетинг ARM здесь звучит немного пусто.

По словам ARM, Mali-G78 создан с учетом требований разработчиков и конечных пользователей. Он обеспечивает высококачественные мобильные игры, а консольные игры теперь доступны на мобильных устройствах. G78 продлевает срок службы батареи мобильных устройств премиум-класса. Это также обеспечивает дальнейшее повышение производительности машинного обучения для более сложных функций машинного обучения в играх, видео, камере и безопасности на мобильных устройствах.

ARM с оптимизмом смотрит на перспективы мобильных игр. В 2019 году на мобильные игры пришлось более 46% мирового рынка игр, а доход составил $68,2 млрд. В ближайшие несколько лет он также продолжит расти, поскольку обгонит как ПК, так и консольные игры. На мобильные устройства выходит все больше игр премиум-класса, и пользователи ожидают, что на мобильных устройствах они будут аналогичны впечатлениям от игр на консолях.

Чтобы сделать эти возможности возможными, Mali-G78 имеет необходимое повышение производительности. Плотность производительности игрового контента увеличена на 15% по сравнению с G77. При той же площади, что и предыдущее поколение, G78 обеспечит большую производительность. Такое повышение стало возможным благодаря четырем ключевым особенностям:

  • Поддержка до 24 ядер
  • Асинхронный верхний уровень
  • Улучшения плиточника
  • Улучшено отслеживание зависимостей фрагментов.

Хотя максимальное количество ядер G77 составляло 16, ARM увеличила максимальное количество ядер G78 до 24 ядер. Конечно, тот факт, что существует максимум, не означает, что производители мобильных чипов действительно будут использовать 24 ядра. Самый широкий вариант ядра G77, который мы видели до сих пор, — это Mali-G77MP11 на Exynos 990, а у Dimensity 1000 — Mali-G77MC9.

ARM считает, что асинхронный верхний уровень изменит правила игры в производительности графического процессора. Говорят, что это позволяет выжать как можно больше производительности из мобильных игр, обеспечивая максимальную производительность.

С другой стороны, улучшения плитки повышают качество мобильных игр. Игры, перенесенные с ПК и консолей, часто содержат чрезвычайно сложные ресурсы и сложные сцены, которые вызывают проблемы с производительностью и узкие места. Улучшения тайлера уменьшают вершинную нагрузку на графический процессор для этих сложных сцен и ресурсов. Это повышает производительность сложного консольного игрового контента.

ARM также улучшила отслеживание зависимостей фрагментов на G78. Особенно это касается мобильных игр со сложными игровыми сценами, включающими дым, деревья и траву. Результаты показывают, что ARM добилась улучшения производительности на 17% в лучших мобильных играх по сравнению с G77.

Mali-G78 имеет на 10% лучшую энергоэффективность, чем его предшественник. Опять же, этого будет недостаточно, чтобы догнать Qualcomm или Apple. Цели ARM здесь кажутся особенно консервативными. Функция асинхронного верхнего уровня играет важную роль в энергоэффективности, поскольку позволяет снизить энергопотребление и тем самым обеспечить устойчивое создание контента. Таким образом, когда устройство выводит контент с желаемой частотой кадров, оно может снизить тактовую частоту для экономии энергии. Увеличение верхнего уровня для этой задачи требует немного больше энергии, но экономия энергии от снижения частоты шейдерных ядер намного выше. Это связано с тем, что шейдерные ядра используют 90–95% энергетического бюджета графического процессора.

Более высокая энергоэффективность в G78 также достигается благодаря технологии плавного умножения-сложения (FMA). Он был полностью переработан с нуля, что привело к снижению энергопотребления устройства на 30%. Блок FMA отвечает за большую часть вычислений, происходящих внутри графического процессора, и именно поэтому для ARM имело смысл использовать его для снижения энергопотребления.

Возможности параллельной обработки данных графического процессора делают его подходящим для выполнения рабочих нагрузок машинного обучения, хотя ARM признает, что центральный и графический процессоры остаются основными процессорами для машинного обучения. По мере усложнения сценариев использования некоторые рабочие нагрузки будут перекладываться на графический процессор. Основные варианты использования графического процессора в машинном обучении связаны с функциями безопасности устройства, различными режимами камеры и видео, а также приложениями с функциями дополненной реальности.

Роль машинного обучения в графическом процессоре обеспечивает такие возможности, как отслеживание лиц в кадре фотографии или видео, игры, использующие функции дополненной реальности, и многое другое. Для этих задач на основе машинного обучения Mali-G78 демонстрирует повышение производительности в среднем на 15 % для различных рабочих нагрузок машинного обучения по сравнению с G77. G77 обеспечил улучшение производительности машинного обучения на 60 % по сравнению с предыдущими поколениями, поэтому улучшение по сравнению с прошлым годом в этом году гораздо меньше. Асинхронный верхний уровень жизненно важен для повышения производительности машинного обучения, поскольку синхронизация шейдерных ядер помогает в различных вариантах использования машинного обучения на графическом процессоре.

Затем был анонс Mali-G68. Это не что иное, как более узкий вариант Mali-G78, точно так же, как Mali-G57 был более узким вариантом Mali-G77. ARM заявляет, что это первый графический процессор Mali суб-премиум-класса для устройств 2021 года. Он обладает всеми функциями G78, такими как улучшения тайлера и новый блок FMA в механизме выполнения, но поддерживает до 6 ядер вместо 24. Целью этого графического процессора является производительность, близкая к премиум-классу, при более низкой цене.

ARM разработала этот уровень графических процессоров суб-премиум-класса, прислушавшись к отзывам партнеров, которым нужны были премиум-функции в их портфолио устройств. Как и ожидалось, G68 имеет меньшую площадь кремния и предлагает высокопроизводительные игры более широкой аудитории разработчиков и потребителей.

Наконец, ARM упоминает о своих партнерских отношениях с разработчиками. Это позволяет разработчикам легко оптимизировать свой контент для лучшей работы на графических процессорах Mali (теоретически). Одним из примеров является Советник по производительности. Во-вторых, это сотрудничество ARM с Unity по созданию компилятора Burst. Подробности об этом можно прочитать в исходной статье.

Мали-G78 – Перспективы

Перспективы Mali-G78 мрачны. Похоже, что ARM просто не заинтересована в существенном улучшении производительности из года в год по той же схеме, что и Apple, по той же схеме, которую Qualcomm делала в прошлом. Хотя темпы совершенствования Qualcomm также замедлились, ее базовый уровень находится на более высоком уровне, чем у ARM. Это выглядит плохо для экосистемы Android, когда обозреватели с численными доказательствами заявляют, что устойчивая производительность графического процессора A13 выше, чем пиковая производительность Snapdragon 865. Разница в производительности между графическими процессорами Apple и Android растет, и она становится только шире.

Таким образом, G78 не является волшебным решением, позволяющим решить проблемы графических процессоров Mali от ARM и вывести их на вершину диаграмм производительности. Он по-прежнему будет ниже графических процессоров Apple и Qualcomm. Это будет выбор по умолчанию для некоторых SoC. просто потому, что это стандартный IP-адрес графического процессора ARM, а специальные решения имеют барьеры для входа и стоят дороже, поскольку хорошо.

В следующем году сомнительно, что Samsung Systems LSI действительно будет использовать Mali-G78. Компания Samsung была крупным покупателем графических процессоров Mali, но в прошлом году она подписала партнерство с AMD для внедрения архитектуры графического процессора RDNA. к своим мобильным SoC в 2021 году. Если этот план останется в силе (а на данный момент у нас нет оснований подозревать, что он не идет по плану), то преемник Exynos 990 будет оснащен графическим процессором AMD RDNA вместо графического процессора Mali. Это действительно будет большая потеря для ARM. Даже у других поставщиков, таких как MediaTek, сегодня есть больше возможностей. Новинка Imagination Technologies Архитектура графического процессора серии A его цель — более высокая производительность, чем у G78, и вполне возможно, что MediaTek откажется от Mali в будущем. У Qualcomm, конечно, нет причин отказываться от своих усилий по созданию графического процессора Adreno, которые до сих пор продолжаются. лучший в своем классе по производительности и эффективности, если говорить исключительно об Android рынок смартфонов.

Таким образом, очевидно, что ARM необходимо будет увеличивать темпы ежегодных улучшений графических процессоров Mali, чтобы добиться реальных изменений на рынке мобильных графических процессоров. Если он не сможет этого сделать, он рискует оказаться на втором плане в сфере флагманских мобильных графических процессоров премиум-класса.


ARM Этос N78

Наконец, ARM также анонсировала нейронный процессор Ethos N78 (NPU). Это преемник NPU N77. Он обеспечивает более широкие возможности машинного обучения на устройстве и повышает эффективность производительности до 25 %. Конфигурируемость также является преимуществом, поскольку доступные конфигурации варьируются от 1 до 10 ТОП/с. Для более подробной информации, проверьте Сообщение в блоге ARM. Этот NPU, вероятно, будет иметь ограниченные преимущества в дизайне, поскольку Qualcomm, Samsung, HiSilicon и MediaTek имеют свои собственные нейронные процессоры/движки искусственного интеллекта.


Источники: ARM (1, 2), АнандТех (1, 2)