Новые ядра Cortex X4, A720 и A520 от Arm — это только 64-битные ядра с большим упором на эффективность.

click fraud protection

Были анонсированы новые ядра Arm в рамках Total Compute Solution на 2023 год, и они довольно интересны.

Быстрые ссылки

  • Только 64-битная версия: «Миссия выполнена».
  • Arm Cortex-X4: еще больше производительности и эффективности
  • Arm Cortex-A720: баланс производительности и энергопотребления
  • Arm Cortex A520: удвоение эффективности
  • DSU-120: до 14 вычислительных ядер
  • Эффективность — новая цель

Arm — это компания, которая разрабатывает практически все ядра ЦП, которые в конечном итоге используются в вашем Android-смартфоне, и каждый год она объявляет о новых итерациях, которые позже найдут свое применение в чипсетах, таких как флагманский Snapdragon того года или следующий флагман MediaTek. Размерность. В этом году компания выпускает флагманское ядро ​​Cortex-X4, ядро ​​производительности Cortex-A720 и ядро ​​эффективности Cortex-A520. Эти ядра составляют основу новых разработок компании, совместимых с Arm v9.2, и Total Compute Solution на 2023 год, или TCS23. Кроме того, мы также видим новый общий блок DynamIQ и обновленный графический процессор Immortalis-G720. Еще более важным является полный переход к 64-битным вычислениям, при этом ни одно из этих ядер не поддерживает 32-битные.

Все три новых ядра являются микроархитектурными преемниками прошлогодних и в первую очередь ориентированы на внедрение IPC и повышение эффективности.

Только 64-битная версия: «Миссия выполнена».

Одним из самых больших изменений в Total Compute Solution от Arm в этом году является переход только на 64-битную версию. В то время как прошлогодний A510R1 поддерживал 32-битный режим выполнения AArch32, как и A710, выпущенный с TCS22 в прошлом году, в этом году ядра Arm поддерживают только AArch64. Время для 32-битных приложений на Android тикает, особенно с тех пор, как Сама Google обязала обновлять все приложения с 2019 года. загружаются как 64-битные двоичные файлы.

По словам Арма, переход на 64-битную версию считается «миссией выполненной». Причина этого в том, что китайский рынок приложений – это то, что сдержал остальную часть отрасли в процессе перехода, но подавляющее большинство приложений в китайских магазинах приложений теперь совместимы с 64-битными версиями, слишком.

Причиной задержки стало отсутствие однородной экосистемы приложений, а это означает, что разные магазины приложений требовали разных стандартов разработчиков. Однако, поскольку Arm сотрудничала с различными магазинами приложений в Китае, наряду с неоднократными предупреждениями о том, что сдвиг произойдет, эти магазины приложений призывали разработчиков тоже перейти на него.

Похоже, пришло время для того, чтобы этот переход произошел в полном объеме, и в любом случае пройдет еще несколько месяцев, прежде чем мы увидим эти ядра Arm в новых чипсетах.

Arm Cortex-X4: еще больше производительности и эффективности

Серия ядер Arm X несколько лет назад отличалась от серии A, и философия заключалась в том, что это мощное ядро, которому разрешено потреблять немного больше энергии, когда оно в этом нуждается. Обычно производители чипсетов включают максимум один или два из них, поскольку они энергоемки, даже несмотря на те возможности, которые у них есть.

Как видно из приведенного выше графика, Cortex-X4 является самым мощным ядром Arm, но за эти вычислительные возможности приходится платить энергопотреблением. Cortex-X4 похож на прошлогодний X3 и, как утверждает Арм, может даже работать на тех же частотах, что и прошлогоднее ядро, и потреблять до 40% меньше энергии. Его физический размер менее чем на 10 % больше, и это самое эффективное ядро ​​Cortex-X из когда-либо созданных.

Что касается того, откуда берутся эти улучшения IPC, то в X4 имеется ряд улучшений внешнего и внутреннего интерфейса. В рамках этих внешних улучшений большой объем работы был вложен в переписывание и улучшение прогнозов ветвей, поскольку неправильные прогнозы ветвей обходятся дорого с точки зрения производительности. Arm также обещает, что размер кэша L2 в 2 МБ обеспечит более высокую производительность не столько в тестах, сколько в реальных условиях.

Новое ядро ​​Cortex-X4 увеличивает количество арифметико-логических блоков (АЛУ) с 6 до 8, добавляет дополнительную ветвь. (всего 3), добавляет дополнительный модуль умножения-аккумулятора, а также конвейеры с плавающей запятой и квадратным корнем. операции.

Что касается задней части, то здесь тоже есть ряд улучшений. Генерация адреса хранилища-загрузки сократилась с трех инструкций до четырех за цикл, поскольку канал загрузки-хранилища был взят и разделен. В L1 также имеется двойной резервный буфер трансляции, а также улучшения, связанные с конфликтами банков.

Все это вместе обеспечивает впечатляющий прирост производительности Cortex-X4 от Arm. В целом, вы можете ожидать улучшения производительности в среднем на 15% с Cortex-X4. По кривой мощности и производительности, которую разделяет Arm, X4 опережает X3 как по производительности, так и по энергопотреблению. Другими словами, повышение производительности на 15% происходит при довольно значительном потреблении энергии. Однако стоит отметить, что это не совсем сравнение яблок с яблоками; В прошлом году Cortex-X3 поставлялся с 1 МБ кэш-памяти L2, а это означает, что если производитель будет придерживаться того же размера кэша L2 в этом году, не обязательно произойдет повышение производительности на 15%.

Однако одно можно сказать наверняка: если вы управляете X4 на максимальной скорости, он, скорее всего, будет большим пожирателем мощности. Возможно, в этом году некоторые OEM-производители продолжат делать то же, что и в прошлом году, и начнут ограничивать многие чипсеты этого года прямо из коробки. Например, OnePlus и Oppo делают то же самое, и благодаря этому повышается энергоэффективность при одновременной работе. производительности, как у X3, вполне вероятно, что эти компании получат выгоду от продолжения работы. так. Возможно, мы не увидим такого повышения производительности на 15% по всем направлениям, но вместо этого мы можем увидеть дальнейшее повышение эффективности для чипсетов следующего года.

Arm Cortex-A720: баланс производительности и энергопотребления

В то время как ядра серии Arm X обычно немного работают, серия ядер A обычно направлена ​​на баланс энергопотребления и производительности. В Cortex-A720 Arm обещает на 20% более эффективное ядро ​​с повышенной производительностью при той же мощности, что и у A715 в прошлом году.

Что касается улучшений A720 в этом году, большинство из них находятся в передней части. Конвейеры были сокращены за счет удаления одного цикла из механизма неверного прогнозирования ветвей, причем это сокращение за один цикл, как утверждается, приводит к увеличению контрольных показателей на 1%. Бенчмарки обычно дают наименьшее количество неправильных прогнозов ветвей, а это означает, что это, вероятно, улучшит общую реальную производительность на более значительную (но в значительной степени неизмеримую) величину.

В вышедшем из строя ядре мы видим ряд структурных улучшений, которые помогают повысить производительность, не влияя на площадь, занимаемую ядром, или его эффективность. Во-первых, как и в X4, операции деления с плавающей запятой и извлечения квадратного корня теперь конвейеризированы. Также реализован более быстрый перевод чисел с плавающей запятой, NEON и SVE2 в целые числа и другие общие улучшения для ускорения обработки.

Арм поделился приведенным выше графиком, чтобы проиллюстрировать сравнение A720 с прошлогодним A715 по производительности и эффективности, где в SPECint_base2006 используются процесс ISO и частота ISO. Размеры кэша также остаются прежними, так что это во многом сравнение яблок с яблоками.

С точки зрения энергопотребления A720 остается во многом на уровне прошлогодней модели, хотя при том же уровне мощности он демонстрирует немного большую производительность. В A720, как и в случае с X4, Arm, похоже, больше внимания уделяет тому, как он становится лучше. производительность за пределами прошлогодних ограничений по мощности, а не постоянное увеличение мощности, которую обеспечивают эти ядра. способен.

Arm Cortex A520: удвоение эффективности

Конечно, когда дело доходит до ядер Arm, дело не только в производительности. Поскольку серия X объединяет все в чистую вычислительную мощность, а A7xx уравновешивает вычислительные потребности и энергопотребление, серия A5xx фокусируется исключительно на эффективной обработке. Это ядро ​​Arm v9.2 с самым низким энергопотреблением на каждую область, построенное на той же архитектуре с объединенными ядрами, которую мы видели в A510.

Эта архитектура с объединенным ядром означает, что некоторые ресурсы могут быть разделены между двумя ядрами, причем два ядра могут быть разделены между собой. сгруппированы в «комплекс». Кэш L2, резервный буфер трансляции L2 и пути векторных данных являются общими внутри этого сложный. Чтобы было ясно, это не значит, что это имеет объединяться в два ядра, а для пиковой производительности можно собрать одноядерный комплекс. Фактически, одна из показанных нам схем ядра TCS2023 от Arm включала одно ядро ​​X4, пять ядер A720 и три ядра A520, а это означает, что по крайней мере одно ядро ​​A520 находится изолированно.

A520 — это конструкция, ориентированная на эффективность, и, как и другие ядра, Arm в основном сосредоточилась на повышении этой эффективности при тех же мощностях, что и в прошлом поколении. Это включает в себя улучшение прогнозирования ветвей, а также удаление или уменьшение некоторых функций производительности. В результате эта производительность была восстановлена ​​за счет повышения эффективности. Интересно также, что компания Arm удалила третий ALU, который был в A510, что позволило сэкономить энергию при выдаче логики и пересылке результатов.

Судя по реальным результатам, кажется, что A520 не так сильно отличается от своих предшественников, как A720 и X4. Большая часть его возможностей в более низких интервалах мощности перекрывается с A510 из приведенного выше графика, и только на верхних эшелонах производительности мы видим прирост эффективности. Разница в производительности и мощности между двумя ядрами является многообещающей, но неясно, увидим ли мы какие-либо реальные преимущества при сравнении A520 и A510. В конце концов, трудно правильно измерить разницу в производительности и эффективности между ними в реальном мире.

DSU-120: до 14 вычислительных ядер

Общий блок DynamIQ, или DSU, объединяет одно или несколько ядер с системой памяти L3, логикой управления и внешними интерфейсами для формирования многоядерного кластера. По сути, это ткань Arm, которая позволяет всем этим ядрам взаимодействовать друг с другом и совместно использовать ресурсы. Таким образом, это довольно важная часть головоломки для любого производителя чипсетов, желающего создать чип с основными разработками Arm.

Опираясь на DSU-110, компания Arm внесла в DSU-120 ряд улучшений, которые послужат улучшению всего чипа, в который он включен. Во-первых, теперь в каждом кластере имеется до 14 ядер (было 12) и поддерживается до 32 МБ кэш-памяти третьего уровня. Это также значительно повышает эффективность в ряде ключевых областей, в том числе в случае промахов кэша, а также снижает утечку энергии.

В некотором смысле, DSU от Arm является основой TCS23, поскольку он формирует основу того, как каждое из этих ядер взаимодействует друг с другом и обменивается данными. Любые улучшения здесь принесут пользу всему кластеру, но, похоже, большинство изменений связано с энергопотреблением и эффективностью.

Эффективность — новая цель

Похоже, что в отрасли уже некоторое время происходят изменения, но главное первое впечатление, которое я получаю от этих ядер, заключается в том, что эффективность теперь является главным приоритетом. Хотя нам рассказали о том, насколько быстрее ядро ​​X4 и что это самое быстрое ядро ​​компании за всю историю, они очень быстро отметили повышение эффективности работы при пиковой производительности прошлого года. вместо.

В целом, каждый прирост производительности был подкреплен тем, насколько более эффективным был этот компонент, и более или менее все изменения DSU касались эффективности и утечки мощности. Производительность важна, но на самом деле создается впечатление, что отрасль в целом пытается идти в ногу со временем. более эффективные уровни вычислений, а не стремление к значительному увеличению производительности из года в год.

Мы ожидаем, что эти ядра лягут в основу MediaTek Dimensity 9400 и Qualcomm Snapdragon 8 Gen 3, но в каком виде еще неизвестно. Как упоминалось ранее, Arm говорила об использовании схемы ядра 1+5+3 в своем собственном внутреннем тестировании, но это не значит, что это то, что такие партнеры, как MediaTek и Qualcomm, стремятся сделать сами.