Были анонсированы новые ядра Arm в рамках Total Compute Solution на 2023 год, и они довольно интересны.
Быстрые ссылки
- Только 64-битная версия: «Миссия выполнена».
- Arm Cortex-X4: еще больше производительности и эффективности
- Arm Cortex-A720: баланс производительности и энергопотребления
- Arm Cortex A520: удвоение эффективности
- DSU-120: до 14 вычислительных ядер
- Эффективность — новая цель
Arm — это компания, которая разрабатывает практически все ядра ЦП, которые в конечном итоге используются в вашем Android-смартфоне, и каждый год она объявляет о новых итерациях, которые позже найдут свое применение в чипсетах, таких как флагманский Snapdragon того года или следующий флагман MediaTek. Размерность. В этом году компания выпускает флагманское ядро Cortex-X4, ядро производительности Cortex-A720 и ядро эффективности Cortex-A520. Эти ядра составляют основу новых разработок компании, совместимых с Arm v9.2, и Total Compute Solution на 2023 год, или TCS23. Кроме того, мы также видим новый общий блок DynamIQ и обновленный графический процессор Immortalis-G720. Еще более важным является полный переход к 64-битным вычислениям, при этом ни одно из этих ядер не поддерживает 32-битные.
Все три новых ядра являются микроархитектурными преемниками прошлогодних и в первую очередь ориентированы на внедрение IPC и повышение эффективности.
Только 64-битная версия: «Миссия выполнена».
Одним из самых больших изменений в Total Compute Solution от Arm в этом году является переход только на 64-битную версию. В то время как прошлогодний A510R1 поддерживал 32-битный режим выполнения AArch32, как и A710, выпущенный с TCS22 в прошлом году, в этом году ядра Arm поддерживают только AArch64. Время для 32-битных приложений на Android тикает, особенно с тех пор, как Сама Google обязала обновлять все приложения с 2019 года. загружаются как 64-битные двоичные файлы.
По словам Арма, переход на 64-битную версию считается «миссией выполненной». Причина этого в том, что китайский рынок приложений – это то, что сдержал остальную часть отрасли в процессе перехода, но подавляющее большинство приложений в китайских магазинах приложений теперь совместимы с 64-битными версиями, слишком.
Причиной задержки стало отсутствие однородной экосистемы приложений, а это означает, что разные магазины приложений требовали разных стандартов разработчиков. Однако, поскольку Arm сотрудничала с различными магазинами приложений в Китае, наряду с неоднократными предупреждениями о том, что сдвиг произойдет, эти магазины приложений призывали разработчиков тоже перейти на него.
Похоже, пришло время для того, чтобы этот переход произошел в полном объеме, и в любом случае пройдет еще несколько месяцев, прежде чем мы увидим эти ядра Arm в новых чипсетах.
Arm Cortex-X4: еще больше производительности и эффективности
Серия ядер Arm X несколько лет назад отличалась от серии A, и философия заключалась в том, что это мощное ядро, которому разрешено потреблять немного больше энергии, когда оно в этом нуждается. Обычно производители чипсетов включают максимум один или два из них, поскольку они энергоемки, даже несмотря на те возможности, которые у них есть.
Как видно из приведенного выше графика, Cortex-X4 является самым мощным ядром Arm, но за эти вычислительные возможности приходится платить энергопотреблением. Cortex-X4 похож на прошлогодний X3 и, как утверждает Арм, может даже работать на тех же частотах, что и прошлогоднее ядро, и потреблять до 40% меньше энергии. Его физический размер менее чем на 10 % больше, и это самое эффективное ядро Cortex-X из когда-либо созданных.
Что касается того, откуда берутся эти улучшения IPC, то в X4 имеется ряд улучшений внешнего и внутреннего интерфейса. В рамках этих внешних улучшений большой объем работы был вложен в переписывание и улучшение прогнозов ветвей, поскольку неправильные прогнозы ветвей обходятся дорого с точки зрения производительности. Arm также обещает, что размер кэша L2 в 2 МБ обеспечит более высокую производительность не столько в тестах, сколько в реальных условиях.
Новое ядро Cortex-X4 увеличивает количество арифметико-логических блоков (АЛУ) с 6 до 8, добавляет дополнительную ветвь. (всего 3), добавляет дополнительный модуль умножения-аккумулятора, а также конвейеры с плавающей запятой и квадратным корнем. операции.
Что касается задней части, то здесь тоже есть ряд улучшений. Генерация адреса хранилища-загрузки сократилась с трех инструкций до четырех за цикл, поскольку канал загрузки-хранилища был взят и разделен. В L1 также имеется двойной резервный буфер трансляции, а также улучшения, связанные с конфликтами банков.
Все это вместе обеспечивает впечатляющий прирост производительности Cortex-X4 от Arm. В целом, вы можете ожидать улучшения производительности в среднем на 15% с Cortex-X4. По кривой мощности и производительности, которую разделяет Arm, X4 опережает X3 как по производительности, так и по энергопотреблению. Другими словами, повышение производительности на 15% происходит при довольно значительном потреблении энергии. Однако стоит отметить, что это не совсем сравнение яблок с яблоками; В прошлом году Cortex-X3 поставлялся с 1 МБ кэш-памяти L2, а это означает, что если производитель будет придерживаться того же размера кэша L2 в этом году, не обязательно произойдет повышение производительности на 15%.
Однако одно можно сказать наверняка: если вы управляете X4 на максимальной скорости, он, скорее всего, будет большим пожирателем мощности. Возможно, в этом году некоторые OEM-производители продолжат делать то же, что и в прошлом году, и начнут ограничивать многие чипсеты этого года прямо из коробки. Например, OnePlus и Oppo делают то же самое, и благодаря этому повышается энергоэффективность при одновременной работе. производительности, как у X3, вполне вероятно, что эти компании получат выгоду от продолжения работы. так. Возможно, мы не увидим такого повышения производительности на 15% по всем направлениям, но вместо этого мы можем увидеть дальнейшее повышение эффективности для чипсетов следующего года.
Arm Cortex-A720: баланс производительности и энергопотребления
В то время как ядра серии Arm X обычно немного работают, серия ядер A обычно направлена на баланс энергопотребления и производительности. В Cortex-A720 Arm обещает на 20% более эффективное ядро с повышенной производительностью при той же мощности, что и у A715 в прошлом году.
Что касается улучшений A720 в этом году, большинство из них находятся в передней части. Конвейеры были сокращены за счет удаления одного цикла из механизма неверного прогнозирования ветвей, причем это сокращение за один цикл, как утверждается, приводит к увеличению контрольных показателей на 1%. Бенчмарки обычно дают наименьшее количество неправильных прогнозов ветвей, а это означает, что это, вероятно, улучшит общую реальную производительность на более значительную (но в значительной степени неизмеримую) величину.
В вышедшем из строя ядре мы видим ряд структурных улучшений, которые помогают повысить производительность, не влияя на площадь, занимаемую ядром, или его эффективность. Во-первых, как и в X4, операции деления с плавающей запятой и извлечения квадратного корня теперь конвейеризированы. Также реализован более быстрый перевод чисел с плавающей запятой, NEON и SVE2 в целые числа и другие общие улучшения для ускорения обработки.
Арм поделился приведенным выше графиком, чтобы проиллюстрировать сравнение A720 с прошлогодним A715 по производительности и эффективности, где в SPECint_base2006 используются процесс ISO и частота ISO. Размеры кэша также остаются прежними, так что это во многом сравнение яблок с яблоками.
С точки зрения энергопотребления A720 остается во многом на уровне прошлогодней модели, хотя при том же уровне мощности он демонстрирует немного большую производительность. В A720, как и в случае с X4, Arm, похоже, больше внимания уделяет тому, как он становится лучше. производительность за пределами прошлогодних ограничений по мощности, а не постоянное увеличение мощности, которую обеспечивают эти ядра. способен.
Arm Cortex A520: удвоение эффективности
Конечно, когда дело доходит до ядер Arm, дело не только в производительности. Поскольку серия X объединяет все в чистую вычислительную мощность, а A7xx уравновешивает вычислительные потребности и энергопотребление, серия A5xx фокусируется исключительно на эффективной обработке. Это ядро Arm v9.2 с самым низким энергопотреблением на каждую область, построенное на той же архитектуре с объединенными ядрами, которую мы видели в A510.
Эта архитектура с объединенным ядром означает, что некоторые ресурсы могут быть разделены между двумя ядрами, причем два ядра могут быть разделены между собой. сгруппированы в «комплекс». Кэш L2, резервный буфер трансляции L2 и пути векторных данных являются общими внутри этого сложный. Чтобы было ясно, это не значит, что это имеет объединяться в два ядра, а для пиковой производительности можно собрать одноядерный комплекс. Фактически, одна из показанных нам схем ядра TCS2023 от Arm включала одно ядро X4, пять ядер A720 и три ядра A520, а это означает, что по крайней мере одно ядро A520 находится изолированно.
A520 — это конструкция, ориентированная на эффективность, и, как и другие ядра, Arm в основном сосредоточилась на повышении этой эффективности при тех же мощностях, что и в прошлом поколении. Это включает в себя улучшение прогнозирования ветвей, а также удаление или уменьшение некоторых функций производительности. В результате эта производительность была восстановлена за счет повышения эффективности. Интересно также, что компания Arm удалила третий ALU, который был в A510, что позволило сэкономить энергию при выдаче логики и пересылке результатов.
Судя по реальным результатам, кажется, что A520 не так сильно отличается от своих предшественников, как A720 и X4. Большая часть его возможностей в более низких интервалах мощности перекрывается с A510 из приведенного выше графика, и только на верхних эшелонах производительности мы видим прирост эффективности. Разница в производительности и мощности между двумя ядрами является многообещающей, но неясно, увидим ли мы какие-либо реальные преимущества при сравнении A520 и A510. В конце концов, трудно правильно измерить разницу в производительности и эффективности между ними в реальном мире.
DSU-120: до 14 вычислительных ядер
Общий блок DynamIQ, или DSU, объединяет одно или несколько ядер с системой памяти L3, логикой управления и внешними интерфейсами для формирования многоядерного кластера. По сути, это ткань Arm, которая позволяет всем этим ядрам взаимодействовать друг с другом и совместно использовать ресурсы. Таким образом, это довольно важная часть головоломки для любого производителя чипсетов, желающего создать чип с основными разработками Arm.
Опираясь на DSU-110, компания Arm внесла в DSU-120 ряд улучшений, которые послужат улучшению всего чипа, в который он включен. Во-первых, теперь в каждом кластере имеется до 14 ядер (было 12) и поддерживается до 32 МБ кэш-памяти третьего уровня. Это также значительно повышает эффективность в ряде ключевых областей, в том числе в случае промахов кэша, а также снижает утечку энергии.
В некотором смысле, DSU от Arm является основой TCS23, поскольку он формирует основу того, как каждое из этих ядер взаимодействует друг с другом и обменивается данными. Любые улучшения здесь принесут пользу всему кластеру, но, похоже, большинство изменений связано с энергопотреблением и эффективностью.
Эффективность — новая цель
Похоже, что в отрасли уже некоторое время происходят изменения, но главное первое впечатление, которое я получаю от этих ядер, заключается в том, что эффективность теперь является главным приоритетом. Хотя нам рассказали о том, насколько быстрее ядро X4 и что это самое быстрое ядро компании за всю историю, они очень быстро отметили повышение эффективности работы при пиковой производительности прошлого года. вместо.
В целом, каждый прирост производительности был подкреплен тем, насколько более эффективным был этот компонент, и более или менее все изменения DSU касались эффективности и утечки мощности. Производительность важна, но на самом деле создается впечатление, что отрасль в целом пытается идти в ногу со временем. более эффективные уровни вычислений, а не стремление к значительному увеличению производительности из года в год.
Мы ожидаем, что эти ядра лягут в основу MediaTek Dimensity 9400 и Qualcomm Snapdragon 8 Gen 3, но в каком виде еще неизвестно. Как упоминалось ранее, Arm говорила об использовании схемы ядра 1+5+3 в своем собственном внутреннем тестировании, но это не значит, что это то, что такие партнеры, как MediaTek и Qualcomm, стремятся сделать сами.