Було оголошено про нові ядра Arm як частину її Total Compute Solution на 2023 рік, і вони досить цікаві.
Швидкі посилання
- Лише 64-розрядний: "Місія виконана"
- Arm Cortex-X4: ще більша продуктивність і ефективність
- Arm Cortex-A720: баланс продуктивності та енергоспоживання
- Arm Cortex A520: подвоєна ефективність
- DSU-120: до 14 ядер обчислювальної якості
- Ефективність – це нова мета
Arm – це компанія, яка розробляє майже всі процесорні ядра, які зрештою використовуються у вашому смартфоні Android, і щороку вона анонсує нові ітерації, які згодом знайдуть свій шлях до чіпсетів, таких як флагман того року Snapdragon або наступний флагман MediaTek Розмірність. Цього року він випускає флагманське ядро Cortex-X4, продуктивне ядро Cortex-A720 і ефективне ядро Cortex-A520. Ці ядра складають основу нових сумісних дизайнів компанії Arm v9.2 і Total Compute Solution для 2023 року, або TCS23. Крім того, ми також бачимо новий спільний блок DynamIQ і оновлений графічний процесор Immortalis-G720. Ще більшим є повний перехід до 64-розрядних обчислень, при цьому жодне з цих ядер не підтримує 32-розрядні.
Усі три нові ядра є мікроархітектурними наступниками минулорічних і в основному зосереджені на запровадженні IPC та підвищенні ефективності.
Лише 64-розрядний: "Місія виконана"
Однією з найбільших змін у цьогорічному Total Compute Solution від Arm є перехід лише на 64-розрядну версію. Хоча минулорічний A510R1 підтримував 32-розрядний режим виконання AArch32, як і A710, який був запущений з TCS22 минулого року, цього року ядра Arm — лише AArch64. Годинник цокає для 32-розрядних програм на Android, особливо з тих пір Сама Google зобов’язала оновлювати всі програми з 2019 року завантажуються як 64-розрядні двійкові файли.
За словами Арма, 64-бітний перехід вважається «місія виконана». Причина цього в тому, що китайський ринок додатків є що стримували решту індустрії в перехідному періоді, але переважна більшість програм у китайських магазинах програм тепер сумісні з 64-розрядними версіями, теж.
Причиною затримки стала відсутність однорідної екосистеми додатків, тобто різні магазини додатків вимагали різних стандартів розробників. Оскільки Arm працював з різними магазинами додатків у Китаї, разом із неодноразовими попередженнями про те, що зміни відбудуться, ці магазини додатків також заохочували розробників переходити.
Зараз, здається, настав час, щоб цей перехід відбувся в повному обсязі, і мине ще кілька місяців, поки ми не побачимо ці ядра Arm у нових чіпсетах.
Arm Cortex-X4: ще більша продуктивність і ефективність
Кілька років тому серія ядер Arm X відійшла від серії A, при цьому філософія полягала в тому, що це потужне ядро, яке може споживати трохи більше енергії, коли це потрібно. Як правило, виробники чіпсетів включають лише один або два з них максимум, оскільки вони потребують енергії, навіть незважаючи на можливості, які вони також мають.
Як ви можете бачити з наведеного вище графіка, Cortex-X4 є найпотужнішим ядром Arm на сьогоднішній день, але ці обчислювальні можливості забезпечуються ціною енергоспоживання. Cortex-X4 схожий на минулорічний X3, і, як стверджує Arm, він навіть може працювати на тих самих частотах, що й торішнє ядро, і споживати до 40% менше енергії. Він менш ніж на 10% більший за фізичним розміром і є найефективнішим ядром Cortex-X, коли-небудь створеним.
Що стосується того, звідки походять ці вдосконалення IPC, то в X4 є ряд удосконалень інтерфейсу та серверу. У цих удосконаленнях інтерфейсу багато роботи було вкладено в переписування та покращення передбачень розгалужень, оскільки неправильні передбачення розгалужень є дорогими з точки зору продуктивності. Arm також обіцяє, що розмір кешу L2 у 2 МБ забезпечує вищу продуктивність не стільки в тестах, скільки в реальному використанні.
Нове ядро Cortex-X4 збільшує кількість арифметично-логічних блоків (ALU) з 6 до 8, додає додаткову гілку (загалом 3), додає додатковий модуль Multiply-Accumulatator, а також конвеєри з плаваючою комою та квадратний корінь операції.
Що стосується задньої частини, то тут також є ряд покращень. Генерація адреси збереження завантаження перейшла з трьох інструкцій до чотирьох за цикл, оскільки канал збереження завантаження було взято та розділено. У L1 також є подвоєний буфер перегляду перекладу, а також покращення банківських конфліктів.
Все це об’єднується, щоб забезпечити вражаюче підвищення продуктивності Cortex-X4 від Arm. Загалом, ви можете очікувати в середньому 15% підвищення продуктивності з Cortex-X4. У кривій потужності та продуктивності, яку поділяє Arm, X4 випереджає X3 як за продуктивністю, так і за енергоспоживанням. Іншими словами, підвищення продуктивності на 15% забезпечується досить значним споживанням енергії. Варто також зазначити, що це не зовсім порівняння яблук з яблуками; Минулого року Cortex-X3 поставлявся з 1 МБ кешу L2, а це означає, що якщо виробник цього року дотримуватиметься того самого розміру кешу L2, продуктивність не обов’язково може підвищитися на 15%.
Однак одне можна сказати напевно, і це те, що якщо ви працюєте з X4 на максимальній швидкості, він, ймовірно, буде великим пожирачем енергії. Цього року ми можемо побачити, що деякі OEM-виробники продовжуватимуть робити те, що вони робили минулого року, і придушуватимуть багато цьогорічних наборів мікросхем із коробки. Наприклад, OnePlus і Oppo обидва роблять це, і з цим збільшенням енергоефективності під час роботи на одному рівні продуктивності, як у X3, імовірно, ці компанії отримають переваги від продовження роботи так. Можливо, ми не побачимо такого підвищення продуктивності на 15% загалом, але натомість ми можемо побачити подальше підвищення ефективності для чіпсетів наступного року.
Arm Cortex-A720: баланс продуктивності та енергоспоживання
У той час як ядра серії X від Arm, як правило, розпущені, ядра серії A зазвичай спрямовані на те, щоб збалансувати енергоспоживання та продуктивність. З Cortex-A720 Arm обіцяє на 20% ефективніше ядро з підвищеною продуктивністю при тій самій потужності, що й минулорічний A715.
Що стосується цьогорічних удосконалень A720, більшість із них у передній частині. Конвеєри були скорочені за рахунок вилучення одного циклу з механізму помилкового прогнозування гілок, причому, як кажуть, це падіння за один цикл пояснює 1% збільшення контрольних показників. Порівняльні показники зазвичай призводять до найменшої кількості помилкових прогнозів щодо гілок, що означає, що це, ймовірно, покращить загальну продуктивність у реальному світі на більш значну (але здебільшого невимірну) суму.
У несправному ядрі ми бачимо низку структурних покращень, які допомагають покращити продуктивність, не впливаючи на площу, яку займає ядро, або на його ефективність. Для початку, так само, як і в X4, операції поділу з плаваючою комою та квадратного кореня тепер конвеєрні. Також передбачено швидший перехід від чисел з плаваючою комою, NEON і SVE2 до цілих та інші загальні покращення для прискорення обробки.
Arm поділився наведеним вище графіком, щоб проілюструвати, як A720 порівнює з минулорічним A715 у продуктивності та ефективності, де процес ISO та частота ISO використовуються в SPECint_base2006. Розміри кеш-пам’яті також залишаються незмінними, тож це порівняння між яблуками.
З точки зору енергоспоживання, A720 залишається таким же, як і торішня модель, хоча він демонструє трохи більшу продуктивність за тих самих рівнів потужності. З A720, як і з X4, Arm, здається, більше зосереджується на підкресленні того, як він стає кращим продуктивність порівняно з минулорічними обмеженнями потужності, а не постійним збільшенням потужності цих ядер здатний.
Arm Cortex A520: подвоєна ефективність
Звичайно, коли справа доходить до ядер Arm, справа не тільки в продуктивності. У серії X все вдається до простої обчислювальної потужності, а A7xx балансує між обчислювальними потребами та енергоспоживанням, а серія A5xx зосереджена виключно на ефективній обробці. Це ядро Arm v9.2 з найнижчим енергоспоживанням на площу, яке базується на тій самій архітектурі з об’єднаними ядрами, яку ми бачили в A510.
Ця архітектура об’єднаного ядра означає, що деякі ресурси можуть бути спільними між двома ядрами, де два ядра можуть бути згруповані в «комплекс». Кеш L2, буфер перекладу L2 і векторні шляхи даних використовуються в цьому складні. Щоб було зрозуміло, це не означає має об’єднувати в два ядра, а для максимальної продуктивності можна зібрати одноядерний комплекс. Фактично, один із макетів ядер TCS2023 від Arm, які вони нам показали, включав одне ядро X4, п’ять ядер A720 і три ядра A520, тобто принаймні одне ядро A520 знаходиться в ізоляції.
A520 — це конструкція, насамперед ефективна, і, як і інші ядра, Arm зосередився на підвищенні цієї ефективності за тих самих точок потужності, що й останнє покоління. Це включає в себе покращення передбачень розгалужень, а також видалення або зменшення деяких функцій продуктивності. В результаті ця продуктивність була відновлена завдяки більшій ефективності. Також цікаво, що Arm видалив третій ALU, який був у A510, заощадивши енергію під час видачі логіки та результатів пересилання.
У реальних результатах здається, що A520 не такий великий стрибок у порівнянні зі своїми попередниками, як A720 і X4. Значна частина його можливостей на нижчих інтервалах потужності збігається з A510 із наведеного вище графіка, і лише на вищих ешелонах продуктивності ми бачимо підвищення ефективності. Різниця в продуктивності та потужності між двома ядрами є багатообіцяючою, але незрозуміло, чи побачимо ми реальні переваги в реальному світі, порівнюючи A520 з A510. Зрештою, у реальному світі важко правильно виміряти відмінності в продуктивності та ефективності між ними.
DSU-120: до 14 ядер обчислювальної якості
Спільний блок DynamIQ, або DSU, об’єднує одне або більше ядер із системою пам’яті L3, логікою керування та зовнішніми інтерфейсами для формування багатоядерного кластера. По суті, це структура Arm, яка дозволяє всім цим ядрам спілкуватися одне з одним і спільно використовувати ресурси, а також таким чином, це досить важлива частина головоломки для будь-якого виробника чіпсетів, який прагне створити чіп із основними конструкціями Arm.
Спираючись на DSU-110, Arm внесла ряд удосконалень у DSU-120, які сприятимуть покращенню всього чіпа, до якого він включений. По-перше, тепер у кластері є до 14 ядер (з 12) і підтримується до 32 МБ кешу L3. Це також значно підвищує ефективність у ряді ключових областей, у тому числі у випадку промахів кешу, а також зменшує витік електроенергії.
У певному сенсі DSU від Arm є основою TCS23, оскільки вона формує основу того, як кожне з цих ядер взаємодіє одне з одним і обмінюється даними. Будь-які вдосконалення тут підуть на користь усьому кластеру, але, здається, більшість змін пов’язані з енергоспоживанням і ефективністю.
Ефективність – це нова мета
Здавалося б, галузь деякий час змінювалася, але головне перше враження, яке я отримаю від цих ядер, полягає в тому, що ефективність тепер є назвою гри. Хоча нам розповідали про те, наскільки швидше ядро X4 і як це найшвидше ядро компанії в історії, вони дуже швидко помітили покращення ефективності завдяки його роботі на піковій продуктивності минулого року замість цього.
Загалом кожне підвищення продуктивності було підкріплено тим, наскільки ефективнішим був цей компонент, і більш-менш усі зміни DSU стосувалися ефективності та витоку електроенергії. Ефективність важлива, але справді відчувається, що галузь загалом намагається йти в ногу з часом обчислювальні рівні більш ефективні, а не значне зростання продуктивності з року в рік.
Ми очікуємо, що ці ядра ляжуть в основу MediaTek Dimensity 9400 і Qualcomm Snapdragon 8 Gen 3, але в якому вигляді ще невідомо. Як згадувалося раніше, Arm говорив про використання макета ядер 1+5+3 під час власного внутрішнього тестування, але це не означає, що партнери, такі як MediaTek і Qualcomm, прагнуть зробити це самостійно.