Новите Cortex X4, A720 и A520 на Arm са само 64-битови ядра с голям фокус върху ефективността

Новите ядра на Arm като част от неговото Total Compute Solution за 2023 г. бяха обявени и те са доста интересни.

бързи връзки

  • Само 64-битов: „Мисията е изпълнена“
  • Arm Cortex-X4: Още повече производителност и по-добра ефективност
  • Arm Cortex-A720: Балансиране на производителността и консумацията на енергия
  • Arm Cortex A520: Удвояване на ефективността
  • DSU-120: До 14 изчислителни ядра
  • Ефективността е новата цел

Arm е компанията, която проектира почти всички процесорни ядра, които в крайна сметка се използват във вашия смартфон с Android, и всяка година обявява нови итерации, които по-късно ще намерят своето място в чипсети като флагмана Snapdragon от тази година или следващия флагман MediaTek Измереност. Тази година той пуска водещо ядро ​​Cortex-X4, ядро ​​за производителност Cortex-A720 и ядро ​​за ефективност Cortex-A520. Тези ядра формират основата на новия Arm v9.2 съвместим дизайн на компанията и Total Compute Solution на компанията за 2023 г. или TCS23. На всичкото отгоре виждаме и ново споделено устройство DynamIQ и актуализиран графичен процесор Immortalis-G720. Още по-голямо е пълният преход към 64-битови изчисления, като нито едно от тези ядра не поддържа 32-битови.

И трите нови ядра са микроархитектурни наследници на миналогодишните и са фокусирани основно върху въвеждането на IPC и повишаване на ефективността.

Само 64-битов: „Мисията е изпълнена“

Една от най-големите промени в тазгодишното Total Compute Solution от Arm е преходът само към 64 бита. Докато миналогодишният A510R1 поддържаше 32-битов режим на изпълнение AArch32, както и A710, който стартира с TCS22 миналата година, тази година ядрата на Arm са само AArch64. Часовникът тиктака за 32-битовите приложения на Android, особено след това Самият Google е наредил всички приложения да се актуализират от 2019 г се качват като 64-битови двоични файлове.

Както казва Arm, 64-битовият преход се счита за „завършена мисия“. Причината за това е, че китайският пазар на приложения е какво задържа останалата част от индустрията в прехода, но по-голямата част от приложенията в китайските магазини за приложения вече са 64-битови съвместими, също.

Причината за забавянето беше липсата на хомогенизирана екосистема за приложения, което означава, че различните магазини за приложения изискват различни стандарти на разработчиците. Тъй като Arm работи с различни магазини за приложения в Китай, наред с многократните предупреждения, че ще се случи промяна, тези магазини за приложения насърчават и разработчиците да сменят.

Сега изглежда е дошло времето този преход да се случи изцяло и така или иначе ще има още няколко месеца, докато видим тези Arm ядра в нови чипсети.

Arm Cortex-X4: Още повече производителност и по-добра ефективност

Серията ядра X на Arm се отклони от своята серия A преди няколко години, като философията е, че това е мощно ядро, на което е позволено да поглъща малко повече мощност, когато има нужда от нея. Обикновено производителите на чипсети включват максимум един или два от тях, тъй като са гладни за енергия, дори въпреки възможностите, които имат.

Както можете да видите от горната графика, Cortex-X4 е най-мощното Arm ядро ​​досега, но тези изчислителни възможности идват с цената на консумация на енергия. Cortex-X4 е подобен на миналогодишния X3 и както казва Arm, дори може да работи на същите честоти като ядрото от миналата година и да използва до 40% по-малко енергия. Той е с по-малко от 10% по-голям като физически размер и е най-ефективното Cortex-X ядро, правено някога.

Що се отнася до това откъде идват тези IPC подобрения, има редица предни и бек-енд подобрения на X4. В тези подобрения на предния край беше положен голям обем работа за пренаписване и подобряване на прогнозите за разклонения, тъй като неправилните прогнози за разклонения са скъпи от гледна точка на производителността. Arm също така обещава, че размер на L2 кеш от 2MB дава по-висока производителност, не толкова в бенчмаркове, колкото в реално използване.

Новото ядро ​​Cortex-X4 увеличава броя на аритметичните логически единици (ALU) от 6 на 8, добавя допълнителен клон единица (за общо 3), добавя допълнителна единица Multiply-Accumulatator и тръбопроводи с плаваща запетая и квадратен корен операции.

Що се отнася до задната част, също има редица подобрения. Генерирането на адреси за зареждане за съхранение премина от три инструкции на четири на цикъл, тъй като каналът за зареждане за съхранение беше взет и разделен. Има също така удвоен буфер за превод в L1, заедно с подобрения в банковия конфликт.

Всичко това се събира, за да донесе впечатляващо повишаване на производителността в Cortex-X4 на Arm. Като цяло можете да очаквате средно 15% подобрение на производителността с Cortex-X4. В кривата на мощността и производителността, споделена от Arm, X4 се простира пред X3 както в производителността, така и в консумацията на енергия. С други думи, това 15% подобрение на производителността идва при доста значителна мощност. Струва си да се спомене също, че това не е съвсем сравнение на ябълки с ябълки; Cortex-X3 дойде с 1MB L2 кеш миналата година, което означава, че ако производителят се придържа към същия размер на L2 кеш тази година, може да не е задължително да има 15% увеличение на производителността.

Едно нещо е сигурно обаче, и то е, че ако работите с X4 на максимална скорост, той вероятно ще бъде голям поглъщач на енергия. Може да видим някои производители на оригинално оборудване през тази година да продължат да правят това, което направиха миналата година и да дроселират много от тазгодишните чипсети извън кутията. Например OnePlus и Oppo правят това и с тези печалби на енергийна ефективност, когато работят на същото ниво точки за производителност като X3, вероятно ще има ползи за тези компании да продължат да работят така. Може да не видим това увеличение на производителността от 15% навсякъде, но вместо това може да видим допълнителни подобрения на ефективността за чипсетите от следващата година.

Arm Cortex-A720: Балансиране на производителността и консумацията на енергия

Докато серията X ядра на Arm обикновено се оставят да се развихрят малко, серията ядра A обикновено има за цел да балансира консумацията на енергия спрямо производителността. С Cortex-A720 Arm обещава 20% по-ефективно ядро, с повишена производителност при същата мощност като A715 от миналата година.

Що се отнася до това откъде идват тазгодишните подобрения на A720, повечето от тях са в предния край. Тръбопроводите са съкратени с един цикъл, премахнат от двигателя за погрешно прогнозиране на разклоненията, като се казва, че този спад в единичен цикъл представлява 1% увеличение на показателите. Бенчмарковете обикновено водят до най-малко погрешни прогнози за клонове, което означава, че това вероятно ще подобри цялостната производителност в реалния свят с по-значителна (но до голяма степен неизмерима) сума.

В ядрото извън ред виждаме редица структурни подобрения, които помагат за подобряване на производителността, без да се засяга площта, заета от ядрото, или неговата ефективност. За начало, точно както в X4, операциите за деление с плаваща запетая и квадратен корен вече са конвейерни. Има и по-бързи трансфери от числа с плаваща запетая, NEON и SVE2 към цели числа и други цялостни подобрения за ускоряване на обработката.

Arm сподели горната графика, за да илюстрира как A720 се сравнява с миналогодишния A715 по производителност и ефективност, където ISO процес и ISO честота се използват в SPECint_base2006. Размерите на кеша също остават същите, така че това е много сравнение на ябълки с ябълки.

По отношение на консумацията на енергия, A720 остава в съответствие с миналогодишния модел, въпреки че показва малко повече производителност при същите нива на мощност. С A720, както и с X4, Arm изглежда се фокусира повече върху подчертаването на това как се подобрява производителност от миналогодишните ограничения на мощността, вместо непрекъснато увеличаване на мощността, която имат тези ядра способен на.

Arm Cortex A520: Удвояване на ефективността

Разбира се, когато става дума за ядрата на Arm, не всичко опира до производителност. Със серията X, която поставя всичко в сурова изчислителна мощност, а A7xx балансира изчислителните нужди и консумираната мощност, серията A5xx се фокусира изцяло върху ефективната обработка. Това е ядрото Arm v9.2 с най-ниска мощност на площ и се основава на същата архитектура със слято ядро, която видяхме въведена с A510.

Това, което означава тази обединена основна архитектура, е, че някои ресурси могат да се споделят между две ядра, където две ядра могат да бъдат групирани в "комплекс". L2 кешът, L2 буферът за транслация и векторните пътеки на данни се споделят в това комплекс. За да бъде ясно, това не означава има да бъдат групирани в две ядра и може да се сглоби едноядрен комплекс за върхова производителност. Всъщност едно от оформленията на ядрото TCS2023 на Arm, което те ни показаха, включва едно ядро ​​X4, пет ядра A720 и три ядра A520, което означава, че поне едно ядро ​​A520 е изолирано.

A520 е дизайн на първо място за ефективност и подобно на другите ядра, Arm се фокусира до голяма степен върху подобряването на тази ефективност при същите точки на мощност като последното поколение. Това включва подобряване на прогнозите за разклонения, като същевременно премахва или намалява мащаба на някои функции за ефективност. В резултат на това това представяне беше възстановено чрез по-голяма ефективност. Интересното е също, че Arm премахна третото ALU, което беше в A510, спестявайки енергия при издаване на логика и препращане на резултати.

В резултатите от реалния свят изглежда, че A520 не е толкова голям скок от своите предшественици, колкото A720 и X4. Голяма част от възможностите му при по-ниски интервали на мощност се припокриват с A510 от горната графика и само в горните ешелони на производителност виждаме подобрения в ефективността. Разликата в производителността и мощността между двете ядра е обещаваща, но не е ясно дали ще видим някакви действителни предимства в реалния свят, когато сравняваме A520 с A510. В края на краищата е трудно действително правилно да се измерят разликите в производителността и ефективността между двете в реалния свят.

DSU-120: До 14 изчислителни ядра

Споделеното устройство DynamIQ, или DSU, е интегриращо едно или повече ядра със система L3 памет, контролна логика и външни интерфейси, за да се образува многоядрен клъстер. По същество това е тъканта на Arm, която позволява на всички тези ядра да комуникират помежду си и да споделят ресурси, и като като такъв, това е доста важна част от пъзела за всеки производител на чипсети, който иска да изгради чип с основния дизайн на Arm.

Надграждайки DSU-110, Arm направи редица подобрения на DSU-120, които ще послужат в полза на целия чип, в който е включен. Като за начало, сега има до 14 ядра на клъстер (от 12) и поддръжка за до 32 MB L3 кеш. Той също така значително подобрява ефективността в редица ключови области, включително в случай на пропуски в кеша, като същевременно намалява изтичането на енергия.

В известен смисъл DSU на Arm е гръбнакът на TCS23, тъй като формира основата за това как всяко от тези ядра взаимодейства едно с друго и споделя данни. Всякакви подобрения тук ще бъдат от полза за целия клъстер, но изглежда повечето от промените са свързани с консумацията на енергия и ефективността.

Ефективността е новата цел

Индустрията изглежда се променя от известно време, но основното първо впечатление, което получавам от тези ядра, е, че ефективността вече е името на играта. Докато ни беше казано колко по-бързо е ядрото на X4 и как то е най-бързото ядро ​​на компанията досега, те много бързо забелязаха подобренията в ефективността от работата му при пиковите резултати от миналата година вместо.

Като цяло всяко увеличение на производителността беше подкрепено от това колко по-ефективен е този компонент и повече или по-малко всички промени на DSU бяха в ефективността и изтичането на мощност. Ефективността е важна, но наистина се усеща, че индустрията като цяло се опитва да стане актуална изчислителните нива са по-ефективни, вместо да се стремим към масивни увеличения на производителността от година на година.

Очакваме, че тези ядра ще формират основата на MediaTek Dimensity 9400 и Qualcomm Snapdragon 8 Gen 3, но в каква форма остава да видим. Както споменахме по-рано, Arm говори за използването на 1+5+3 ядрено оформление в собственото си вътрешно тестване, но това не означава, че това е, което партньори като MediaTek и Qualcomm искат да направят сами.