Nowe rdzenie Cortex X4, A720 i A520 firmy Arm to rdzenie wyłącznie 64-bitowe, w których duży nacisk położono na wydajność

Zapowiedziano nowe rdzenie ARM w ramach Total Compute Solution na rok 2023 i są one całkiem interesujące.

Szybkie linki

Tylko wersja 64-bitowa: „Misja wykonana”

Arm Cortex-X4: Jeszcze większa wydajność i lepsza wydajność

Arm Cortex-A720: Równoważenie wydajności i zużycia energii

Arm Cortex A520: Podwojenie wydajności

DSU-120: Do 14 rdzeni mocy obliczeniowej

Efektywność jest nowym celem

Arm to firma, która projektuje prawie wszystkie rdzenie procesorów, które trafiają do Twojego smartfona z Androidem, i co roku ogłasza nowe iteracje, które później trafią do chipsetów, takich jak tegoroczny flagowy Snapdragon czy kolejny flagowy MediaTek Wymiar. W tym roku wypuszcza flagowy rdzeń Cortex-X4, wydajny rdzeń Cortex-A720 i wydajny rdzeń Cortex-A520. Rdzenie te stanowią podstawę nowych projektów firmy zgodnych z Arm v9.2 oraz rozwiązania Total Compute Solution na rok 2023, czyli TCS23. Co więcej, widzimy także nową jednostkę współdzieloną DynamIQ i zaktualizowany procesor graficzny Immortalis-G720. Większym problemem jest całkowite przejście na przetwarzanie 64-bitowe, przy czym żaden z tych rdzeni nie obsługuje trybu 32-bitowego.

Wszystkie trzy nowe rdzenie są następcami mikroarchitektury zeszłorocznych rdzeni i skupiają się przede wszystkim na wprowadzeniu IPC i zwiększeniu wydajności.

Tylko wersja 64-bitowa: „Misja wykonana”

Jedną z największych zmian w tegorocznym rozwiązaniu Total Compute Solution firmy ARM jest przejście wyłącznie na wersję 64-bitową. Podczas gdy zeszłoroczny A510R1 obsługiwał 32-bitowy tryb wykonywania AArch32, podobnie jak A710, który pojawił się na rynku w zeszłym roku z TCS22, w tym roku rdzenie Arma to tylko AArch64. Szczególnie od tego czasu zegar tyka w przypadku 32-bitowych aplikacji na Androida Sam Google nakazał aktualizację wszystkich aplikacji od 2019 roku są przesyłane jako 64-bitowe pliki binarne.

Jak to ujął Arm, przejście na wersję 64-bitową uznaje się za „misję wykonaną”. Powodem tego jest to, że chiński rynek aplikacji jest czym powstrzymało resztę branży w okresie przejściowym, ale zdecydowana większość aplikacji w chińskich sklepach z aplikacjami jest obecnie zgodna z systemem 64-bitowym, zbyt.

Powodem opóźnienia był brak ujednoliconego ekosystemu aplikacji, co oznacza, że różne sklepy z aplikacjami wymagały różnych standardów programistów. Ponieważ jednak Arm współpracował z różnymi sklepami z aplikacjami w Chinach i wielokrotnie ostrzegał, że nastąpi zmiana, te sklepy z aplikacjami również zachęcały programistów do zmiany.

Najwyraźniej nadszedł czas, aby to przejście nastąpiło w całości, a tak czy inaczej minie jeszcze kilka miesięcy, zanim zobaczymy rdzenie Arm w nowych chipsetach.

Arm Cortex-X4: Jeszcze większa wydajność i lepsza wydajność

Seria rdzeni X firmy Arm oddzieliła się od serii A kilka lat temu, zgodnie z filozofią, że jest to potężny rdzeń, który może pochłonąć nieco więcej mocy, gdy tego potrzebuje. Zazwyczaj producenci chipsetów dołączają maksymalnie jeden lub dwa z nich, ponieważ są energochłonni, nawet pomimo posiadanych możliwości.

Jak widać na powyższym wykresie, Cortex-X4 jest najpotężniejszym jak dotąd rdzeniem Arm, ale te możliwości obliczeniowe odbywają się kosztem zużycia energii. Cortex-X4 jest podobny do zeszłorocznego X3 i, jak to ujął Arm, może nawet pracować na tych samych częstotliwościach co rdzeń zeszłoroczny i zużywać do 40% mniej energii. Ma mniej niż 10% większy rozmiar fizyczny i jest najbardziej wydajnym rdzeniem Cortex-X, jaki kiedykolwiek zbudowano.

Jeśli chodzi o pochodzenie tych ulepszeń IPC, istnieje wiele ulepszeń front-end i back-end w X4. W przypadku tych ulepszeń front-endu włożono dużo pracy w ponowne napisanie i ulepszenie prognoz oddziałów, ponieważ nieprawidłowe przewidywania oddziałów są kosztowne z punktu widzenia wydajności. Arm obiecuje również, że pamięć podręczna L2 o wielkości 2 MB zapewnia wyższą wydajność, nie tyle w testach porównawczych, ale w rzeczywistym użyciu.

Nowy rdzeń Cortex-X4 zwiększa liczbę jednostek arytmetyczno-logicznych (ALU) z 6 do 8, dodaje dodatkową gałąź jednostka (w sumie 3), dodaje dodatkową jednostkę Multiply-Accumulatorator oraz potoki zmiennoprzecinkowe i pierwiastkowe operacje.

Jeśli chodzi o tył, istnieje również wiele ulepszeń. Generowanie adresu magazynu ładunku przeszło z trzech do czterech instrukcji na cykl, ponieważ potok magazynu ładunku został pobrany i podzielony. W L1 dostępny jest również podwójny bufor translacji, wraz z ulepszeniami dotyczącymi konfliktów bankowych.

Wszystko to razem zapewnia imponujący wzrost wydajności w procesorze Arm Cortex-X4. Podsumowując, dzięki Cortex-X4 można spodziewać się średnio 15% poprawy wydajności. Na krzywej mocy i wydajności udostępnionej przez Arm, X4 wyprzedza X3 zarówno pod względem wydajności, jak i zużycia energii. Innymi słowy, 15% poprawa wydajności wiąże się ze znacznym poborem mocy. Warto jednak wspomnieć, że nie jest to do końca porównanie jabłko-jabłko; Cortex-X3 został dostarczony w zeszłym roku z 1 MB pamięci podręcznej L2, co oznacza, że jeśli producent pozostanie w tym roku przy tym samym rozmiarze pamięci podręcznej L2, niekoniecznie nastąpi wzrost wydajności o 15%.

Jedno jest jednak pewne – jeśli używasz X4 z maksymalną prędkością, prawdopodobnie będzie on zużywał dużo energii. Być może w tym roku niektórzy producenci OEM będą nadal robić to samo, co w zeszłym roku i ograniczać działanie wielu tegorocznych chipsetów od razu po wyjęciu z pudełka. Na przykład OnePlus i Oppo to robią, zapewniając wzrost wydajności energetycznej przy jednoczesnej pracy punktów wydajności jak X3, prawdopodobne jest, że dalsze działania tych firm odniosą korzyści Więc. Być może nie zobaczymy ogólnego wzrostu wydajności o 15%, ale zamiast tego możemy zaobserwować dalszą poprawę wydajności w przypadku przyszłorocznych chipsetów.

Arm Cortex-A720: Równoważenie wydajności i zużycia energii

Podczas gdy rdzenie serii X firmy Arm są zazwyczaj pozostawiane do szaleństwa, seria rdzeni A zazwyczaj ma na celu zrównoważenie zużycia energii w stosunku do wydajności. Dzięki Cortex-A720 firma Arm obiecuje o 20% wydajniejszy rdzeń, ze zwiększoną wydajnością przy tej samej mocy, co A715 z zeszłego roku.

Jeśli chodzi o źródła tegorocznych ulepszeń A720, większość z nich dotyczy przodu. Rurociągi zostały skrócone po usunięciu jednego cyklu z silnika błędnego przewidywania gałęzi, przy czym uważa się, że ten spadek w jednym cyklu odpowiada 1% wzrostowi wskaźników referencyjnych. Testy porównawcze zazwyczaj dają najmniejszą liczbę błędnych przewidywań branżowych, co oznacza, że prawdopodobnie poprawi to ogólną wydajność w świecie rzeczywistym o bardziej znaczącą (ale w dużej mierze niemierzalną) kwotę.

W rdzeniu poza kolejnością widzimy szereg ulepszeń strukturalnych, które pomagają poprawić wydajność bez wpływu na obszar zajmowany przez rdzeń lub jego wydajność. Na początek, podobnie jak w X4, dzielenie zmiennoprzecinkowe i operacje na pierwiastkach kwadratowych są teraz wykonywane potokowo. Dostępne są także szybsze transfery z liczb zmiennoprzecinkowych, NEON i SVE2 na liczby całkowite oraz inne ogólne ulepszenia przyspieszające przetwarzanie.

Arm udostępnił powyższy wykres, aby zilustrować porównanie A720 z zeszłorocznym A715 pod względem wydajności i wydajności, gdzie w SPECint_base2006 zastosowano proces ISO i częstotliwość ISO. Rozmiary pamięci podręcznej również pozostają takie same, więc jest to w dużej mierze porównanie jabłek z jabłkami.

Pod względem zużycia energii A720 pozostaje podobny do zeszłorocznego modelu, chociaż zapewnia nieco większą wydajność przy tym samym poziomie mocy. W przypadku A720, podobnie jak w przypadku X4, Arm wydaje się bardziej skupiać na podkreślaniu tego, jak jest coraz lepiej wydajność dzięki zeszłorocznym ograniczeniom mocy, zamiast ciągłego zwiększania mocy tych rdzeni zdolny do.

Arm Cortex A520: Podwojenie wydajności

Oczywiście w przypadku rdzeni Arma nie chodzi tylko o wydajność. Ponieważ seria X stawia wszystko na surową moc obliczeniową, a A7xx równoważy potrzeby obliczeniowe i pobór mocy, seria A5xx koncentruje się wyłącznie na wydajnym przetwarzaniu. Jest to rdzeń Arm v9.2 o najniższej mocy na obszar i oparty na tej samej architekturze scalonego rdzenia, którą wprowadzono w A510.

Architektura z połączonym rdzeniem oznacza, że niektóre zasoby mogą być współdzielone pomiędzy dwoma rdzeniami, tam gdzie mogą być dwa rdzenie pogrupowane w „kompleks”. Pamięć podręczna L2, bufor podglądu translacji L2 i ścieżki danych wektorowych są w nim współdzielone złożony. Żeby było jasne, to nie oznacza tego ma można połączyć w dwa rdzenie, a kompleks jednordzeniowy można złożyć w celu uzyskania maksymalnej wydajności. W rzeczywistości jeden z układów rdzenia TCS2023 firmy Arm, który nam pokazali, obejmował pojedynczy rdzeń X4, pięć rdzeni A720 i trzy rdzenie A520, co oznacza, że co najmniej jeden rdzeń A520 jest izolowany.

A520 to konstrukcja stawiająca na wydajność i podobnie jak inne rdzenie, Arm skupił się głównie na poprawie tej wydajności przy tych samych punktach mocy, co poprzednia generacja. Obejmuje to ulepszanie przewidywań gałęzi, a także usuwanie lub zmniejszanie niektórych funkcji wydajności. W rezultacie wydajność ta została odzyskana dzięki większej wydajności. Co ciekawe, Arm usunął trzecią jednostkę ALU, która znajdowała się w A510, oszczędzając energię przy wydawaniu logiki i przekazywaniu wyników.

W rzeczywistych wynikach wydaje się, że A520 nie stanowi tak dużego skoku w stosunku do swoich poprzedników, jak A720 i X4. Duża część jego możliwości przy niższych przedziałach mocy pokrywa się z możliwościami A510 z powyższego wykresu i tylko na wyższych poziomach wydajności widzimy wzrost wydajności. Rozbieżność w wydajności i mocy pomiędzy dwoma rdzeniami jest obiecująca, ale nie jest jasne, czy porównując A520 z A510 zobaczymy jakiekolwiek rzeczywiste korzyści. W końcu trudno właściwie zmierzyć różnice w wydajności i wydajności między nimi w prawdziwym świecie.

DSU-120: Do 14 rdzeni mocy obliczeniowej

Jednostka współdzielona DynamIQ, w skrócie DSU, to jednostka integrująca jeden lub więcej rdzeni z systemem pamięci L3, logiką sterującą i interfejsami zewnętrznymi w celu utworzenia klastra wielordzeniowego. Zasadniczo jest to struktura Arma, która pozwala wszystkim tym rdzeniom komunikować się ze sobą i dzielić zasoby dlatego jest to dość ważny element układanki dla każdego producenta chipsetów, który chce zbudować chip oparty na podstawowych projektach Arma.

Opierając się na DSU-110, firma Arm wprowadziła szereg ulepszeń do DSU-120, które przyniosą korzyści całemu układowi, w którym jest on zawarty. Na początek jest teraz do 14 rdzeni na klaster (w porównaniu z 12) i obsługa do 32 MB pamięci podręcznej L3. Znacząco poprawia również wydajność w wielu kluczowych obszarach, w tym w przypadku chybień pamięci podręcznej, jednocześnie zmniejszając straty mocy.

W pewnym sensie DSU Arma jest szkieletem TCS23, ponieważ stanowi podstawę interakcji każdego z tych rdzeni ze sobą i udostępniania danych. Wszelkie ulepszenia w tym miejscu przyniosą korzyści całemu klasterowi, ale wydaje się, że większość zmian dotyczy zużycia energii i wydajności.

Efektywność jest nowym celem

Najwyraźniej od jakiegoś czasu branża się zmienia, ale główne pierwsze wrażenie, jakie wywieram na podstawie tych rdzeni, jest takie, że najważniejsza jest teraz wydajność. Chociaż powiedziano nam, o ile szybszy jest rdzeń X4 i że jest to najszybszy rdzeń firmy w historii, bardzo szybko zauważyli poprawę wydajności wynikającą z działania go przy szczytowej wydajności z zeszłego roku Zamiast.

Ogólnie rzecz biorąc, każdy wzrost wydajności był uzasadniony tym, o ile bardziej wydajny był ten komponent, a mniej więcej wszystkie zmiany w DSU dotyczyły wydajności i wycieków mocy. Wydajność jest ważna, ale naprawdę wydaje się, że cała branża stara się zyskać na popularności bardziej wydajne poziomy obliczeniowe, zamiast dążyć do ogromnego wzrostu wydajności z roku na rok.

Oczekujemy, że rdzenie te staną się podstawą MediaTek Dimensity 9400 i Qualcomm Snapdragon 8 Gen 3, ale w jakiej formacji to się okaże. Jak wspomniano wcześniej, Arm mówił o zastosowaniu układu rdzeni 1+5+3 w swoich własnych testach wewnętrznych, ale to nie znaczy, że partnerzy tacy jak MediaTek i Qualcomm chcą tego sami dokonać.