ARM ogłosił architekturę procesora Cortex-A78 oraz procesor graficzny Mali-G78. Obydwa są następcami procesora Cortex-A77 i procesora graficznego Mali-G77.
W ramach TechDay 2020 firma ARM ogłosiła trzy główne ogłoszenia. Najważniejszym ogłoszeniem jest program Cortex-X Custom (CXC), zawierający nowość Rdzeń procesora Cortex-X1. Cortex-X1 zapewnia wyższą wydajność szczytową niż jakikolwiek inny procesor z serii Cortex-A, jednocześnie przełamując obwiednię PPA serii Cortex-A. Pozostałe dwa ogłoszenia wydane przez ARM były o wiele bardziej rutynowe. Procesory Cortex-A78 i Mali-G78 są już oficjalne i pełnią rolę następców procesorów Kora-A77 Procesor i Mali-G77 Procesor odpowiednio. Omówmy te ogłoszenia jeden po drugim:
Kora ARM-A78
W przypadku Cortex-A78 firma ARM skupiła się głównie na wymaganiach dotyczących wydajności, takich jak wymagania dotyczące dłuższej żywotności baterii, nowych mobilnych form i kurczących się obszarów SoC. Trwała wydajność jest tutaj słowem kluczowym dla Cortex-A78, podczas gdy Cortex-X1 celuje w gwiazdy, a jego celem jest osiągnięcie maksymalnej krótkoterminowej wydajności szczytowej.
ARM twierdzi, że Cortex-78 reprezentuje „najlepsze” cechy swojego dążenia do najwyższej wydajności przy najlepszej w swojej klasie wydajności. To nie są też tylko puste słowa. Przez ostatnie kilka lat Cortex-A76 i Cortex-A77 wykazały najlepszą w swojej klasie efektywność energetyczną i najlepszy w swojej klasie PPA (wydajność, moc i powierzchnia). Nie posiadały konstrukcji wymaganej do konkurowania z chipami Apple z serii A, ale ze względu na niższą konstrukcję generowanej mocy, ich efektywność energetyczna była w najgorszym przypadku taka sama jak Apple, a w najlepszym razie nawet wyższa Jabłko.
Ulepszenia wydajności A78 obejmują przypadki użycia związane z produktywnością, komunikacją, bezpieczeństwem i zadaniami opartymi na kamerze, zaawansowanymi grami, rozwiązaniami XR i ML.
Jeśli chodzi o stałą wydajność, Cortex-A78 zapewnia dwucyfrową poprawę. Zapewnia 20% poprawę trwałej wydajności w porównaniu do swojego poprzednika, Cortex-A77, przy tej samej mobilnej obwiedni mocy cieplnej. AnandTech przejrzał liczby i wyjaśnił, że liczba 20% to połączenie o 7% wyższego IPC w porównaniu z A77, podczas gdy pozostałe 13% wzrostu wydajności przypisuje się procesowi 5 nm, w którym wszystkie SoC nowej generacji będą sfabrykowany. ARM zauważa znaczenie trwałej wydajności, twierdząc, że urządzenia mobilne mają ograniczoną pojemność rozpraszają moc, a stała wydajność pozwala uniknąć dławienia mocy w przypadku zastosowań wymagających dużej mocy moc. To z kolei poprawia UX, unikając opóźnień i spadków klatek.
Nacisk na efektywność energetyczną przekłada się na wyższą efektywność energetyczną, ponieważ są to powiązane, ale różne koncepcje. Według ARM w punktach o wysokiej wydajności, takich jak te, które są szczytowe dla obecnych urządzeń mobilnych, Cortex-A78 zapewnia 50% oszczędności energii w porównaniu z urządzeniami z 2019 roku przy tym samym występie jako Cortex-A77. To robi wrażenie i sprawia, że A78 jest najbardziej energooszczędnym procesorem Cortex-A, jaki kiedykolwiek zaprojektowano.
Skoncentrowanie się firmy ARM na trwałej wydajności przyniesie korzyści kolejnej fali innowacji mobilnych, takich jak nowe obudowy (telefony składane), a także ulepszona „zanurzenie cyfrowe” dzięki 5G. Rzeczywistość pokazuje, że nie dotyczy to obecnego pokolenia i nie będzie miało to większego znaczenia nawet w następnym pokoleniu.
Jednym z przypadków użycia, który zostanie ulepszony przez Cortex-A78, są gry mobilne AAA w połączeniu z nowym procesorem graficznym Mali-G78 firmy ARM. Połączenie tych dwóch rozwiązań ma na celu zapewnienie wysokiej jakości wrażeń z gier na urządzeniach mobilnych. Ich większa wydajność, w połączeniu z dużą szybkością i dużą przepustowością sieci 5G, umożliwi granie w najwyższej jakości na urządzeniach mobilnych. Wydajność A78 ma tutaj zaletę, ponieważ zapewnia dłuższą żywotność baterii podczas dłuższej rozgrywki. ARM twierdzi, że współpracuje również z ekosystemem, aby jeszcze bardziej zwiększyć wydajność i zapewnić bogatsze doświadczenia w grach, i podaje przykład swojej współpracy z Unity nad wprowadzeniem Burst Compiler na Androida.
Wydajność uczenia maszynowego (ML) jest kolejnym priorytetem dla ARM. Procesor jest procesorem pierwszego wyboru w przypadku obliczeń ML na urządzeniach mobilnych, chociaż obecnie wysokiej klasy układy SoC są wyposażone w oddzielne jednostki przetwarzania neuronowego (NPU). Procesory ARM obsługują najpopularniejsze aplikacje ML w świecie rzeczywistym i przypadki użycia na smartfonach, takie jak filtry mediów społecznościowych, dyktowanie, bezpieczeństwo i ochrona. Cortex-A78 zużywa średnio 8% mniej energii do zadań opartych na ML w porównaniu do A77, co prowadzi do 10% oficjalnej poprawy wydajności.
ARM Cortex-A78 - Architektura
ARM Cortex-A78 ma taką samą architekturę jak poprzednia generacja (to wciąż rdzeń ARM v8.2). ARM dodał jednak funkcje mikroarchitektury, których celem jest zwiększenie wydajności na danym obszarze i zmniejszenie zużycia energii. ARM oszczędza obszar i energię, zachowując jednocześnie wymagany poziom wydajności. Ponownie firma ARM skupiła się na serii Cortex-A w dalszym ciągu na obszarze i wydajności energetycznej, a nie na maksymalnej wydajności, co jest teraz zadaniem realizowanym przez program Cortex-X.
Ulepszenia wydajności Cortex-A78 są możliwe dzięki dodatkowym funkcjom mikroarchitektury, które optymalizują szerokość i głębokość. Szerokość dekodowania instrukcji pozostaje na poziomie 4, tak samo jak w A77 i A76. (Z drugiej strony szerokość dekodowania Cortex-X1 wynosi 5 szerokości, podczas gdy A13 ma szerokość dekodowania 7). ARM dodał lepsze przewidywanie rozgałęzień pod względem przepustowości i dokładności, a także przypadków fuzji instrukcji. Te ulepszenia architektoniczne umożliwiają wzrost wydajności pojedynczego wątku o 7% w porównaniu z A77.
Wydajność została zmaksymalizowana poprzez redukcję struktur o niskiej wydajności i obszarze, takich jak pamięci podręczne L1-I i L1-D. ARM zoptymalizował istniejące struktury, takie jak struktury przewidywania marki, tak aby zużywały mniej energii. ARM twierdzi, że prowadzi to do 4% mniejszej mocy na mW i 5% mniejszej powierzchni na mm2 w porównaniu do A77.
A78 koncentruje się na trwałych osiągach przy najlepszej w swojej klasie wydajności na poziomie klastra. Klaster DynamIQ składający się z 4 procesorów Cortex-A77 i 4x Cortex-A55 można rozbudować do 4 rdzeni A78 i 4 rdzeni A55. Zapewnia to trwałą poprawę wydajności o 20% na obszarze mniejszym o 15%. Aplikacje wymagające równolegle kilku wątków o wysokiej wydajności, takie jak gry o wysokiej jakości, odniosą korzyści dzięki ciągłemu wzrostowi wydajności.
ARM zauważa, że zwiększona wydajność obszarowa klastra A78 DynamIQ sprawia, że idealnie nadaje się do składanych telefonów oraz wielu i większych wyświetlaczy. Kolejnym celem jest przygotowanie smartfonów do obsługi sieci 5G poprzez poprawę wydajności i zużycia energii. Sieć 5G rzekomo zapewnia „znacznie większe prędkości”, „znacznie mniejsze opóźnienia” oraz „znacznie szybszą i bardziej wszechobecną łączność dla urządzeń mobilnych do zastosowań wymagających dużej przepustowości”. Być może stanie się tak za kilka lat, ale obecnie większość tych korzyści nie jest zauważalna dla konsumentów końcowych.
Ogólnie rzecz biorąc, Cortex-A78 to solidny produkt. Flagowe układy SoC nowej generacji będą zawierać wiele rdzeni A78, które uzupełniają pojedynczy rdzeń Cortex-X1 ma wyższe wymagania dotyczące mocy i obszaru, a niektóre zorientowane na wartość SoC zdecydują się nawet na pominięcie Cortex-X1 całkowicie. Na rynku SoC średniej klasy, A78 będzie rdzeniem procesora wybieranym dla SoC na rok 2021, a jego skupienie się na trwałej wydajności jest mile widziane.
ARM Mali-G78
Seria procesorów graficznych Mali firmy ARM nie odniosła tak dużego sukcesu, jak seria procesorów Cortex, delikatnie mówiąc. Rok po roku procesory graficzne Mali były stale przewyższane pod względem wydajności i efektywności energetycznej przez niestandardowe procesory graficzne Apple i niestandardowe procesory graficzne Adreno firmy Qualcomm. Ubiegłoroczna premiera nowej architektury Valhall i procesora graficznego Mali-G77 niestety nie zmieniła tego. Wśród układów SoC wyposażonych w Mali-G77 znalazły się: Exynos 990 i MediaTek Dimensity 1000L odpowiednio. Niestety, oba z nich miały słabe implementacje, co oznaczało, że wydajność ich procesora graficznego mogła nie konkuruje z procesorem graficznym Adreno 650 firmy Qualcomm, nie wspominając o wiodących w swojej klasie procesorach graficznych Apple w Apple A12 i A13. Mali pozostaje w tyle od lat, a wprowadzone ulepszenia nie wystarczyły, aby zmienić status quo w przestrzeni mobilnych procesorów graficznych.
Niemniej jednak ARM nie jest optymistyczny. Zauważa, że jej partnerzy dostarczali rocznie ponad miliard procesorów graficznych do Mali, co czyni Mali numerem jeden na świecie dostarczanym procesorem graficznym. Liczba ta prawdopodobnie tylko wzrośnie, ponieważ coraz więcej różnych typów urządzeń umożliwia intensywne wykorzystanie grafiki, takie jak zaawansowane gry mobilne i XR (VR i AR). Według ARM sprawia to, że Mali jest najczęściej używanym procesorem graficznym do programowania mobilnego w całym ekosystemie.
ARM zauważa, że w 2019 roku ogłosiło swój pierwszy procesor graficzny oparty na architekturze Valhall – Mali-G77. W 2020 r. następcą G77 zostanie Mali-G78, który również jest oparty na architekturze Valhall. Chociaż ARM twierdzi, że jest to jak dotąd najwydajniejszy procesor graficzny dla urządzeń mobilnych klasy premium, liczby tego nie potwierdzają, mimo że ARM ironicznie twierdzi, że jest to fakt poparty liczbami. G78 zapewnia 25% poprawę wydajności w porównaniu z G77, co jest co najmniej skromne. Różnica w szczytowej wydajności procesora graficznego pomiędzy G77 a procesorem graficznym Apple A13 była znacząca, co oznacza, że G78 nie będzie w stanie dogonić A13, nie mówiąc już o nadchodzącym procesorze graficznym Apple A14. Qualcomm będzie również nadal pozostawał o krok do przodu dzięki własnym, stopniowym ulepszeniom wydajności.
Grafika zmieniająca zasady gry i całodzienna gra na urządzeniach mobilnych są już możliwe na innych procesorach graficznych, więc marketing ARM w tym przypadku brzmi trochę pusto.
Według ARM Mali-G78 został zbudowany z myślą o programistach i użytkowniku końcowym. Umożliwia wysokiej jakości korzystanie z gier mobilnych w grach konsolowych, które są teraz dostępne na urządzeniach mobilnych. G78 zapewnia dłuższą żywotność baterii w urządzeniach mobilnych klasy premium. Zapewnia także dalszy wzrost wydajności ML dla bardziej złożonych funkcji ML w grach, wideo, kamerach i zabezpieczeniach na urządzeniach mobilnych.
ARM optymistycznie podchodzi do perspektywy gier mobilnych. Gry mobilne stanowiły w 2019 roku ponad 46% światowego rynku gier, osiągając przychody w wysokości 68,2 miliarda dolarów. W ciągu najbliższych kilku lat liczba gier będzie nadal rosła, wyprzedzając gry na komputery PC i konsole. Coraz więcej tytułów gier premium trafia na urządzenia mobilne, a użytkownicy oczekują podobnych wrażeń na urządzeniach mobilnych w porównaniu z konsolami.
Aby te doświadczenia były możliwe, Mali-G78 został wyposażony w niezbędny wzrost wydajności. Charakteryzuje się o 15% większą gęstością wydajności w przypadku treści związanych z grami w porównaniu do G77. Przy tej samej powierzchni co poprzednia generacja, G78 zapewni większą wydajność. To zwiększenie jest możliwe dzięki czterem kluczowym funkcjom:
- Obsługa do 24 rdzeni
- Asynchroniczny najwyższy poziom
- Ulepszenia glazurników
- Ulepszone śledzenie zależności fragmentów
Podczas gdy maksymalna liczba rdzeni G77 wynosiła 16, ARM zwiększyło maksymalną liczbę rdzeni w G78 do maksymalnie 24 rdzeni. Oczywiście samo to, że istnieje maksymalna wartość, nie oznacza, że dostawcy chipów do telefonów komórkowych faktycznie będą oferować 24 rdzenie. Najszerszym wariantem rdzenia G77, jaki do tej pory widzieliśmy, jest Mali-G77MP11 na Exynos 990, podczas gdy Dimensity 1000 ma Mali-G77MC9.
ARM wierzy, że Asynchronous Top Level to funkcja zmieniająca zasady gry w zakresie wydajności procesora graficznego. Mówi się, że pozwala to wycisnąć jak najwięcej wydajności z gier mobilnych, zapewniając maksymalną wydajność.
Z drugiej strony ulepszenia Tiler dodają dodatkową warstwę jakości do gier mobilnych. Gry przeniesione z komputerów PC i konsoli często mają niezwykle skomplikowane zasoby i wyrafinowane sceny, które powodują problemy z wydajnością i wąskie gardła. Ulepszenia Tilera zmniejszają obciążenie wierzchołków procesora graficznego w przypadku tych złożonych scen i zasobów. Poprawia to wydajność w przypadku skomplikowanych treści przypominających gry konsolowe.
ARM ulepszył także śledzenie zależności fragmentów w G78. Dotyczy to szczególnie gier mobilnych ze złożonymi scenami z udziałem dymu, drzew i trawy. Wyniki są takie, że ARM zaobserwował aż o 17% poprawę wydajności w najlepszych grach mobilnych w porównaniu do G77.
Mali-G78 ma o 10% lepszą efektywność energetyczną niż jego poprzednik. Ponownie, to nie wystarczy, aby dogonić ani Qualcomma, ani Apple. Cele ARM wydają się tutaj szczególnie konserwatywne. Funkcja Asynchronous Top Level odgrywa ważną rolę w efektywności energetycznej, ponieważ umożliwia redukcję mocy, umożliwiając w ten sposób generowanie treści w sposób zrównoważony. Dlatego też, gdy urządzenie wysyła zawartość z żądaną liczbą klatek na sekundę, może zmniejszyć częstotliwość, aby oszczędzać energię. Zwiększenie najwyższego poziomu dla tego zadania zużywa nieco więcej energii, ale oszczędność energii wynikająca ze zmniejszenia częstotliwości rdzeni modułu cieniującego jest znacznie większa. Dzieje się tak dlatego, że rdzenie shaderów zużywają 90-95% budżetu energetycznego procesora graficznego.
Lepszą efektywność energetyczną w G78 osiągnięto również dzięki funkcji Fused Multiply-Add (FMA). Został całkowicie przeprojektowany od podstaw, co doprowadziło do zmniejszenia zużycia energii przez urządzenie o 30%. Jednostka FMA jest odpowiedzialna za większość obliczeń zachodzących wewnątrz procesora graficznego i dlatego sensowne było, aby ARM skupił się na niej pod kątem redukcji zużycia energii.
Możliwość równoległego przetwarzania danych przez procesor graficzny sprawia, że nadaje się on do obsługi obciążeń ML, chociaż ARM przyznaje, że procesor i procesor graficzny pozostają głównymi procesorami dla ML. W miarę jak przypadki użycia stają się coraz bardziej złożone, niektóre obciążenia zostaną przeniesione na procesor graficzny. Główne przypadki użycia ML dla procesora graficznego są powiązane z funkcjami bezpieczeństwa urządzenia, różnymi trybami aparatu i wideo, a także aplikacjami z funkcjami AR.
Rola ML w procesorze graficznym umożliwia śledzenie twarzy w ramce zdjęcia lub wideo, gry korzystające z funkcji AR i nie tylko. W przypadku zadań opartych na uczeniu maszynowym Mali-G78 zapewnia średnią poprawę wydajności o 15% dla różnych obciążeń ML w porównaniu do G77. G77 przyniósł 60% poprawę wydajności ML w porównaniu z poprzednimi generacjami, więc poprawa rok do roku w tym roku jest znacznie mniejsza. Asynchroniczny najwyższy poziom ma kluczowe znaczenie w zwiększaniu wydajności ML, ponieważ taktowanie rdzeni modułu cieniującego pomaga w różnych przypadkach użycia ML na GPU.
Następnie następuje ogłoszenie Mali-G68. To nic innego jak węższy wariant Mali-G78, tak jak Mali-G57 był węższym wariantem Mali-G77. ARM twierdzi, że jest to pierwszy procesor graficzny Mali sub-premium dla urządzeń z roku 2021. Posiada wszystkie funkcje G78, takie jak ulepszenia kafelkowania i nową jednostkę FMA w silniku wykonawczym, ale obsługuje do 6 rdzeni zamiast 24. Celem tego procesora graficznego jest niemal doskonała wydajność przy niższych kosztach.
Firma ARM opracowała tę warstwę GPU sub-premium po wysłuchaniu opinii partnerów, którzy chcieli funkcji premium w swoim portfolio urządzeń. Zgodnie z oczekiwaniami G68 ma mniejszą powierzchnię krzemową i zapewnia wysoką wydajność gier szerszemu gronu programistów i konsumentów.
Na koniec ARM wspomina o swoich partnerstwach z programistami. Ułatwia programistom optymalizację treści, aby działały lepiej na procesorach graficznych Mali (w teorii). Jednym z przykładów jest Doradca wydajności. Drugim jest współpraca ARM z Unity przy tworzeniu kompilatora Burst. Szczegóły na ten temat można przeczytać w artykule źródłowym.
Mali-G78 – Outlook
Perspektywy dla Mali-G78 są ponure. Wygląda na to, że ARM po prostu nie jest zainteresowany wprowadzaniem znacznych ulepszeń wydajności z roku na rok w tej samej formie, którą produkuje Apple, w tej samej formie, którą stworzył Qualcomm w przeszłości. Chociaż tempo poprawy Qualcomma również spadło, jego wartość bazowa znajduje się na wyższym miejscu niż ARM. Źle to wygląda dla ekosystemu Androida, gdy recenzenci przedstawiają dowody liczbowe, że stała wydajność procesora graficznego A13 jest wyższa niż maksymalna wydajność Snapdragon 865. Różnica w wydajności pomiędzy procesorami graficznymi Apple i Android rośnie i jest coraz szersza.
Dlatego G78 nie jest magicznym rozwiązaniem, które rozwiąże problemy związane z procesorem graficznym ARM Mali i wyniesie je na szczyty list wydajności. Nadal będzie plasował się poniżej procesorów graficznych Apple i Qualcomm. Będzie to domyślny wybór dla niektórych SoC tylko dlatego, że jest to standardowy adres IP procesora graficznego ARM, a rozwiązania niestandardowe mają bariery wejścia i są droższe Dobrze.
Wątpliwe jest, czy w przyszłym roku Samsung Systems LSI faktycznie zacznie korzystać z Mali-G78. Samsung jest znaczącym klientem procesorów graficznych Mali, ale w zeszłym roku podpisała współpracę z AMD w celu wprowadzenia architektury GPU RDNA do swoich mobilnych układów SoC w 2021 r. Jeśli ten plan działania pozostanie zgodny z planem – a w tym momencie nie mamy powodu podejrzewać, że tak nie jest – wówczas następca Exynos 990 będzie wyposażony w procesor graficzny AMD RDNA zamiast procesora graficznego Mali. Rzeczywiście będzie to duża strata projektowa dla ARM. Nawet inni dostawcy, tacy jak MediaTek, mają obecnie więcej opcji. Nowość Imagination Technologies Architektura GPU serii A ma za cel projektowy osiągnięcie wyższej wydajności niż G78 i możliwe jest, że MediaTek w przyszłości odejdzie od Mali. Qualcomm oczywiście nie ma powodu rezygnować z wysiłków na rzecz GPU Adreno, które nadal trwają najlepszy w swojej klasie pod względem wydajności i wydajności, jeśli mówimy wyłącznie o systemie Android rynek smartfonów.
Zatem jasne jest, że ARM będzie musiał zwiększyć tempo rocznych ulepszeń procesorów graficznych Mali, aby naprawdę zmienić rynek mobilnych procesorów graficznych. Jeśli nie będzie w stanie tego zrobić, istnieje ryzyko, że zostanie pominięty w kwestii flagowego, mobilnego procesora graficznego klasy premium.
ARM Etos N78
Wreszcie firma ARM ogłosiła także jednostkę przetwarzania neuronowego (NPU) Ethos N78. To następca NPU N77. Zapewnia większe możliwości uczenia maszynowego na urządzeniu i do 25% większą wydajność. Konfigurowalność jest również mocną stroną, ponieważ dostępne konfiguracje wahają się od 1 TOP/s do 10 TOP/s. Aby uzyskać więcej informacji, sprawdź Wpis na blogu ARM. Ta jednostka NPU prawdopodobnie będzie miała ograniczone zwycięstwa w projektowaniu, ponieważ Qualcomm, Samsung, HiSilicon i MediaTek mają własne jednostki przetwarzania neuronowego/silniki AI.
Źródła: ARM (1, 2), AnandTech (1, 2)