ARM annonce le processeur Cortex-A78, le GPU Mali-G78 et le NPU Ethos N78

ARM a annoncé l'architecture CPU Cortex-A78 ainsi que le GPU Mali-G78. Les deux sont les successeurs du processeur Cortex-A77 et du GPU Mali-G77.

Dans le cadre de son TechDay 2020, ARM a fait trois annonces majeures. L'annonce majeure phare est le programme Cortex-X Custom (CXC), contenant le nouveau Cœur du processeur Cortex-X1. Le Cortex-X1 apporte des performances de pointe plus élevées que n'importe quel processeur de la série Cortex-A, tout en brisant l'enveloppe du PPA de la série Cortex-A. Les deux autres annonces faites par ARM étaient beaucoup plus routinières. Le processeur Cortex-A78 et le processeur Mali-G78 sont désormais officiels et sont les successeurs du Cortex-A77 CPU et le Mali-G77 CPU respectivement. Voyons ces annonces une par une :

BRAS Cortex-A78

Avec le Cortex-A78, ARM s'est principalement concentré sur les exigences d'efficacité, telles que les demandes d'autonomie plus longue de la batterie, de nouveaux facteurs de forme mobiles et la réduction des zones SoC. Des performances soutenues sont ici le mot-clé du Cortex-A78, tandis que le Cortex-X1 vise les étoiles avec pour objectif d'atteindre des performances maximales à court terme.

ARM affirme que le Cortex-78 représente le « meilleur » de sa technologie pour des performances haut de gamme avec la meilleure efficacité de sa catégorie. Ce ne sont pas non plus de vains mots. Au cours des deux dernières années, le Cortex-A76 et le Cortex-A77 ont affiché la meilleure efficacité énergétique et le meilleur PPA de leur catégorie (performances, puissance et surface). Ils n'avaient pas la conception requise pour rivaliser avec les puces de la série A d'Apple, mais en raison de leur faible l'énergie générée, leur efficacité énergétique était au pire la même que celle d'Apple et au mieux encore supérieure à celle d'Apple. Pomme.

Les améliorations des performances de l'A78 couvrent les cas d'utilisation de tâches de productivité, de communication, de sécurité et de caméra, de jeux avancés, d'expériences basées sur XR et ML.

En performances soutenues, le Cortex-A78 apporte des améliorations à deux chiffres. Il offre une amélioration de 20 % des performances soutenues par rapport à son prédécesseur, le Cortex-A77, dans la même enveloppe de puissance thermique mobile. AnandTech a passé en revue les chiffres et a expliqué que le chiffre de 20 % est une combinaison d'un IPC 7 % plus élevé par rapport à l'A77, tandis que le Les 13 % restants des gains de performances sont attribués au processus 5 nm, sur lequel seront tous les SoC de nouvelle génération. fabriqué. ARM souligne l'importance de performances soutenues en affirmant que les appareils mobiles ont une capacité limitée à dissiper la puissance et des performances soutenues évitent la limitation de puissance pour les applications exigeant beaucoup de pouvoir. Ceci, à son tour, améliore l’UX en évitant les décalages ou les chutes d’images.

L’accent mis sur l’efficacité énergétique se traduit par une efficacité énergétique plus élevée, car les deux sont des concepts liés mais différents. Selon ARM, aux points de haute performance, tels que ceux qui constituent le pic des appareils mobiles actuels, le Cortex-A78 offre 50 % d'économies d'énergie par rapport aux appareils de 2019. à la même représentation comme le Cortex-A77. C’est impressionnant et cela fait de l’A78 le processeur Cortex-A le plus économe en énergie jamais conçu par ARM.

L'accent mis par ARM sur des performances durables bénéficiera à la prochaine vague d'innovation mobile, telle que de nouveaux facteurs de forme (téléphones pliables) ainsi qu'une « immersion numérique » améliorée grâce à la 5G. La réalité est que ce n’est pas le cas pour la génération actuelle, et cela n’aura pas beaucoup d’importance même pour la prochaine génération.

Un cas d'utilisation qui sera amélioré par le Cortex-A78 est celui des jeux mobiles AAA, lorsqu'il est combiné avec le nouveau GPU Mali-G78 d'ARM. La combinaison des deux vise à apporter des expériences de jeu haute fidélité sur mobile. Leurs performances supérieures, associées à la vitesse rapide et à la bande passante élevée de la 5G, permettront des jeux haut de gamme sur mobile. L'efficacité de l'A78 présente ici un avantage, car elle offrira une durée de vie de la batterie plus longue pour des jeux prolongés. ARM affirme travailler également avec l'écosystème pour améliorer davantage les performances et créer des expériences de jeu plus riches, et donne un exemple de son travail avec Unity pour amener Burst Compiler sur Android.

Les performances du machine learning (ML) sont une autre priorité pour ARM. Le CPU est le processeur de premier choix pour l'informatique ML sur mobile, bien que de nos jours, les SoC haut de gamme soient livrés avec des unités de traitement neuronal (NPU) distinctes. Les processeurs ARM prennent en charge les applications ML réelles les plus populaires et les cas d'utilisation sur les smartphones, tels que les filtres de réseaux sociaux, la dictée, la sécurité et la sécurité. Le Cortex-A78 utilise en moyenne 8 % d'énergie en moins pour les tâches basées sur le ML par rapport à l'A77, ce qui entraîne une amélioration officielle de 10 % de l'efficacité.

ARM Cortex-A78 - Architecture

L'ARM Cortex-A78 possède la même architecture que la génération précédente (il s'agit toujours d'un cœur ARM v8.2). ARM a cependant ajouté des fonctionnalités microarchitecturales qui visent à améliorer les performances de manière efficace en termes de superficie et d'énergie. ARM économise de l'espace et de l'énergie tout en maintenant les niveaux de performances nécessaires. Encore une fois, l'accent d'ARM sur la série Cortex-A reste axé sur la surface et l'efficacité énergétique plutôt que sur les performances maximales, ce qui est désormais une tâche assumée par le programme Cortex-X.

Les améliorations des performances du Cortex-A78 sont possibles grâce à des fonctionnalités microarchitecturales supplémentaires qui optimisent la largeur et la profondeur. La largeur de décodage des instructions reste à 4, comme pour l'A77 et l'A76. (La largeur de décodage du Cortex-X1, en revanche, est de 5 largeurs, tandis que l'A13 a une largeur de décodage de 7 largeurs.) ARM a ajouté une meilleure prédiction de branche pour la bande passante et la précision ainsi que les cas de fusion d'instructions. Ces améliorations architecturales permettent une augmentation de 7 % des performances monothread par rapport à l'A77.

L'efficacité a été maximisée en réduisant les structures qui ont de faibles performances et une faible surface, comme sur les caches L1-I et L1-D. ARM a optimisé les structures existantes pour consommer moins d'énergie, comme les structures de prédiction de marque. ARM affirme que cela conduit à 4 % de puissance en moins pour les performances par mW et à 5 % de surface en moins pour les performances par mm2 par rapport à l'A77.

L'A78 reste axé sur des performances soutenues avec la meilleure efficacité de sa catégorie au niveau du cluster. Un cluster DynamIQ de 4 processeurs Cortex-A77 et 4 processeurs Cortex-A55 peut être mis à niveau vers 4 cœurs A78 et 4 cœurs A55. Cela fournit des améliorations de performances soutenues de 20 % sur 15 % de surface en moins. Les applications qui nécessitent plusieurs threads hautes performances en parallèle, comme les jeux haute fidélité, bénéficieront de l'amélioration soutenue des performances.

ARM note que l'efficacité de zone améliorée du cluster A78 DynamIQ le rend idéal pour les téléphones pliables et les écrans multiples et plus grands. Un autre objectif est de préparer les smartphones à la 5G grâce à des améliorations en termes de performances et d’énergie. La 5G est censée offrir « des vitesses beaucoup plus rapides », « une latence bien inférieure » et « une connectivité bien plus rapide et omniprésente pour les appareils mobiles pour les applications à large bande passante ». Cela pourrait être le cas dans quelques années, mais à l'heure actuelle, la plupart de ces avantages ne sont pas perceptibles pour les consommateurs finaux.

Dans l’ensemble, le Cortex-A78 est un produit solide. Les SoC phares de nouvelle génération intégreront plusieurs cœurs A78 pour compléter le cœur unique Cortex-X1 qui a des exigences de puissance et de surface plus élevées, et certains SoC axés sur la valeur choisiront même de sauter le Cortex-X1 entièrement. Pour le marché des SoC de milieu de gamme, l'A78 sera le cœur de processeur de choix pour les SoC 2021, et l'accent mis sur des performances soutenues est le bienvenu.


ARM Mali-G78

La série de GPU Mali d'ARM n'a pas eu autant de succès que sa série de processeurs Cortex, c'est un euphémisme. Les GPU Mali ont été constamment surpassés en termes de performances et d'efficacité énergétique par les GPU personnalisés d'Apple et les GPU Adreno personnalisés de Qualcomm, année après année. Le lancement l’année dernière de la nouvelle architecture Valhall et du GPU Mali-G77 n’a malheureusement rien changé à cela. Les SoC dotés du Mali-G77 comprenaient le Exynos 990 et le MediaTek Dimensité 1000L respectivement. Malheureusement, tous deux semblaient avoir des implémentations faibles, ce qui signifiait que les performances de leur GPU pouvaient être améliorées. ne rivalise pas avec le GPU Adreno 650 de Qualcomm, sans parler des GPU de pointe d'Apple dans l'Apple A12 et R13. Le Mali est à la traîne depuis des années et ses améliorations n'ont pas suffi à changer le statu quo dans le domaine des GPU mobiles.

Néanmoins, ARM est tout simplement optimiste. Il note que ses partenaires ont expédié plus d'un milliard de GPU maliens par an, faisant du Mali le premier GPU expédié au monde. Ce nombre ne fera qu'augmenter, soi-disant, à mesure que de nombreux types d'appareils différents permettent des cas d'utilisation à forte intensité graphique tels que les jeux mobiles avancés et XR (VR et AR). Selon ARM, cela fait du Mali le GPU le plus utilisé pour le développement mobile dans l'ensemble de l'écosystème.

ARM note qu'en 2019, il a annoncé son premier GPU basé sur l'architecture Valhall – le Mali-G77. En 2020, le G77 est remplacé par le Mali-G78, également basé sur l'architecture Valhall. Bien qu'ARM affirme qu'il s'agit du GPU le plus performant pour les appareils mobiles haut de gamme à ce jour, les chiffres ne le confirment pas, malgré ce que dit ironiquement ARM selon lequel il s'agit d'un fait étayé par les chiffres. Le G78 apporte une amélioration de 25 % des performances par rapport au G77, ce qui est pour le moins maigre. L'écart entre les performances maximales du GPU entre le G77 et le GPU de l'Apple A13 était important, ce qui signifie que le G78 ne pourra pas rattraper le A13, sans parler du prochain GPU de l'Apple A14. Qualcomm continuera également à garder une longueur d'avance grâce à ses propres améliorations progressives des performances.

Des graphismes révolutionnaires et des jeux toute la journée sur mobile sont déjà possibles sur d'autres GPU, donc le marketing d'ARM ici sonne un peu creux.

Le Mali-G78 est conçu en pensant aux développeurs et à l'utilisateur final, selon ARM. Il permet des expériences de jeu mobile de haute qualité avec des jeux sur console désormais disponibles sur mobile. Le G78 prolonge la durée de vie de la batterie des appareils mobiles haut de gamme. Il apporte également une amélioration supplémentaire des performances ML pour les fonctionnalités ML de jeux, de vidéo, de caméra et de sécurité plus complexes sur les appareils mobiles.

ARM est optimiste quant aux perspectives du jeu mobile. Les jeux mobiles représentaient plus de 46 % du marché mondial des jeux en 2019, atteignant 68,2 milliards de dollars de revenus. Il devrait également continuer à croître au cours des prochaines années, car il dépassera les jeux sur PC et sur console. De plus en plus de titres de jeux premium arrivent sur mobile et les utilisateurs s'attendent à une expérience similaire sur mobile par rapport aux consoles.

Pour rendre ces expériences possibles, le Mali-G78 est doté des performances nécessaires. Il présente une amélioration de la densité des performances de 15 % pour le contenu de jeu par rapport au G77. Pour la même superficie que la génération précédente, le G78 offrira plus de performances. Ce boost est rendu possible par quatre caractéristiques clés :

  • Prise en charge jusqu'à 24 cœurs
  • Niveau supérieur asynchrone
  • Améliorations du carreleur
  • Suivi amélioré des dépendances des fragments

Alors que le nombre maximum de cœurs du G77 était de 16, ARM a augmenté le nombre maximum de cœurs sur le G78 à un maximum de 24 cœurs. Bien entendu, ce n’est pas parce qu’il existe un maximum que les fournisseurs de puces mobiles intégreront réellement 24 cœurs. La variante de base la plus large du G77 que nous ayons vue jusqu'à présent est le Mali-G77MP11 sur l'Exynos 990, tandis que le Dimensity 1000 possède un Mali-G77MC9.

ARM estime que le niveau supérieur asynchrone est une fonctionnalité révolutionnaire en termes de performances GPU. On dit que cela permet d'extraire autant de performances que possible des jeux mobiles, garantissant ainsi des performances maximales.

Les améliorations des mosaïques, en revanche, ajoutent une couche supplémentaire de qualité aux jeux mobiles. Les jeux importés depuis PC et console comportent souvent des ressources extrêmement complexes et des scènes sophistiquées, qui provoquent des problèmes de performances et des goulots d'étranglement. Les améliorations apportées aux mosaïques réduisent la charge des sommets sur le GPU pour ces scènes et ressources complexes. Cela améliore les performances pour le contenu de jeu complexe de type console.

ARM a également amélioré le suivi des dépendances aux fragments sur le G78. Cela affecte particulièrement les jeux mobiles avec des scènes de jeu complexes impliquant de la fumée, des arbres et de l'herbe. Les résultats sont qu'ARM a constaté jusqu'à 17 % d'amélioration des performances sur les meilleurs jeux mobiles par rapport au G77.

Le Mali-G78 a une efficacité énergétique 10 % supérieure à celle de son prédécesseur. Encore une fois, cela ne suffira pas à rattraper Qualcomm ou Apple. Les objectifs d'ARM semblent ici particulièrement conservateurs. La fonctionnalité Asynchronous Top Level joue un rôle important dans l’efficacité énergétique, car elle permet une réduction de la puissance, permettant ainsi de générer du contenu de manière durable. Par conséquent, lorsqu’un appareil diffuse du contenu à la fréquence d’images souhaitée, il peut ralentir pour économiser de l’énergie. Augmenter le niveau supérieur pour cette tâche consomme un peu plus d'énergie, mais les économies d'énergie résultant de la réduction de la fréquence des noyaux de shader sont bien plus importantes. En effet, les cœurs de shader utilisent 90 à 95 % du budget énergétique du GPU.

Une meilleure efficacité énergétique du G78 est également obtenue grâce au Fused Multi-Add (FMA). Il a été entièrement repensé, entraînant une réduction d'énergie de 30 % pour l'unité. L'unité FMA est responsable de la plupart des calculs effectués à l'intérieur d'un GPU, et c'est pourquoi il était logique qu'ARM la cible pour les réductions d'énergie.

La capacité de traitement de données parallèle d'un GPU le rend adapté à l'exécution de charges de travail de ML, bien qu'ARM reconnaisse que le CPU et le GPU restent les principaux processeurs pour le ML. À mesure que les cas d’utilisation deviennent plus complexes, certaines charges de travail seront déchargées sur le GPU. Les principaux cas d'utilisation du ML pour le GPU sont liés aux fonctionnalités de sécurité de l'appareil, aux différents modes caméra et vidéo ainsi qu'aux applications dotées de fonctionnalités AR.

Le rôle du ML sur le GPU permet des expériences telles que le suivi du visage dans le cadre photo ou vidéo, les jeux qui utilisent les fonctionnalités AR, et bien plus encore. Pour ces tâches basées sur le ML, le Mali-G78 présente une amélioration moyenne des performances de 15 % pour diverses charges de travail ML par rapport au G77. Le G77 a apporté une amélioration de 60 % des performances ML par rapport aux générations précédentes, de sorte que l'amélioration d'une année sur l'autre est beaucoup plus faible cette année. Le niveau supérieur asynchrone est essentiel pour améliorer les performances du ML, car la synchronisation des cœurs de shader facilite les différents cas d'utilisation du ML sur le GPU.

Ensuite, il y a l’annonce du Mali-G68. Ce n'est rien d'autre qu'une variante plus étroite du Mali-G78, tout comme le Mali-G57 était une variante plus étroite du Mali-G77. ARM affirme qu’il s’agit du premier GPU Mali sub-premium pour les appareils 2021. Il possède toutes les fonctionnalités du G78 telles que les améliorations du carreleur et la nouvelle unité FMA dans le moteur d'exécution, mais prend en charge jusqu'à 6 cœurs au lieu de 24. Des performances proches du premium à moindre coût, tel est l’objectif de ce GPU.

ARM a développé ce niveau de GPU sub-premium après avoir écouté les commentaires de partenaires qui souhaitaient des fonctionnalités premium sur leur portefeuille d'appareils. Le G68 a une surface de silicium inférieure, comme prévu, et propose des jeux hautes performances à un public plus large de développeurs et de consommateurs.

Enfin, ARM évoque ses partenariats avec des développeurs. Cela permet aux développeurs d'optimiser facilement leur contenu pour mieux fonctionner sur les GPU Mali (en théorie). Un exemple est le conseiller en performances. Deuxièmement, la collaboration d'ARM avec Unity pour créer le compilateur Burst. Des détails à ce sujet peuvent être lus dans l’article source.

Mali-G78 - Perspectives

Les perspectives pour le Mali-G78 sont sombres. Il semble qu'ARM ne soit tout simplement pas intéressé à apporter des améliorations substantielles des performances d'une année sur l'autre dans le même moule qu'Apple fabrique, dans le même moule que Qualcomm a créé dans le passé. Bien que le taux d'amélioration de Qualcomm ait également ralenti, sa base de référence est plus élevée que celle d'ARM. Cela semble mauvais pour l'écosystème Android lorsque les critiques affirment avec des preuves numériques que les performances soutenues du GPU de l'A13 sont supérieures aux performances maximales du Snapdragon 865. L'écart de performances entre les GPU Apple et Android augmente, et il ne fait que s'élargir.

Le G78 n’est donc pas une solution magique pour résoudre les problèmes du GPU Mali d’ARM et les amener au sommet des classements de performances. Il sera toujours classé en dessous des GPU d'Apple et de Qualcomm. Ce sera le choix par défaut pour certains SoC simplement parce qu'il s'agit de l'IP GPU d'origine d'ARM et que les solutions personnalisées ont des barrières à l'entrée et coûtent plus cher que Bien.

L'année prochaine, il est peu probable que Samsung Systems LSI finisse par utiliser le Mali-G78. Samsung est un client important des GPU Mali, mais l'année dernière, il a signé un partenariat avec AMD pour apporter l'architecture GPU RDNA à ses SoC mobiles en 2021. Si cette feuille de route reste sur la bonne voie - et à ce stade, nous n'avons aucune raison de penser qu'elle ne l'est pas - alors le successeur de l'Exynos 990 comportera un GPU AMD RDNA au lieu d'un GPU Mali. Ce sera en effet une grosse perte de conception pour ARM. Même d’autres fournisseurs tels que MediaTek proposent aujourd’hui davantage d’options. Le nouveau Imagination Technologies Architecture GPU de la série A a un objectif de conception pour des performances supérieures à celles du G78, et il est possible que MediaTek s'éloigne du Mali à l'avenir. Qualcomm, bien entendu, n'a aucune raison d'abandonner ses efforts en matière de GPU Adreno, qui restent le meilleur de sa catégorie en termes de performances et d'efficacité lorsqu'on parle exclusivement d'Android marché des smartphones.

Ainsi, il est clair qu'ARM devra augmenter le taux d'améliorations annuelles des GPU Mali pour faire une réelle différence sur le marché des GPU mobiles. S’il ne peut pas le faire, il risque d’être relégué au second plan dans l’espace des GPU mobiles phares haut de gamme.


ARM Ethos N78

Enfin, ARM a également annoncé l'unité de traitement neuronal (NPU) Ethos N78. C'est le successeur du NPU N77. Il offre de plus grandes capacités de ML sur l'appareil et jusqu'à 25 % d'efficacité en plus. La configurabilité est également un point fort puisque les configurations disponibles vont de 1 TOP/s jusqu'à 10 TOP/s. Pour plus de détails, consultez Article de blog d'ARM. Ce NPU aura probablement des avantages de conception limités car Qualcomm, Samsung, HiSilicon et MediaTek ont ​​tous leurs propres unités de traitement neuronal/moteurs IA.


Sources: BRAS (1, 2), AnandTech (1, 2)