Les nouveaux cœurs d'Arm dans le cadre de sa solution Total Compute pour 2023 ont été annoncés et ils sont plutôt intéressants.
Liens rapides
- 64 bits uniquement: "Mission accomplie"
- Arm Cortex-X4: Encore plus de performances et une meilleure efficacité
- Arm Cortex-A720: équilibre entre performances et consommation d'énergie
- Arm Cortex A520: doubler l'efficacité
- DSU-120: jusqu'à 14 cœurs de qualité informatique
- L'efficacité est le nouvel objectif
Arm est la société qui conçoit pratiquement tous les cœurs de processeur qui finissent par être utilisés dans votre smartphone Android, et chaque année, il annonce de nouvelles itérations qui trouveront plus tard leur place dans des chipsets comme le produit phare Snapdragon de cette année-là ou le prochain produit phare MediaTek Dimensité. Cette année, il lance un cœur phare Cortex-X4, un cœur de performance Cortex-A720 et un cœur d'efficacité Cortex-A520. Ces cœurs constituent la base des nouvelles conceptions compatibles Arm v9.2 de la société et de la solution Total Compute de la société pour 2023, ou TCS23. En plus de cela, nous voyons également une nouvelle unité partagée DynamIQ et un GPU Immortalis-G720 mis à jour. Plus important encore est une transition complète vers l'informatique 64 bits, aucun de ces cœurs ne prenant en charge le 32 bits.
Les trois nouveaux noyaux sont des successeurs microarchitecturaux de ceux de l'année dernière et sont principalement axés sur l'introduction de l'IPC et des gains d'efficacité.
64 bits uniquement: "Mission accomplie"
L'un des changements les plus importants apportés à la solution Total Compute d'Arm de cette année est la transition vers le 64 bits uniquement. Alors que l'A510R1 de l'année dernière prenait en charge le mode d'exécution AArch32 32 bits, tout comme l'A710 lancé avec TCS22 l'année dernière, cette année, les cœurs d'Arm sont uniquement AArch64. Le temps presse pour les applications 32 bits sur Android, surtout depuis Google lui-même a exigé que toutes les applications soient mises à jour depuis 2019 sont téléchargés sous forme de binaires 64 bits.
Comme le dit Arm, la transition 64 bits est considérée comme une « mission accomplie ». La raison en est que le marché chinois des applications est ce qui a freiné le reste de l'industrie dans la transition, mais la grande majorité des applications sur les magasins d'applications chinois sont désormais compatibles 64 bits, aussi.
La raison de ce retard était l'absence d'un écosystème d'applications homogénéisé, ce qui signifie que les différents magasins d'applications exigeaient des normes différentes de la part des développeurs. Comme Arm a travaillé avec divers magasins d'applications en Chine, parallèlement aux avertissements répétés indiquant qu'un changement se produirait, ces magasins d'applications ont également encouragé les développeurs à changer.
Le moment est apparemment venu pour que cette transition se produise dans son intégralité, et il faudra de toute façon encore quelques mois avant de voir ces cœurs Arm dans de nouveaux chipsets.
Arm Cortex-X4: Encore plus de performances et une meilleure efficacité
La série de cœurs X d'Arm a divergé de sa série A il y a quelques années, la philosophie étant qu'il s'agit d'un cœur puissant qui peut consommer un peu plus de puissance lorsqu'il en a besoin. En règle générale, les fabricants de chipsets n'en incluent qu'un ou deux au maximum, car ils sont gourmands en énergie, même malgré les capacités dont ils disposent également.
Comme vous pouvez le voir sur le graphique ci-dessus, le Cortex-X4 est le cœur Arm le plus puissant à ce jour, mais ces capacités de calcul se font au détriment de la consommation d'énergie. Le Cortex-X4 est similaire au X3 de l'année dernière et, comme le dit Arm, peut même fonctionner aux mêmes fréquences que le cœur de l'année dernière et utiliser jusqu'à 40 % d'énergie en moins. Sa taille physique est inférieure de 10 % plus grande et il s'agit du cœur Cortex-X le plus efficace jamais construit.
Quant à l’origine de ces améliorations IPC, il existe un certain nombre d’améliorations frontales et back-end apportées au X4. Dans ces améliorations frontales, une grande quantité de travail a été consacrée à la réécriture et à l'amélioration des prédictions de branche, car des prédictions de branche incorrectes sont coûteuses en termes de performances. Arm promet également qu'une taille de cache L2 de 2 Mo donne des performances supérieures, non pas tant dans les tests que dans le monde réel.
Le nouveau cœur Cortex-X4 augmente le nombre d'unités arithmétiques et logiques (ALU) de 6 à 8, ajoute une branche supplémentaire (pour un total de 3), ajoute une unité Multiply-Accumulatator supplémentaire et pipeline la virgule flottante et la racine carrée opérations.
En ce qui concerne le back-end, il y a également un certain nombre d'améliorations. La génération d'adresses de stockage de chargement est passée de trois instructions à quatre par cycle, à mesure que le canal de stockage de chargement a été pris et divisé. Il existe également un tampon de conversion doublé en L1, ainsi que des améliorations en matière de conflits bancaires.
Tout cela est réuni pour apporter une amélioration impressionnante des performances du Arm's Cortex-X4. Au total, vous pouvez vous attendre à une amélioration moyenne des performances de 15 % avec le Cortex-X4. Dans la courbe de puissance et de performances partagée par Arm, le X4 devance le X3 en termes de performances et de consommation d'énergie. En d’autres termes, cette amélioration des performances de 15 % s’accompagne d’une consommation d’énergie assez importante. Il convient également de mentionner qu’il ne s’agit pas tout à fait d’une comparaison de pommes avec des pommes; le Cortex-X3 était livré avec 1 Mo de cache L2 l'année dernière, ce qui signifie que si un fabricant s'en tenait à la même taille de cache L2 cette année, il n'y aurait pas nécessairement une augmentation des performances de 15 %.
Une chose est sûre cependant, c'est que si vous utilisez le X4 à vitesse maximale, il sera probablement très gourmand en énergie. Cette année, nous pourrions voir certains constructeurs OEM continuer à faire ce qu'ils ont fait l'année dernière et limiter de nombreux chipsets de cette année. Par exemple, OnePlus et Oppo le font tous deux, et avec ces gains d'efficacité énergétique lorsqu'ils fonctionnent en même temps points de performance comme le X3, il est probable que ces entreprises bénéficieront de continuer à le faire donc. Nous ne verrons peut-être pas une augmentation globale des performances de 15 %, mais nous pourrions constater de nouvelles améliorations de l'efficacité pour les chipsets de l'année prochaine.
Arm Cortex-A720: équilibre entre performances et consommation d'énergie
Alors que la série de cœurs X d'Arm est généralement laissée à l'abandon, la série de cœurs A vise généralement à équilibrer la consommation d'énergie et les performances. Avec le Cortex-A720, Arm promet un cœur 20 % plus efficace, avec des performances accrues à la même puissance que l'A715 de l'année dernière.
Quant à l'origine des améliorations apportées à l'A720 cette année, la plupart d'entre elles se situent à l'avant. Les pipelines ont été raccourcis avec un cycle supprimé du moteur de prédiction des erreurs de branche, cette baisse d'un seul cycle étant censée expliquer une augmentation de 1 % des références. Les benchmarks entraînent généralement le moins d’erreurs de prédiction de branche, ce qui signifie que cela améliorera probablement les performances globales du monde réel d’un montant plus significatif (mais largement incommensurable).
Dans le noyau hors service, nous constatons un certain nombre d’améliorations structurelles qui contribuent à améliorer les performances sans impacter la surface occupée par le noyau ni son efficacité. Pour commencer, tout comme dans le X4, les divisions en virgule flottante et les opérations de racine carrée sont désormais en pipeline. Il existe également des transferts plus rapides des nombres à virgule flottante, NEON et SVE2 vers des nombres entiers et d'autres améliorations globales pour accélérer le traitement.
Arm a partagé le graphique ci-dessus pour illustrer comment l'A720 se compare à l'A715 de l'année dernière en termes de performances et d'efficacité, où un processus ISO et une fréquence ISO sont utilisés dans SPECint_base2006. Les tailles de cache restent également les mêmes, il s’agit donc d’une comparaison de pommes à pommes.
En termes de consommation électrique, l'A720 reste largement conforme au modèle de l'année dernière, même s'il offre un peu plus de performances aux mêmes niveaux de puissance. Avec l'A720, comme avec le X4, Arm semble se concentrer davantage sur la façon dont il s'améliore. performances hors des contraintes de puissance de l'année dernière plutôt que d'augmenter continuellement la puissance de ces cœurs capable de.
Arm Cortex A520: doubler l'efficacité
Bien sûr, lorsqu’il s’agit de cœurs Arm, ce n’est pas uniquement une question de performances. Avec la série X mettant tout dans la puissance de calcul brute et l'A7xx équilibrant les besoins de calcul et la consommation d'énergie, la série A5xx se concentre uniquement sur un traitement efficace. Il s’agit du cœur Arm v9.2 le plus faible consommation par zone et s’appuie sur la même architecture à cœur fusionné que celle que nous avons vue introduite avec l’A510.
Cette architecture de cœur fusionnée signifie que certaines ressources peuvent être partagées entre deux cœurs, deux cœurs pouvant être partagés entre eux. regroupés en un « complexe ». Le cache L2, le tampon de traduction L2 et les chemins de données vectoriels sont partagés au sein de ce complexe. Pour être clair, cela ne veut pas dire a être regroupé en deux cœurs, et un complexe à un seul cœur peut être assemblé pour des performances optimales. En fait, l'une des configurations de cœur TCS2023 d'Arm qu'ils nous ont montrées impliquait un seul cœur X4, cinq cœurs A720 et trois cœurs A520, ce qui signifie qu'au moins un cœur A520 est isolé.
L'A520 est une conception axée sur l'efficacité et, comme les autres cœurs, Arm s'est largement concentré sur l'amélioration de cette efficacité aux mêmes points de puissance que la dernière génération. Cela inclut l’amélioration des prédictions de branche tout en supprimant ou en réduisant certaines fonctionnalités de performances. Cette performance a ainsi pu être récupérée grâce à une plus grande efficacité. Il est également intéressant de noter qu'Arm a supprimé la troisième ALU qui se trouvait dans l'A510, économisant ainsi de l'énergie lors de l'émission de la logique et du transfert des résultats.
Dans les résultats réels, il semble que l’A520 ne représente pas un saut aussi important par rapport à ses prédécesseurs que le sont l’A720 et le X4. Une grande partie de ses capacités à des intervalles de puissance inférieurs chevauchent celles de l'A510 du graphique ci-dessus, et ce n'est qu'aux échelons supérieurs de performances que nous constatons des gains d'efficacité. La divergence en termes de performances et de puissance entre les deux cœurs est prometteuse, mais il n'est pas clair si nous verrons de réels avantages dans le monde réel en comparant l'A520 à l'A510. Après tout, il est difficile de mesurer correctement les différences de performances et d’efficacité entre les deux dans le monde réel.
DSU-120: jusqu'à 14 cœurs de qualité informatique
L'unité partagée DynamIQ, ou DSU, intègre un ou plusieurs cœurs avec un système de mémoire L3, une logique de contrôle et des interfaces externes afin de former un cluster multicœur. Il s'agit essentiellement de la structure d'Arm qui permet à tous ces cœurs de communiquer entre eux et de partager des ressources. il s’agit donc d’une pièce assez importante du puzzle pour tout fabricant de chipsets cherchant à construire une puce avec les conceptions de base d’Arm.
En s'appuyant sur le DSU-110, Arm a apporté un certain nombre d'améliorations au DSU-120 qui profiteront à l'ensemble de la puce sur laquelle il est inclus. Pour commencer, il existe désormais jusqu'à 14 cœurs par cluster (au lieu de 12) et prend en charge jusqu'à 32 Mo de cache L3. Il améliore également considérablement l'efficacité dans un certain nombre de domaines clés, notamment en cas d'échec du cache, tout en réduisant les fuites d'énergie.
D'une certaine manière, le DSU d'Arm est l'épine dorsale du TCS23, car il constitue la base de la manière dont chacun de ces cœurs interagit les uns avec les autres et partage des données. Toute amélioration ici profitera à l'ensemble du cluster, mais il semble que la plupart des changements soient liés à la consommation d'énergie et à l'efficacité.
L'efficacité est le nouvel objectif
L’industrie semble évoluer depuis un certain temps, mais la première impression que je retiens de ces noyaux est que l’efficacité est désormais la clé du jeu. Alors qu'on nous a expliqué à quel point le cœur X4 est plus rapide et en quoi il s'agit du cœur le plus rapide de l'entreprise, ils ont très vite remarqué les améliorations d'efficacité liées à son fonctionnement aux performances maximales de l'année dernière. plutôt.
Dans l’ensemble, chaque gain de performances était étayé par l’efficacité accrue de ce composant, et plus ou moins, tous les changements apportés au DSU concernaient l’efficacité et les fuites de puissance. La performance est importante, mais on a vraiment l'impression que l'industrie dans son ensemble essaie d'améliorer les performances actuelles. niveaux de calcul plus efficaces plutôt que d'opter pour des augmentations massives des performances d'année en année.
Nous nous attendons à ce que ces cœurs constituent la base du MediaTek Dimensity 9400 et du Qualcomm Snapdragon 8 Gen 3, mais dans quelle formation reste à voir. Comme mentionné précédemment, Arm a parlé d'utiliser une disposition de base 1+5+3 dans ses propres tests internes, mais cela ne signifie pas que c'est ce que des partenaires comme MediaTek et Qualcomm cherchent à faire eux-mêmes.