Arm の新しい Cortex X4、A720、および A520 は、効率を重視した 64 ビット専用コアです

2023 年のトータルコンピューティングソリューションの一環としての Arm の新しいコアが発表されましたが、非常に興味深いものです。

クイックリンク

64 ビットのみ: 「ミッションは完了しました」

Arm Cortex-X4: さらなるパフォーマンスと効率の向上

Arm Cortex-A720: パフォーマンスと消費電力のバランスをとる

Arm Cortex A520: 効率を倍増

DSU-120: 最大 14 コアの優れた計算能力

効率化が新たな目標です

Arm は、Android スマートフォンで最終的に使用されるほぼすべての CPU コアを設計する会社であり、毎年その年の主力製品Snapdragonや次の主力製品MediaTekなどのチップセットに後に採用される新しいバージョンを発表次元。今年は、フラッグシップの Cortex-X4 コア、Cortex-A720 パフォーマンスコア、および Cortex-A520 効率コアをリリースします。これらのコアは、同社の新しい Arm v9.2 互換設計と、2023 年向けの同社のトータルコンピューティングソリューション (TCS23) の基礎を形成します。それに加えて、新しい DynamIQ 共有ユニットと更新された Immortalis-G720 GPU も登場します。さらに大きな問題は、64 ビットコンピューティングへの完全な移行であり、これらのコアはいずれも 32 ビットをサポートしていません。

3 つの新しいコアはすべて、昨年のマイクロアーキテクチャの後継であり、主に IPC の導入と効率の向上に焦点を当てています。

64 ビットのみ: 「ミッションは完了しました」

今年の Arm のトータルコンピューティングソリューションにおける最大の変更点の 1 つは、64 ビットのみへの移行です。昨年の A510R1 は、昨年 TCS22 を搭載して発売された A710 と同様に 32 ビット AArch32 実行モードをサポートしていましたが、今年の Arm のコアは AArch64 のみです。特に Android 上の 32 ビットアプリケーションの時計は刻々と過ぎています。 Google自体は2019年以降、すべてのアプリを更新することを義務付けています 64 ビットバイナリとしてアップロードされます。

Arm 氏が言うように、64 ビットへの移行は「任務は完了した」と考えられます。その理由は、中国のアプリ市場が他の業界の移行を遅らせましたが、中国のアプリストアのアプリの大部分は現在 64 ビットに準拠しています。あまりにも。

遅れの理由は、均質化されたアプリケーションエコシステムが欠如していたこと、つまりアプリストアごとに異なる開発者基準が必要だったことだ。しかし、Armは中国のさまざまなアプリストアと協力しており、移行が起こると繰り返し警告するとともに、それらのアプリストアも開発者に移行を奨励してきた。

その移行が完全に行われる時期が来たようですが、いずれにしても、これらの Arm コアが新しいチップセットに搭載されるまでにはさらに数か月かかります。

Arm Cortex-X4: さらなるパフォーマンスと効率の向上

Arm の X シリーズコアは数年前に A シリーズから分岐しました。その哲学は、必要なときにもう少し多くの電力を消費できる強力なコアであるということです。通常、チップセットメーカーは、十分な機能を備えているにもかかわらず、電力を大量に消費するため、これらを最大でも 1 つか 2 つしか搭載しません。

上のグラフからわかるように、Cortex-X4 はこれまでで最も強力な Arm コアですが、その計算能力には消費電力が伴います。 Cortex-X4は昨年のX3に似ており、Armによれば、昨年のコアと同じ周波数で実行でき、消費電力も最大40％削減できるという。物理サイズは 10% 未満大きくなり、これまでに構築された中で最も効率的な Cortex-X コアです。

これらの IPC の改善がどこから来ているかというと、X4 にはフロントエンドとバックエンドの多くの改善があります。これらのフロントエンドの改善では、不正確な分岐予測はパフォーマンス面でコストがかかるため、分岐予測の書き直しと改善に多大な労力が費やされました。また、Arm は、L2 キャッシュサイズが 2 MB であれば、ベンチマークではなく実際の使用において、より高いパフォーマンスが得られると約束しています。

新しい Cortex-X4 コアは、算術論理演算ユニット (ALU) の数を 6 から 8 に増やし、ブランチを追加します。ユニット (合計 3)、追加の積和演算ユニットを追加し、浮動小数点と平方根をパイプライン化します。オペレーション。

バックエンドに関しても、多くの改善が行われています。ロード/ストアパイプが取得されて分割されたため、ロード/ストアアドレス生成は 1 サイクルあたり 3 命令から 4 命令になりました。 L1 の変換ルックアサイドバッファも 2 倍になり、バンク競合も改善されました。

これらすべてが組み合わされて、Arm の Cortex-X4 のパフォーマンスが大幅に向上します。全体として、Cortex-X4 では平均 15% のパフォーマンス向上が期待できます。 Arm が共有する電力とパフォーマンスの曲線では、X4 はパフォーマンスと消費電力の両方で X3 を上回っています。言い換えれば、15% のパフォーマンス向上にはかなりの電力消費が必要になるということです。ただし、これは完全に同一の比較ではないことにも言及する価値があります。 Cortex-X3 には昨年 1MB の L2 キャッシュが搭載されていました。つまり、メーカーが今年も同じ L2 キャッシュサイズに固執した場合、必ずしも 15% のパフォーマンス向上が得られるとは限りません。

ただし、1 つ確かなことは、X4 を最高速度で実行している場合、電力を大量に消費する可能性が高いということです。今年も一部の OEM が昨年と同じことを継続し、今年のチップセットの多くをそのまま使用するよう調整する可能性があります。たとえば、OnePlus と Oppo は両方ともこれを実行しており、同時に実行すると電力効率が向上します。 X3 と同様のパフォーマンスポイントを獲得しているため、これらの企業が今後も継続するメリットがある可能性があります。それで。全体的に 15% のパフォーマンスの向上は見られないかもしれませんが、来年のチップセットでは代わりにさらなる効率の向上が見られるかもしれません。

Arm Cortex-A720: パフォーマンスと消費電力のバランスをとる

Arm の X シリーズコアは通常、少々乱暴に動作させられますが、A シリーズコアは通常、消費電力とパフォーマンスのバランスをとることを目的としています。 Cortex-A720 により、Arm はコア効率が 20% 向上し、昨年の A715 と同じ出力でパフォーマンスが向上することを約束します。

今年の A720 の改良点はどこから来るのかというと、そのほとんどはフロントエンドにあります。パイプラインは、分岐予測ミスエンジンから 1 サイクルが削除されて短縮されており、この 1 サイクルの低下がベンチマークの 1% 増加の原因であると言われています。通常、ベンチマークでは分岐の予測ミスが最小限に抑えられます。これは、現実世界全体のパフォーマンスがより大幅に (ただし、ほとんど測定不可能なほど) 改善される可能性が高いことを意味します。

アウトオブオーダーコアでは、コアが占める領域やその効率に影響を与えることなくパフォーマンスを向上させるのに役立つ多くの構造上の改善が見られます。まず、X4 と同様に、浮動小数点除算と平方根演算がパイプライン化されるようになりました。また、浮動小数点、NEON、および SVE2 数値から整数への転送が高速化され、処理速度が向上するその他の全体的な改善も行われています。

Arm は、A720 と昨年の A715 のパフォーマンスと効率の比較を示すために上記のグラフを共有しました。SPECint_base2006 では ISO プロセスと ISO 周波数が使用されています。キャッシュサイズも同じなので、ほぼ同一の比較になります。

消費電力の点では、A720 は昨年のモデルとほぼ同じですが、同じ電力レベルでパフォーマンスが少し向上しています。 X4と同様に、A720でもArmはそれがどのように改善されているかを強調することに重点を置いているようだこれらのコアの電力を継続的に増加させるのではなく、昨年の電力制約からパフォーマンスを引き出すできる。

Arm Cortex A520: 効率を倍増

もちろん、Arm のコアに関しては、パフォーマンスだけがすべてではありません。 X シリーズは生の計算能力にすべてを投入し、A7xx は計算ニーズと消費電力のバランスをとるため、A5xx シリーズは純粋に効率的な処理に重点を置いています。これは面積当たりの消費電力が最も低い Arm v9.2 コアで、A510 で導入されたものと同じマージコアアーキテクチャに基づいて構築されています。

このマージされたコアアーキテクチャが意味するのは、一部のリソースを 2 つのコア間で共有できるということです。「コンプレックス」に分類されます。 L2 キャッシュ、L2 変換ルックアサイドバッファ、およびベクトルデータパスはこの内部で共有されます。複雑な。はっきり言っておきますが、そういう意味ではありません もっている 2 つのコアにバンドルされ、最高のパフォーマンスを得るために 1 コアの複合体を組み立てることができます。実際、Arm が示した TCS2023 コアレイアウトの 1 つは、1 つの X4 コア、5 つの A720 コア、および 3 つの A520 コアを含んでおり、少なくとも 1 つの A520 コアが独立していることになります。

A520 は効率第一の設計であり、他のコアと同様に、Arm は前世代と同じ電力ポイントで効率を向上させることに主に焦点を当てました。これには、分岐予測の改善と、一部のパフォーマンス機能の削除または縮小が含まれます。結果として、このパフォーマンスは効率の向上によって回復されました。同様に興味深いことに、Arm は A510 にあった 3 番目の ALU を削除し、ロジックの発行と結果の転送の電力を節約しました。

実際の結果では、A520 は A720 や X4 ほど前世代からの大きな進歩ではないようです。より低い電力間隔での機能の多くは、上のグラフの A510 と重複しており、効率の向上が見られるのはパフォーマンスの上位層のみです。 2 つのコア間のパフォーマンスと消費電力の違いは有望ですが、A520 と A510 を比較したときに実際の利点が見られるかどうかは不明です。結局のところ、現実の世界で 2 つのパフォーマンスと効率の違いを実際に適切に測定することは困難です。

DSU-120: 最大 14 コアの優れた計算能力

DynamIQ 共有ユニット (DSU) は、マルチコアクラスターを形成するために、1 つ以上のコアを L3 メモリシステム、制御ロジック、および外部インターフェイスと統合します。これは本質的に、これらすべてのコアが相互に通信し、リソースを共有できるようにする Arm のファブリックです。このように、Arm のコア設計でチップを構築しようとしているチップセットメーカーにとって、これはパズルのかなり重要なピースです。

DSU-110 をベースにして、Arm は DSU-120 に多くの改良を加え、それが搭載されているチップ全体に利益をもたらします。まず、クラスターあたり最大 14 コア (12 から増加) が追加され、最大 32 MB の L3 キャッシュがサポートされます。また、キャッシュミスの場合など、多くの重要な領域で効率が大幅に向上すると同時に、電力漏洩も削減されます。

ある意味、Arm の DSU は、これらの各コアがどのように相互作用し、データを共有するかの基礎を形成するため、TCS23 のバックボーンです。ここでの改善はクラスター全体に利益をもたらしますが、変更のほとんどは電力消費と効率に関連しているようです。

効率化が新たな目標です

業界はここしばらく変化しているように見えますが、これらのコアから受ける主な第一印象は、今や効率が重要になっているということです。 X4 コアがいかに高速であるか、そしてそれがいかに同社史上最速のコアであるかについては説明を受けましたが、彼らは、昨年のピークパフォーマンスで実行した場合の効率の向上にすぐに気づきました。その代わり。

全体として、あらゆるパフォーマンスの向上は、そのコンポーネントの効率がどれほど向上したかによって支えられており、多かれ少なかれ、DSU のすべての変更は効率と電力漏れにありました。パフォーマンスは重要ですが、業界全体が現状を維持しようとしているように感じます。前年比で大幅なパフォーマンスの向上を目指すのではなく、計算レベルの効率化を図る必要があります。

これらのコアが MediaTek Dimensity 9400 と Qualcomm Snapdragon 8 Gen 3 の基礎となると予想されますが、どのような形になるかはまだわかりません。前述したように、Arm は自社の内部テストで 1+5+3 コアレイアウトの使用について話しましたが、それが MediaTek や Qualcomm などのパートナーが自社でやろうとしていることを意味するわけではありません。