ARM、Cortex-A78 CPU、Mali-G78 GPU、Ethos N78 NPUを発表

click fraud protection

ARM は、Cortex-A78 CPU アーキテクチャと Mali-G78 GPU を発表しました。 この 2 つは、Cortex-A77 CPU と Mali-G77 GPU の後継製品です。

TechDay 2020 の一環として、ARM は 3 つの主要な発表を行いました。 主要な発表の目玉は、新しい機能を含む Cortex-X Custom プログラム (CXC) です。 Cortex-X1 CPUコア. Cortex-X1 は、Cortex-A シリーズの PPA の限界を打ち破りながら、どの Cortex-A シリーズ CPU よりも高いピーク パフォーマンスをもたらします。 ARM が行った他の 2 つの発表は、はるかに日常的なものでした。 Cortex-A78 CPU と Mali-G78 CPU は現在正式に発表されており、これらは CPU の後継として機能します。 コーテックス-A77 CPUと マリ-G77 それぞれCPU。 これらの発表を 1 つずつ説明しましょう。

ARM Cortex-A78

Cortex-A78 では、ARM が主に焦点を当てたのは、バッテリ寿命の延長、新しいモバイル フォーム ファクタ、SoC 領域の縮小などの効率性の要求です。 ここでの Cortex-A78 のキーワードは持続的なパフォーマンスです。一方、Cortex-X1 は短期的に最大のピーク パフォーマンスを達成するという目標を掲げて星を目指しています。

ARM は、Cortex-78 はクラス最高の効率でハイエンドのパフォーマンスを実現する同社のドライブの「最高の」ものであると述べています。 これらも単なる空虚な言葉ではありません。 過去数年間、Cortex-A76 と Cortex-A77 はクラス最高のエネルギー効率とクラス最高の PPA (パフォーマンス、電力、エリア) を示してきました。 Apple の A シリーズ チップと競合するのに必要な設計は備えていませんでしたが、低コストのため、 発電された電力のエネルギー効率は、悪くても Apple と同じ、良くても Apple よりも高かった りんご。

A78 のパフォーマンスの向上は、生産性、通信、セキュリティおよびカメラベースのタスク、高度なゲーム、XR、および ML ベースのエクスペリエンスのユースケースをカバーします。

Cortex-A78 は、持続的なパフォーマンスにおいて 2 桁の向上をもたらします。 同じモバイルの熱出力エンベロープにおいて、前世代の Cortex-A77 と比べて持続的なパフォーマンスが 20% 向上しています。 アナンドテック 数値を検討し、20% という数字は A77 よりも 7% 高い IPC を組み合わせたものであると説明しました。 残りの 13% のパフォーマンス向上は 5nm プロセスによるものであり、次世代 SoC はすべてその上に搭載されることになります。 捏造された。 ARM は、モバイル デバイスの能力には限界があると述べ、持続的なパフォーマンスの重要性を指摘しています。 電力を消費し、パフォーマンスを維持することで、多くの電力を要求するアプリケーションの電力スロットルを回避します。 力。 これにより、ラグやフレームドロップが回避され、UX が向上します。

この 2 つは関連していますが、異なる概念であるため、電力効率の向上はエネルギー効率の向上につながります。 ARM によると、現在のモバイル デバイスのピークなどの高性能ポイントにおいて、Cortex-A78 は 2019 年のデバイスと比較して 50% のエネルギー節約を実現します。 同じ公演で Cortex-A77 として。 これは印象的であり、A78 は ARM がこれまでに設計した中で最もエネルギー効率の高い Cortex-A CPU になります。

ARM が持続的なパフォーマンスに重点を置くことは、新しいフォーム ファクター (折りたたみ式携帯電話) や 5G による「デジタル没入感」の向上など、モバイル イノベーションの次の波に利益をもたらすでしょう。 現実を確認してみると、これは現世代には当てはまらず、次世代でもあまり問題にならないでしょう。

Cortex-A78 によって改善されるユースケースの 1 つは、ARM 独自の新しい Mali-G78 GPU と組み合わせた場合の AAA モバイル ゲームです。 この 2 つの組み合わせは、モバイルに忠実度の高いゲーム体験をもたらすことを目的としています。 優れたパフォーマンスと 5G の高速速度および高帯域幅を組み合わせることで、モバイルでのプレミアム ゲームが可能になります。 A78 の効率性には、長時間のゲームでバッテリー寿命が長くなるという利点があります。 ARM は、パフォーマンスをさらに強化し、より豊かなゲーム体験を構築するためにエコシステムとも連携していると述べ、Android に Burst Compiler を導入するための Unity との連携例を挙げています。

機械学習 (ML) のパフォーマンスも ARM の優先事項です。 最近のハイエンド SoC には別個のニューラル プロセッシング ユニット (NPU) が搭載されていますが、モバイルでの ML コンピューティングには CPU が第一選択のプロセッサーです。 ARM の CPU は、ソーシャル メディア フィルター、ディクテーション、セキュリティ、セキュリティなど、最も一般的な現実世界の ML アプリケーションとスマートフォン上のユースケースをサポートします。 Cortex-A78 は、A77 と比較して ML ベースのタスクの消費電力が平均 8% 少なく、公式の効率が 10% 向上します。

ARM Cortex-A78 - アーキテクチャ

ARM Cortex-A78 は、前世代と同じアーキテクチャを備えています (依然として ARM v8.2 コアです)。 ただし、ARM は、エリアと電力効率の高い方法でパフォーマンスを向上させることを目的としたマイクロアーキテクチャ機能を追加しました。 ARM は、必要なパフォーマンス レベルを維持しながら、面積と電力を節約します。 繰り返しになりますが、ARM が Cortex-A シリーズに注力しているのは、ピーク パフォーマンスではなく面積と電力効率であり、現在は Cortex-X プログラムがそれを担当しています。

Cortex-A78 のパフォーマンスの向上は、幅と深さを最適化する追加のマイクロアーキテクチャ機能によって可能になります。 命令デコード幅は A77 および A76 と同じ 4 幅のままです。 (一方、Cortex-X1 のデコード幅は 5 幅ですが、A13 のデコード幅は 7 幅です。) ARM は、命令融合ケースだけでなく、帯域幅と精度に関してより優れた分岐予測を追加しました。 これらのアーキテクチャの改善により、A77 と比較してシングルスレッドのパフォーマンスが 7% 向上しました。

L1-I キャッシュや L1-D キャッシュなど、パフォーマンスと面積が低い構造を削減することで効率が最大化されました。 ARM は、ブランド予測構造など、消費電力を削減するために既存の構造を最適化しました。 ARMによれば、これにより、A77と比較して、mWあたりのパフォーマンスで消費電力が4%削減され、mm2あたりのパフォーマンスで面積が5%削減されるという。

A78 は、クラスター レベルでクラス最高の効率でパフォーマンスを維持することに重点を置いています。 4x Cortex-A77 CPU および 4x Cortex-A55 CPU からなる DynamIQ クラスターは、4x A78 コアと 4x A55 コアにアップグレードできます。 これにより、15% 少ない面積で 20% の持続的なパフォーマンスの向上が実現します。 高忠実度のゲームなど、複数の高性能スレッドを並行して必要とするアプリケーションでは、持続的なパフォーマンス向上によるメリットが得られます。

ARM は、A78 DynamIQ クラスターの面積効率が強化されているため、折りたたみ式携帯電話や複数の大型ディスプレイに最適であると述べています。 もう 1 つの焦点は、パフォーマンスとエネルギーの改善を通じてスマートフォンを 5G に対応させることです。 5G は、「はるかに高速な速度」、「はるかに低い遅延」、「高帯域幅アプリケーション向けのモバイル デバイスのはるかに高速でよりユビキタスな接続」を提供すると考えられています。 数年後にはそうなるかもしれませんが、現時点では、これらの利点のほとんどは最終消費者にとって顕著ではありません。

全体的に見て、Cortex-A78 は堅実な製品です。 次世代のフラッグシップ SoC には、複数の A78 コアが組み込まれ、単一の Cortex-X1 コアを補完します。 より高い電力と面積の要件があり、一部の価値指向の SoC は Cortex-X1 を省略することさえ選択します。 全体的に。 ミッドレンジ SoC 市場にとって、A78 は 2021 年の SoC に最適な CPU コアとなり、持続的なパフォーマンスに重点を置くことは歓迎されます。


ARM マリ-G78

控えめに言っても、ARM の Mali シリーズの GPU は、Cortex シリーズの CPU ほど成功していません。 Mali GPU は、パフォーマンスと電力効率の両方の点で、Apple のカスタム GPU や Qualcomm のカスタム Adreno GPU よりも毎年一貫して優れています。 悲しいことに、昨年発売された新しい Valhall アーキテクチャと Mali-G77 GPU は、この状況を何も変えることはできませんでした。 Mali-G77 を搭載した SoC には、 エクシノス 990 そしてその メディアテック ディメンシティ 1000L それぞれ。 残念ながら、どちらも実装が弱いようで、GPU のパフォーマンスが低下する可能性があります。 Qualcomm の Adreno 650 GPU とは競合しませんが、Apple A12 や Apple A12 に搭載されたクラストップの GPU は気にする必要はありません。 A13. マリは何年も遅れをとっており、その改善はモバイル GPU 分野の現状を変えるには十分ではありませんでした。

それにもかかわらず、ARM は楽観的ではありません。 同社のパートナーは年間 10 億を超えるマリ GPU を出荷しており、マリが世界で最も出荷された GPU になっていると述べています。 おそらく、より多くの異なるタイプのデバイスが高度なモバイル ゲームや XR (VR および AR) などのグラフィックを多用するユースケースを可能にするため、この数はさらに増加すると考えられます。 ARM によると、これによりマリはエコシステム全体でモバイル開発に最も広く使用されている GPU になります。

ARM は、2019 年に Valhall アーキテクチャに基づく最初の GPU、Mali-G77 を発表したと述べています。 2020 年には、G77 の後継となる Mali-G78 も Valhall アーキテクチャに基づいています。 ARM は、これがプレミアム モバイル デバイス向けのこれまでで最もパフォーマンスの高い GPU であると言っていますが、ARM が皮肉にもそれが数字で裏付けられた事実であると述べているにもかかわらず、数字はそれを裏付けていません。 G78 は G77 に比べてパフォーマンスが 25% 向上していますが、控えめに言ってもわずかです。 G77 と Apple A13 の GPU のピーク GPU パフォーマンスの差は大きく、次期 Apple A14 の GPU はともかく、G78 は A13 に追いつくことができないことを意味します。 クアルコムはまた、独自の漸進的なパフォーマンス向上により、今後も一歩先を行き続けるでしょう。

革新的なグラフィックスとモバイルでの終日ゲームは他の GPU ですでに可能であるため、ここでの ARM のマーケティングは少し空虚に聞こえます。

ARMによると、Mali-G78は開発者とエンドユーザーを念頭に置いて構築されているという。 コンソール ゲームがモバイルで利用できるようになり、高品質のモバイル ゲーム体験が可能になります。 G78 は、プレミアム モバイル デバイスのバッテリー寿命を延ばします。 また、モバイル デバイス上のより複雑なゲーム、ビデオ、カメラ、セキュリティ ML 機能の ML パフォーマンスがさらに向上します。

ARMはモバイルゲームの見通しについて強気だ。 モバイル ゲームは 2019 年に世界のゲーム市場の 46% 以上を占め、収益は 682 億ドルに達しました。 また、PC ゲームとコンソール ゲームの両方を上回るため、今後数年間は成長を続けると見込まれています。 より多くのプレミアム ゲーム タイトルがモバイルに登場しており、ユーザーはコンソールと比較してモバイルでも同様のエクスペリエンスを期待しています。

これらの体験を可能にするために、Mali-G78 には必要なパフォーマンス向上が備わっています。 G77 と比較して、ゲーム コンテンツのパフォーマンス密度が 15% 向上しています。 前世代と同じ面積でも、G78 はより高いパフォーマンスを提供します。 この向上は、次の 4 つの主要な機能によって可能になります。

  • 最大 24 コアのサポート
  • 非同期トップレベル
  • タイラーの改善
  • フラグメント依存関係追跡の改善

G77 の最大コア数は 16 でしたが、ARM は G78 の最大コア数を最大 24 コアに増加しました。 もちろん、最大値があるからといって、モバイル チップ ベンダーが実際に 24 コアを組み込むとは限りません。 これまでに確認した G77 の最も幅広いコア バリアントは Exynos 990 の Mali-G77MP11 で、Dimensity 1000 には Mali-G77MC9 が搭載されています。

ARM は、非同期トップ レベルが GPU パフォーマンスの革新的な機能であると信じています。 これにより、モバイル ゲームのパフォーマンスが最大限に引き出され、最大のパフォーマンスが保証されると言われています。

一方、タイラーの改善により、モバイル ゲームの品質がさらに高まります。 PC やコンソールから持ち込まれたゲームには、非常に複雑なアセットや洗練されたシーンが含まれることが多く、パフォーマンスの障害点やボトルネックを引き起こします。 タイラーの改善により、これらの複雑なシーンやアセットに対する GPU の頂点負荷が軽減されます。 これにより、複雑なコンソールのようなゲーム コンテンツのパフォーマンスが向上します。

ARM は、G78 でのフラグメント依存関係の追跡も強化しました。 これは、煙、木、草が含まれる複雑なゲーム シーンを含むモバイル ゲームに特に影響します。 その結果、ARM では、G77 と比較してトップ モバイル ゲームのパフォーマンスが最大 17% 向上しました。

Mali-G78 は、前モデルよりもエネルギー効率が 10% 向上しています。 繰り返しになりますが、それだけではクアルコムやアップルに追いつくには十分ではありません。 ここでのARMの目標は特に保守的であるように見える。 非同期トップレベル機能は電力の削減を可能にし、持続可能な方法でコンテンツを生成できるため、エネルギー効率において重要な役割を果たします。 したがって、デバイスが目的のフレーム レートでコンテンツを出力している場合、エネルギーを節約するためにクロック ダウンすることができます。 このタスクのトップ レベルを上げると少し多くのエネルギーが消費されますが、シェーダ コアの周波数を下げることで得られるエネルギーの節約効果ははるかに高くなります。 これは、シェーダ コアが GPU のエネルギー バジェットの 90 ~ 95% を使用するためです。

G78 では、Fused Multiply-Add (FMA) のおかげでエネルギー効率も向上しました。 根本から完全に再設計され、ユニットのエネルギーが 30% 削減されました。 FMA ユニットは GPU 内で行われる計算のほとんどを担当するため、ARM がエネルギー削減の対象として FMA ユニットをターゲットにするのは理にかなっています。

GPU の並列データ処理機能は、ML ワークロードの実行に適していますが、ARM は CPU と GPU が引き続き ML のプライマリ プロセッサであることを認めています。 ユースケースがより複雑になるにつれて、一部のワークロードは GPU にオフロードされます。 GPU の主な ML ユースケースは、デバイスのセキュリティ機能、さまざまなカメラ、ビデオ モード、および AR 機能を備えたアプリケーションにリンクされています。

GPU 上の ML の役割により、写真やビデオのフレーム内での顔の追跡、AR 機能を使用するゲームなどのエクスペリエンスが可能になります。 これらの ML ベースのタスクに関して、Mali-G78 は、G77 と比較して、さまざまな ML ワークロードの平均パフォーマンスが 15% 向上しています。 G77 は前世代と比較して ML パフォーマンスが 60% 向上したため、今年の前年比の向上ははるかに小さいです。 非同期トップレベルは、シェーダー コアのクロッキングが GPU 上のさまざまな ML ユースケースに役立つため、ML のパフォーマンスを向上させるために不可欠です。

そして、Mali-G68の発表です。 Mali-G57 が Mali-G77 のより狭いバージョンであったのと同様に、これは Mali-G78 のより狭いバージョンに他なりません。 ARMによると、これは2021年デバイス向けの初のサブプレミアムMali GPUだという。 タイラーの改良や実行エンジンの新しい FMA ユニットなど、G78 の機能をすべて備えていますが、24 コアではなく最大 6 コアをサポートします。 この GPU の目的は、低コストでプレミアムに近いパフォーマンスを実現することです。

ARM は、デバイスのポートフォリオ全体でプレミアム機能を求めるパートナーからのフィードバックに耳を傾けた後、このサブプレミアム GPU 層を開発しました。 G68 は予想どおりシリコン面積が小さく、より幅広い開発者や消費者に高性能ゲームを提供します。

最後に、ARM は開発者パートナーシップについて言及しています。 これにより、開発者は Mali GPU で (理論的には) より適切に動作するようにコンテンツを最適化することが簡単になります。 一例として、パフォーマンス アドバイザーが挙げられます。 2 つ目は、ARM と Unity の協力による Burst Compiler の提供です。 これについての詳細はソース記事で読むことができます。

マリ-G78 - 見通し

マリ-G78の見通しは暗い。 ARM は、Apple が製造しているのと同じ型、つまりクアルコムが過去に製造したのと同じ型で、前年比で大幅なパフォーマンスの向上を図ることにまったく興味がないようです。 クアルコムの改善率も鈍化しているものの、そのベースラインはARMよりも高い位置にある。 A13 の GPU の持続的なパフォーマンスが Snapdragon 865 のピーク パフォーマンスよりも高いとレビュアーが数値的証拠を示して述べているのは、Android エコシステムにとって悪いことのように思えます。 Apple と Android の GPU 間のパフォーマンスの差は拡大しており、その差はさらに広がるばかりです。

したがって、G78 は、ARM の Mali GPU の問題を解決し、パフォーマンス チャートのトップに引き上げる魔法のソリューションではありません。 今後も Apple や Qualcomm の GPU よりも下にランクされることになります。 一部の SoC ではこれがデフォルトの選択になります それは ARM のストック GPU IP であり、カスタム ソリューションには参入障壁があり、コストが高くなるからです。 良い。

来年、Samsung SystemsのLSIが実際にMali-G78を使用することになるかどうかは疑わしい。 サムスンはマリ GPU の注目度の高い顧客でしたが、昨年、 RDNA GPU アーキテクチャを導入するために AMD とパートナーシップを締結しました 2021 年にはモバイル SoC に。 そのロードマップが順調に進んでいるのであれば、そして現時点でそれが軌道に乗っていないと疑う理由はないのですが、Exynos 990 の後継機には Mali GPU の代わりに AMD RDNA GPU が搭載されることになります。 確かに、これはARMにとって大きな設計上の損失となるだろう。 MediaTek などの他のベンダーにも、最近ではより多くのオプションがあります。 Imagination Technologies の新しい A シリーズ GPU アーキテクチャ は G78 よりも高いパフォーマンスを設計目標としており、将来的に MediaTek がマリから切り替える可能性があります。 もちろん、クアルコムにはまだ残っている Adreno GPU への取り組みを放棄する理由はない。 Android に限って言えば、パフォーマンスと効率の点でクラス最高です。 スマートフォン市場。

したがって、ARM がモバイル GPU 市場に真の変化をもたらすには、マリ GPU の年間改良率を高める必要があることは明らかです。 これができない場合、プレミアムフラッグシップモバイルGPU分野で後回しにされるリスクに直面することになる。


ARM エトス N78

最後に、ARM は Ethos N78 ニューラル プロセッシング ユニット (NPU) も発表しました。 N77 NPU の後継です。 より優れたオンデバイス ML 機能と最大 25% のパフォーマンス効率の向上を実現します。 利用可能な構成は 1 TOP/秒から最大 10 TOP/秒までの範囲に及ぶため、構成が容易であることも強みです。 詳細については、こちらをご覧ください ARM のブログ投稿. Qualcomm、Samsung、HiSilicon、MediaTek はそれぞれ独自のニューラル プロセッシング ユニット/AI エンジンを備えているため、この NPU の設計上の利点はおそらく限られたものになるでしょう。


出典: ARM (1, 2)、アナンドテック (1, 2)