クアルコムの Hexagon 685 DSP は機械学習の強力なツールです

click fraud protection

クアルコムの Snapdragon 845 には、強力な機械学習チップが組み込まれています。 これは Hexagon 685 DSP と呼ばれるもので、AI ハードウェアにおける大きな進歩です。

クアルコムの Snapdragon ファミリの最新システムオンチップである Snapdragon 845 は、強力なプロセッサーです。 高速な CPU コア、第 3 世代の Spectra 画像信号プロセッサ (ISP)、および前世代よりも 30% 電力効率が高いアーキテクチャを誇ります。 しかしおそらく、その最も印象的なコンポーネントは、人工知能と機械学習用に特別に作られたコプロセッサ、Hexagon 685 DSP です。

Qualcomm の Hexagon 685 DSP は何が機能するのでしょうか?

Snapdragon 835 の Hexagon DSP アーキテクチャ。 出典: クアルコム

「ベクトル数学はディープラーニングの基礎です。」 - Travis Lanier 氏、クアルコム製品管理シニア ディレクター

Hexagon DSP がなぜ非常にユニークであるかを理解するには、大学の工学専攻がよく知っている種類の数学によって AI が駆動されていることを知ることが役立ちます。 機械学習には大きなベクトルを使用した計算が含まれるため、スマートフォン、タブレット、PC のプロセッサにとって課題となります。 汎用チップでは、確率的勾配降下法 (AI を活用したアプリの中核となる種類のアルゴリズム) のようなアルゴリズムを迅速かつ効率的に計算するのは困難です。 クアルコムの Hexagon DSP は、これを解決するために導入されました。画像とセンサー データ、特に写真の処理に優れています。

しかし、Hexagon DSP はセルフィーを美しく仕上げるだけではありません。 含まれている HVX コンテキスト (詳細は後述) により、汎用プロセッサと固定機能コアの両方の利点が得られます。 Hexagon 685 DSP は、オンデバイスの機械学習の背後にある数学の計算において非常に効率的ですが、よりプログラム可能なプロセッサの柔軟性も保持しています。

Hexagon 685 DSP のような AI チップは「ニューラル プロセッシング ユニット」とも呼ばれます。 「ニューラル エンジン」または「機械学習コア」は、AI アルゴリズムの数学的アルゴリズムに合わせて特別に調整されています。 ニーズ。 従来の CPU よりもはるかに厳格な設計であり、特別な命令と配置が含まれています (Hexagon 685 DSP の場合、 前述の HVX アーキテクチャ) により、大規模な環境で顕著になる特定のスカラー演算とベクトル演算が高速化されます。 実装。

Snapdragon 845 の Hexagon 685 DSP は、平均的な CPU コアの 1 サイクルあたり数百ビットと比較して、処理サイクルあたり数千ビットのベクトル ユニットを処理できます。 それは仕様です。 超長命令ワード (VLIW) 操作および複数の HVX コンテキスト用の 4 つの並列スカラー スレッドを備えた DSP は、 単一の命令で複数の実行ユニットをジャグリングし、整数と固定小数点 10 進数を高速に処理できます。 オペレーション。

Hexagon 685 の設計は、生の MHz を通じてパフォーマンスを向上させるのではなく、クロック速度を下げてサイクルごとに高レベルの作業を行うことを目指しています。 これには、VLIW に適したハードウェア マルチスレッドが含まれています。マルチスレッドによってパイプラインの遅延が隠蔽され、VLIW パケットの利用効率が向上します。 DSP のマルチスレッドは、複数のオフロード セッション、つまりオーディオ、カメラ、 コンピューター ビジョンなど -- さまざまなタスクを同時に加速し、アプリケーションが競合するのを防ぎます。 実行時間。

出典: クアルコム

しかし、Hexagon DSP の強みはそれだけではありません。 その命令セット アーキテクチャ (ISA) は、従来の VLIW に比べて効率が向上しています。 制御コードが改善され、アイドル状態や停止状態からパフォーマンスを回復する巧妙なトリックが採用されています。 スレッド。 また、遅延ゼロのラウンドロビン スレッド スケジューリングも実装されています。つまり、DSP のスレッドは前のデータ パケットが完了した直後に新しい命令を処理します。

出典: クアルコム

はっきり言っておきますが、これはどれも新しいものではありません。 クアルコムは「第一世代」(または適切な)ヘキサゴン DSP、ヘキサゴン 680、または QDSP6 v6 を発表しました。 2015 年に Snapdragon 820 と並んで、Hexagon 680 の後にはわずかに改良された 680 が続きました。 ヘキサゴン682。 しかし、最新世代はこれまでで最も洗練されており、Snapdragon 835 の DSP の最大 3 倍の総合パフォーマンスを実現します。

これは主に、画像処理 (拡張現実、コンピューター ビジョン、ビデオ、写真など) に非常にうまく機能した HVX のおかげです。 DSP の HVX レジスタは、スカラー レジスタの任意の 2 つによって制御でき、HVX ユニットとスカラー ユニットを同時に使用できるため、パフォーマンスが大幅に向上し、同時実行性が得られます。

こちらです クアルコムの説明:

「モバイル CPU で制御コード モードで処理し、コプロセッサで計算モードに切り替えるとします。 制御コードが必要な場合は、停止してコプロセッサからメイン CPU に戻る必要があります。 Hexagon を使用すると、DSP 上の制御コード プロセッサと HVX 上の計算コード プロセッサの両方を同時に実行して、制御コードと計算コードを緊密に結合できます。 これにより、DSP は HVX 計算の結果を取得し、次のクロック サイクルでの制御コードの決定に使用できるようになります。」

HVX は、イメージ センサー処理においてもう 1 つの大きな利点をもたらします。 Hexagon 685 DSP を搭載した Snapdragon デバイスは、デバイスの DDR メモリ コントローラーをバイパスして、イメージング センサーから DSP のローカル メモリ (L2 キャッシュ) にデータを直接ストリーミングできます。 もちろん、これにより待ち時間が短縮されますが、バッテリー寿命も向上します。Snapdragon プロセッサは、操作中ずっとアイドル状態になるように設計されています。

特に 16 ビット浮動小数点ネットワーク向けに最適化されており、クアルコムの機械学習ソフトウェアである Snapdragon Neural Processing Engine によって制御されます。

クアルコムの広報担当者は「われわれはこの件を非常に真剣に受け止めている」と述べた。 「私たちは過去 3 年間、パートナーと協力して、[...] AI とイメージングに当社のシリコンを活用してもらいました。」

これらのパートナーには、たとえば、Pixel および Pixel 2 の HDR+ アルゴリズムを強化するために Hexagon DSP の画像処理部分を使用した Google が含まれます。 Google も独自の Pixel Core を導入していますが、Hexagon 685 DSP 対応デバイスが 有名な Google カメラ ポートで最高の結果が得られるものは、(確認したように) HVX のせいもあります。 利用。 別のパートナーである Facebook は、クアルコムと緊密に連携して、メッセンジャーのリアルタイム カメラ フィルターとエフェクトを高速化しました。

Oppo は Hexagon 685 DSP 向けに顔認証解除テクノロジーを最適化し、Lenovo はそれに基づいてランドマーク検出機能を開発しました。

プラットフォームが豊富にサポートされている理由の 1 つは、そのシンプルさです。 クアルコムの広範な Hexagon SDK は、高性能画像処理のための Halide 言語をサポートしており、 機械学習トレーニング フレームワークについて心配する必要はありません -- モデルの実装は、ほとんどの場合、API 呼び出しを行うのと同じくらい簡単です。 ケース。

「私たちは[…]IBMやNvidiaなどと[AI]で競合しているわけではありませんが、開発者が活用できる分野はありますし、すでに持っています」とクアルコムはXDA Developersに語った。

ヘキサゴン vs. 競争

Snapdragon 845 の Hexagon 685 DSP は、独自のモバイルおよびオンデバイス AI ソリューションを追求する相手先ブランド供給メーカー (OEM) の増加に伴って登場します。 ファーウェイの キリン970 -- 内部のシステムオンチップ メイト10 そして メイト10プロ -- 伝えられるところによると、平均的なスマートフォン CPU のわずか 1/50 の消費電力で 1 秒あたり 2,000 枚以上の画像を認識できる「ニューラル プロセッシング ユニット」(NPU)を搭載しています。 また、iPhone 8、iPhone 8 Plus、iPhone X に搭載されている Apple A11 Bionic システムオンチップには、リアルタイムの顔モデリングと 1 秒あたり最大 6,000 億回の操作を実行する「ニューラル エンジン」が搭載されています。

しかしクアルコムは、ヘキサゴンのプラットフォームに依存しないことが利点だと述べている。 開発者に独自の API の使用を主に強制する Apple や Huawei とは異なり、Qualcomm は最初から最も人気のあるオープンソース フレームワークのいくつかをサポートしようとしました。 たとえば、Google と協力して最適化しました。 TensorFlow、Hexagon 685 DSP 用の Google の機械学習プラットフォーム -- クアルコムによれば、このプラットフォームは Hexagon 以外のデバイスに比べて最大 8 倍の速度と 25 倍の電力効率で動作します。

出典: クアルコム

Qualcomm の DSP アーキテクチャでは、Google の GoogLeNet インセプション ディープ ニューラル ネットワーク -- 物体検出および分類システムの品質を評価するために設計された機械学習アルゴリズム -- を示すデモで利点が実証されました TensorFlow を搭載した 1 つの画像認識アプリを 2 台のスマートフォンにインストールします。1 つは CPU 上でアプリを実行し、もう 1 つは Qualcomm の Hexagon 上でアプリを実行します。 DSP。 DSP で高速化されたスマートフォン アプリは、CPU のみのアプリよりも 1 秒あたりにより多くの画像をキャプチャし、物体をより速く識別し、物体が何であるかについての結論に高い信頼性を持っていました。

Google はまた、Hexagon 685 DSP を使用して、スマートフォン用の拡張現実プラットフォームである Project Tango を高速化しています。 Lenovo の Phab 2 Pro、Asus の ZenFone AR、および Tango の深度センサー IR モジュールと画像追跡カメラを搭載したその他のデバイスは、クアルコムの ヘテロジニアス処理アーキテクチャ。Snapdragon チップセットの Hexagon 685 DSP、センサー ハブ、および画像信号の間で処理タスクを委任します。 プロセッサー (ISP)。 クアルコムによれば、その結果、システムオンチップのCPUのオーバーヘッドは「10パーセント未満」になるという。

クアルコムの広報担当者は、「我々が知る限り、パフォーマンスと電力効率を最適化しているモバイル企業は我々だけだ」と述べた。

もちろん、競合他社も影響力の範囲を拡大し、プラットフォーム上での開発者のサポートを促進するために取り組んでいます。 Kirin 970 のニューラル チップは TensorFlow と カフェ (Facebook のオープン API フレームワーク) ファーウェイの Kirin API に加えて、 TensorFlow Lite そして カフェ2 今年後半に統合が予定されています。 また、ファーウェイはマイクロソフトと協力して、Mate 10 向けに AI を活用したトランスレーターを最適化しました。

しかし、クアルコムにはリーチという別の利点もあります。 Strategy Analyticsによると、同社は2017年上半期にスマートフォン用チップ市場の42%を占め、次いでAppleとMediaTekがそれぞれ18%を占めた。 言っておきますが、まだ震えていません。

そしてクアルコムは、今後も成長するだろうと予測している。 チップメーカーは、コンピューター ビジョンなどの AI ソフトウェア テクノロジーにより、2025 年までに 1,600 億ドルの収益を予測しています。 2021年までに出荷台数が86億台に達すると予想されるスマートフォン市場が最大だとみている プラットホーム。

Hexagon 685 DSP およびその他の「三次」改良により、ダウンストリームからミッドレンジへの移行が継続的に行われています。 また、クアルコムのチップを使用すると、オンデバイスの機械学習を近くのあらゆる種類のデバイスに導入することも容易になります。 未来。 また、開発者がアプリケーションやサービスで Hexagon 685 DSP と HVX を利用できるようにするための便利な SDK (DSP アセンブリ言語をいじる必要はありません) も提供しています。

クアルコムの広報担当者は「ニューラル処理にはこうした専用の処理ユニットが必要だが、(オープンソースの)フレームワークをサポートできるように拡張する必要もある」と述べた。 「あなたがそのエコシステムを構築しなければ、[...] 開発者がそのエコシステム上で何かを作成することはできません。」