Google、ロボットと会話するAIモデル「RT-2」を発表

Google は、明示的なトレーニングを必要とせずにコマンドをロボットの動作に変換できる新しい AI モデル RT-2 を発表しました。

最近では、大規模言語モデル (LLM) を利用した AI チャットボットが見出しを独占していますが、その人気の急激な高まりにより、チャットGPT, Bing チャット, メタのラマ、そしてグーグル吟遊詩人、これは AI の世界のほんの一部にすぎません。長年にわたって積極的に研究されてきたもう 1 つの分野は、複雑な技術を活用して人間の代わりをしたり、人間を支援したりするロボットハードウェアです。 Google は今回、新しい AI モデルの形でこの分野の進歩を発表しました。

Googleは発表された Robotics Transformer 2 (RT-2) は、ユーザーの希望するアクションをロボットに伝えるという非常に具体的な目的を備えた最新の AI モデルです。この目的を達成するために、Google がこの種のものとしては初めてであると主張する独自のビジュアル言語アクション (VLA) を活用した新しい技術が利用されています。 RT-1 や PaLM-E などの以前のいくつかのモデルは、ロボットの推論能力を向上させ、確実に学習させるという点で進歩を遂げてきましたが、相互に見てみると、SF 映画で描かれるロボットが支配する世界は、おそらく依然として非常に遠い未来のことのように思えます。

RT-2 は、最小限のサポート、またはまったくサポートなしでロボットが周囲の世界を完全に理解できるようにすることで、フィクションと現実の間のこのギャップを減らすことを目的としています。原理的には、LLM と非常に似ており、Transformer ベースのモデルを使用してテキストとビジュアルから世界について学習します。ウェブ上で入手可能な情報を利用し、それが明示的に行われていないテストケースであっても、それをロボットの動作に変換します。訓練された。

Google は RT-2 の機能を説明するためにいくつかのユースケースを説明しました。たとえば、RT-2 電動ロボットにゴミ箱にゴミを捨てるように依頼すると、ゴミが何なのか、他の物体と区別する方法を簡単に理解できるようになります。環境中に存在するもの、それを機械的に移動して拾う方法、ゴミ箱に捨てる方法、これらすべてについて特別な訓練を受けていなくても、活動。

Google は、RT-2 のテストから得られたかなり印象的な結果も共有しました。 6,000 回以上のトライアルで、RT-2 は「見える」タスクにおいては前任者と同じくらい熟練していることが証明されました。さらに興味深いことに、未知のシナリオでは、RT-1 の 32% と比較して 62% のスコアが得られ、パフォーマンスがほぼ 2 倍向上しました。このようなテクノロジーの応用はすでに具体的になっているように見えますが、実現するにはかなりの時間がかかります。実際のユースケースとして成熟するには、当然のことながら、厳格なテストが必要であり、さらには規制当局の承認も必要です。回。現時点では、RT-2 のバックエンドメカニズムの詳細については、次の記事を参照してください。 Google DeepMind のブログはこちら.