Google a dévoilé RT-2, un nouveau modèle d'IA capable de traduire vos commandes en actions robotiques sans nécessiter de formation explicite.
Bien que les chatbots IA alimentés par de grands modèles de langage (LLM) fassent la une des journaux ces jours-ci en raison de la montée fulgurante de la popularité de ChatGPT, Chat Bing, Le lama de Meta, et Google Barde, ce n’est qu’une petite partie du paysage de l’IA. Un autre domaine activement exploré depuis des années est celui du matériel robotique exploitant des techniques complexes pour remplacer ou assister les humains. Google a annoncé une avancée dans ce domaine, sous la forme d'un nouveau modèle d'IA.
Google a dévoilé Robotics Transformer 2 (RT-2), son dernier modèle d'IA avec un objectif très précis: communiquer l'action souhaitée à un robot. Il utilise de nouvelles techniques pour atteindre cet objectif, alimentées par un langage visuel-action (VLA) unique qui, selon Google, est le premier du genre. Bien que plusieurs modèles précédents comme RT-1 et PaLM-E aient fait des progrès en augmentant les capacités de raisonnement des robots et en garantissant qu'ils apprennent les uns des autres, le monde dominé par les robots présenté par les films de science-fiction semble sans doute encore provenir d’un avenir extrêmement lointain.
RT-2 vise à réduire cet écart entre la fiction et la réalité en garantissant que les robots comprennent pleinement le monde qui les entoure avec un support minimal, voire inexistant. En principe, il est très similaire aux LLM, où il utilise un modèle basé sur Transformer pour en apprendre davantage sur le monde à partir de textes et de visuels. informations disponibles sur le Web, puis les traduire en actions robotiques, même sur des cas de test où cela n'a pas été explicitement indiqué qualifié.
Google a expliqué plusieurs cas d'utilisation pour expliquer les capacités du RT-2. Par exemple, si vous demandez à un robot propulsé par RT-2 de jeter des déchets dans la poubelle, il sera facilement capable de comprendre ce que sont les déchets et comment les différencier des autres objets. présent dans l'environnement, comment le déplacer et le ramasser mécaniquement, et comment le jeter à la poubelle, le tout sans être spécifiquement formé à l'un ou l'autre de ces éléments activités.
Google a également partagé des résultats plutôt impressionnants issus de ses tests du RT-2. Au cours de plus de 6 000 essais, le RT-2 s'est révélé aussi compétent que son prédécesseur dans les tâches « visibles ». Plus intéressant encore, dans des scénarios inédits, il a obtenu un score de 62 %, contre 32 % pour le RT-1, soit une performance presque multipliée par deux. Bien que les applications d’une telle technologie semblent déjà très tangibles, cela prend beaucoup de temps pour y parvenir. pour mûrir à mesure que les cas d'utilisation réels nécessitent naturellement des tests rigoureux et même une approbation réglementaire au niveau fois. Pour l'instant, vous pouvez en savoir plus sur le mécanisme backend de RT-2 dans Le blog de Google DeepMind ici.