Google anuncia RT-2, un modelo de IA para hablar con robots

Google ha presentado RT-2, un novedoso modelo de inteligencia artificial que puede traducir sus comandos en acciones robóticas sin requerir capacitación explícita.

Aunque los chatbots de IA impulsados por grandes modelos de lenguaje (LLM) dominan los titulares en estos días debido al meteórico aumento de la popularidad de ChatGPT, Chat de Bing, La llama de Meta, y bardo de google, esto es sólo una pequeña parte del panorama de la IA. Otra área que se ha explorado activamente durante años es el hardware robótico que aprovecha técnicas complejas para reemplazar o ayudar a los humanos. Google ha anunciado ahora un avance en este ámbito, en forma de un nuevo modelo de IA.

Google tiene desvelado Robotics Transformer 2 (RT-2), su último modelo de IA con un propósito muy específico: comunicar la acción deseada a un robot. Utiliza técnicas novedosas para lograr este propósito, impulsadas por una acción de lenguaje visual (VLA) única que, según Google, es la primera de su tipo. Aunque varios modelos anteriores como RT-1 y PaLM-E han logrado avances para aumentar las capacidades de razonamiento de los robots y garantizar que aprendan. Unos de otros, el mundo dominado por robots que muestran las películas de ciencia ficción todavía parece algo de un futuro extremadamente lejano.

RT-2 tiene como objetivo reducir esta brecha entre la ficción y la realidad asegurándose de que los robots comprendan completamente el mundo que los rodea con un apoyo mínimo o nulo. En principio, es muy similar a los LLM, donde utiliza un modelo basado en Transformer para aprender sobre el mundo a partir de textos y visuales. información disponible en la web y luego traducirla en acciones robóticas, incluso en casos de prueba en los que no se ha especificado explícitamente. entrenado.

Google ha explicado varios casos de uso para explicar las capacidades de RT-2. Por ejemplo, si le pides a un robot RT-2 que arroje basura al contenedor, fácilmente podrá entender qué es la basura y cómo diferenciarla de otros objetos. presente en el medio ambiente, cómo moverlo y recogerlo mecánicamente, y cómo desecharlo en el contenedor, todo sin estar específicamente capacitado en ninguno de estos actividades.

Google también ha compartido algunos resultados bastante impresionantes de sus pruebas de RT-2. En más de 6.000 pruebas, el RT-2 demostró ser tan hábil como su predecesor en tareas "vistas". Más interesante aún, en escenarios invisibles, obtuvo una puntuación del 62% en comparación con el 32% del RT-1, un aumento de rendimiento de casi el doble. Si bien las aplicaciones de esta tecnología ya parecen muy tangibles, lleva mucho tiempo lograrlo. madurar como casos de uso del mundo real, comprensiblemente, requieren pruebas rigurosas e incluso aprobación regulatoria a nivel veces. Por ahora, puedes leer más sobre el mecanismo backend de RT-2 en Blog de Google DeepMind aquí.