Google anuncia RT-2, um modelo de IA para conversar com robôs

O Google revelou o RT-2, um novo modelo de IA que pode traduzir seus comandos em ações robóticas sem exigir treinamento explícito.

Embora os chatbots de IA alimentados por grandes modelos de linguagem (LLMs) estejam dominando as manchetes atualmente devido ao aumento meteórico na popularidade de Bate-papoGPT, Bate-papo do Bing, Lhama de Meta, e Google Bardo, esta é apenas uma pequena parte do cenário da IA. Outra área que tem sido ativamente explorada há anos é o hardware robótico que utiliza técnicas complexas para substituir ou ajudar humanos. O Google anunciou agora um avanço neste domínio, na forma de um novo modelo de IA.

O Google tem revelado Robotics Transformer 2 (RT-2), seu mais recente modelo de IA com um propósito muito específico: comunicar a ação desejada a um robô. Ele utiliza novas técnicas para atingir esse objetivo, alimentadas por uma ação de linguagem visual (VLA) exclusiva que o Google afirma ser a primeira desse tipo. Embora vários modelos anteriores, como RT-1 e PaLM-E, tenham feito avanços no aumento das habilidades de raciocínio em robôs e na garantia de que eles aprendam uns dos outros, o mundo dominado pelos robôs apresentado pelos filmes de ficção científica ainda parece algo de um futuro extremamente distante.

O RT-2 visa reduzir esta lacuna entre a ficção e a realidade, garantindo que os robôs compreendam totalmente o mundo ao seu redor com mínimo ou nenhum suporte. Em princípio, é muito semelhante aos LLMs, onde utiliza um modelo baseado em Transformer para aprender sobre o mundo a partir de textos e imagens. informações disponíveis na web e depois traduzi-las em ações robóticas, mesmo em casos de teste onde não foram explicitamente treinado.

O Google explicou vários casos de uso para explicar os recursos do RT-2. Por exemplo, se você pedir a um robô movido a RT-2 para jogar lixo na lixeira, ele seria facilmente capaz de entender o que é lixo, como diferenciá-lo de outros objetos presente no ambiente, como movê-lo e recolhê-lo mecanicamente e como descartá-lo no lixo, tudo sem ser treinado especificamente em nenhum desses Atividades.

O Google também compartilhou alguns resultados bastante impressionantes dos testes do RT-2. Em mais de 6.000 testes, o RT-2 provou ser tão hábil quanto seu antecessor em tarefas “visíveis”. O mais interessante é que em cenários inéditos, obteve 62% em comparação com 32% do RT-1, um aumento de quase o dobro no desempenho. Embora as aplicações de tal tecnologia já pareçam muito tangíveis, leva um tempo significativo para que seja para amadurecer, já que os casos de uso do mundo real exigem, compreensivelmente, testes rigorosos e até mesmo aprovação regulatória em vezes. Por enquanto, você pode ler mais sobre o mecanismo de back-end do RT-2 em Blog do Google DeepMind aqui.