Google kunngjør RT-2, en AI-modell for å snakke med roboter

Google har avduket RT-2, en ny AI-modell som kan oversette kommandoene dine til robothandlinger uten å kreve eksplisitt opplæring.

Selv om AI chatbots drevet av store språkmodeller (LLM) dominerer overskriftene i disse dager på grunn av den voldsomme økningen i populariteten til ChatGPT, Bing Chat, Metas lama, og Google Bard, dette er bare en liten del av AI-landskapet. Et annet område som har blitt aktivt utforsket i årevis er robotmaskinvare som utnytter komplekse teknikker for å enten erstatte eller hjelpe mennesker. Google har nå annonsert et fremskritt på dette domenet, i form av en ny AI-modell.

Google har avduket Robotics Transformer 2 (RT-2), den nyeste AI-modellen med et veldig spesifikt formål: å kommunisere ønsket handling til en robot. Den bruker nye teknikker for å oppnå dette formålet, drevet av en unik visual-language-action (VLA) som Google hevder er den første i sitt slag. Selv om flere tidligere modeller som RT-1 og PaLM-E har gjort fremskritt i å øke resonneringsevner i roboter og sørge for at de lærer fra hverandre, virker den robotdominerte verden som vises frem av science-fiction-filmer fortsatt som noe fra en ekstremt fjern fremtid.

RT-2 har som mål å redusere dette gapet mellom fiksjon og virkelighet ved å sørge for at roboter fullt ut forstår verden rundt seg med minimal eller ingen støtte. I prinsippet er det veldig likt LLM-er, der det bruker en transformatorbasert modell for å lære om verden fra tekstlig og visuell informasjon tilgjengelig på nettet og deretter oversette den til robothandlinger, selv i testtilfeller der det ikke eksplisitt er blitt trent.

Google har forklart flere bruksområder for å forklare egenskapene til RT-2. Hvis du for eksempel ber en RT-2-drevet robot om å kaste søppel i søppelbøtta, vil den lett kunne forstå hva søppel er, hvordan man skiller det fra andre objekter tilstede i miljøet, hvordan du mekanisk flytter og plukker det opp, og hvordan du kaster det av det i søppelbøtta, alt uten å være spesielt opplært i noen av disse aktiviteter.

Google har også delt noen ganske imponerende resultater fra testingen av RT-2. I mer enn 6000 forsøk viste RT-2 seg å være like dyktig som forgjengeren i "sett" oppgaver. Mer interessant, i usynlige scenarier, scoret den 62 % sammenlignet med RT-1s 32 %, en nesten fordobling av ytelsen. Selv om anvendelsene av en slik teknologi allerede virker veldig håndgripelige, tar det betydelig tid før det å modnes ettersom brukssaker i den virkelige verden, forståelig nok, krever streng testing og til og med regulatorisk godkjenning hos ganger. Foreløpig kan du lese mer om RT-2s backend-mekanisme i Google DeepMind sin blogg her.