Google kondigt RT-2 aan, een AI-model om met robots te praten

Google heeft RT-2 onthuld, een nieuw AI-model dat uw opdrachten kan vertalen in robotacties zonder dat daarvoor expliciete training nodig is.

Hoewel AI-chatbots, aangedreven door grote taalmodellen (LLM’s), tegenwoordig de krantenkoppen domineren vanwege de snelle stijging van de populariteit van ChatGPT, Bing-chat, Meta's lama, En Google Bardis dit slechts een klein deel van het AI-landschap. Een ander gebied dat al jaren actief wordt onderzocht, is robothardware die gebruik maakt van complexe technieken om mensen te vervangen of te helpen. Google heeft nu een vooruitgang op dit domein aangekondigd, in de vorm van een nieuw AI-model.

Google heeft onthuld Robotics Transformer 2 (RT-2), het nieuwste AI-model met een heel specifiek doel: het communiceren van uw gewenste actie aan een robot. Het maakt gebruik van nieuwe technieken om dit doel te bereiken, mogelijk gemaakt door een unieke visuele taalactie (VLA) waarvan Google beweert dat deze de eerste in zijn soort is. Hoewel verschillende eerdere modellen, zoals RT-1 en PaLM-E, vooruitgang hebben geboekt bij het vergroten van het redeneervermogen van robots en ervoor zorgen dat ze leren van elkaar lijkt de door robots gedomineerde wereld die wordt getoond in sciencefictionfilms nog steeds iets uit een extreem verre toekomst.

RT-2 heeft tot doel deze kloof tussen fictie en realiteit te verkleinen door ervoor te zorgen dat robots de wereld om hen heen volledig begrijpen, met minimale of geen ondersteuning. In principe lijkt het erg op LLM's, waarbij het een Transformer-gebaseerd model gebruikt om de wereld te leren kennen vanuit tekstueel en visueel opzicht. informatie beschikbaar op internet en deze vervolgens vertalen in robotacties, zelfs in testgevallen waar dit niet expliciet is gebeurd opgeleid.

Google heeft verschillende gebruiksscenario's uitgelegd om de mogelijkheden van RT-2 uit te leggen. Als je bijvoorbeeld een door RT-2 aangedreven robot vraagt om afval in de vuilnisbak te gooien, zal hij gemakkelijk kunnen begrijpen wat afval is en hoe hij het kan onderscheiden van andere objecten. aanwezig zijn in het milieu, hoe u het mechanisch verplaatst en oppakt, en hoe u het in de prullenbak gooit, allemaal zonder specifiek getraind te zijn in een van deze zaken activiteiten.

Google heeft ook een aantal behoorlijk indrukwekkende resultaten gedeeld van het testen van RT-2. In meer dan 6.000 tests bleek RT-2 net zo bedreven te zijn als zijn voorganger in ‘geziene’ taken. Interessanter is dat het in ongeziene scenario's 62% scoorde in vergelijking met de 32% van RT-1, een bijna tweevoudige prestatieverbetering. Hoewel de toepassingen van een dergelijke technologie al heel tastbaar lijken, kost het wel veel tijd om volwassen te worden, aangezien gebruiksscenario's in de echte wereld begrijpelijkerwijs rigoureuze tests en zelfs goedkeuring door de regelgevende instanties vereisen keer. Voor nu kun je meer lezen over het backend-mechanisme van RT-2 in Google DeepMind's blog hier.