Google tillkännager RT-2, en AI-modell för att prata med robotar

Google har avslöjat RT-2, en ny AI-modell som kan översätta dina kommandon till robotåtgärder utan att kräva explicit utbildning.

Även om AI-chatbotar som drivs av stora språkmodeller (LLM) dominerar rubrikerna i dessa dagar på grund av den snabba ökningen av populariteten för ChatGPT, Bing Chat, Metas lama, och Google Bard, detta är bara en liten del av AI-landskapet. Ett annat område som aktivt har utforskats i flera år är robothårdvara som utnyttjar komplexa tekniker för att antingen ersätta eller hjälpa människor. Google har nu annonserat ett framsteg inom denna domän, i form av en ny AI-modell.

Google har avtäckt Robotics Transformer 2 (RT-2), dess senaste AI-modell med ett mycket specifikt syfte: att kommunicera din önskade handling till en robot. Den använder nya tekniker för att uppnå detta syfte, driven av en unik visuell-språk-handling (VLA) som Google hävdar är den första i sitt slag. Även om flera tidigare modeller som RT-1 och PaLM-E har gjort framsteg när det gäller att öka resonemangsförmågan i robotar och se till att de lär sig från varandra, verkar den robotdominerade världen som visas upp av science-fiction-filmer fortfarande som något från en extremt avlägsen framtid.

RT-2 syftar till att minska denna klyfta mellan fiktion och verklighet genom att se till att robotar till fullo förstår världen omkring dem med minimalt eller inget stöd. I princip är det väldigt likt LLMs, där det använder en transformatorbaserad modell för att lära sig om världen från text och visuell information tillgänglig på webben och sedan översätta den till robotåtgärder, även i testfall där det inte uttryckligen tränad.

Google har förklarat flera användningsfall för att förklara funktionerna hos RT-2. Till exempel, om du ber en RT-2-driven robot att slänga skräp i soptunnan, skulle den lätt kunna förstå vad skräp är, hur man kan skilja det från andra objekt finns i miljön, hur man mekaniskt flyttar och plockar upp den och hur man slänger den i soptunnan, allt utan att vara särskilt utbildad i någon av dessa aktiviteter.

Google har också delat med sig av några ganska imponerande resultat från sin testning av RT-2. I mer än 6 000 försök visade sig RT-2 vara lika skicklig som sin föregångare i "sedda" uppgifter. Mer intressant är att i osynliga scenarier fick den 62 % jämfört med RT-1:s 32 %, en nästan fördubblad prestandaökning. Även om tillämpningarna av en sådan teknik redan verkar mycket påtagliga, tar det en betydande tid för det för att mogna som verkliga användningsfall kräver förståeligt nog rigorösa tester och till och med myndighetsgodkännande på gånger. Tills vidare kan du läsa mer om RT-2:s backend-mekanism i Google DeepMinds blogg här.