Google je predstavio RT-2, novi model umjetne inteligencije koji može prevesti vaše naredbe u robotske radnje bez potrebe za eksplicitnom obukom.
Iako AI chatbotovi koje pokreću veliki jezični modeli (LLM) ovih dana dominiraju naslovnicama zbog meteorskog porasta popularnosti ChatGPT, Bing Chat, Meta's Llama, i Google Bard, ovo je samo mali dio AI pejzaža. Drugo područje koje se godinama aktivno istražuje je robotski hardver koji koristi složene tehnike za zamjenu ili pomoć ljudima. Google je sada najavio napredak u ovoj domeni, u obliku novog AI modela.
Google ima razotkrivena Robotics Transformer 2 (RT-2), njegov najnoviji AI model s vrlo specifičnom svrhom: komuniciranje vaše željene akcije robotu. Koristi nove tehnike za postizanje ove svrhe, pokretane jedinstvenom vizualno-jezičnom akcijom (VLA) za koju Google tvrdi da je prva te vrste. Iako je nekoliko prethodnih modela poput RT-1 i PaLM-E napredovalo u povećanju sposobnosti razmišljanja kod robota i osiguralo da uče jedni od drugih, svijet kojim dominiraju roboti prikazan u filmovima znanstvene fantastike vjerojatno se još uvijek doima kao nešto iz iznimno daleke budućnosti.
RT-2 ima za cilj smanjiti jaz između fikcije i stvarnosti osiguravajući da roboti u potpunosti razumiju svijet oko sebe uz minimalnu ili nikakvu podršku. U načelu je vrlo sličan LLM-u, gdje koristi model temeljen na Transformeru za učenje o svijetu iz teksta i slike informacije dostupne na webu i zatim ih prevesti u robotske radnje, čak i na testnim slučajevima gdje to nije bilo izričito uvježban.
Google je objasnio nekoliko slučajeva uporabe kako bi objasnio mogućnosti RT-2. Na primjer, ako zamolite robota na RT-2 da baci smeće u kantu, on će lako razumjeti što je smeće, kako ga razlikovati od drugih predmeta prisutan u okolišu, kako ga mehanički premjestiti i pokupiti te kako ga odložiti u kantu za smeće, a sve to bez posebne obuke za bilo što od ovoga aktivnosti.
Google je također podijelio neke prilično impresivne rezultate testiranja RT-2. U više od 6000 ispitivanja, RT-2 se pokazao jednako vještim kao i njegov prethodnik u "viđenim" zadacima. Što je još zanimljivije, u neviđenim scenarijima postigao je 62% u usporedbi s 32% RT-1, što je gotovo dvostruko povećanje performansi. Iako se primjena takve tehnologije već čini vrlo opipljivom, za to je potrebno dosta vremena sazrijeti jer slučajevi korištenja u stvarnom svijetu razumljivo zahtijevaju rigorozno testiranje, pa čak i regulatorno odobrenje puta. Za sada možete pročitati više o pozadinskom mehanizmu RT-2 u Blog Google DeepMinda ovdje.