Google napoveduje RT-2, model AI za pogovor z roboti

Google je predstavil RT-2, nov model AI, ki lahko vaše ukaze pretvori v robotska dejanja, ne da bi zahteval izrecno usposabljanje.

Čeprav klepetalni roboti z umetno inteligenco, ki jih poganjajo veliki jezikovni modeli (LLM), te dni prevladujejo na naslovnicah zaradi meteorskega porasta priljubljenosti ChatGPT, Klepet Bing, Metina lama, in Google Bard, je to le majhen del pokrajine AI. Drugo področje, ki se že leta aktivno raziskuje, je robotska strojna oprema, ki uporablja zapletene tehnike za nadomestitev ali pomoč ljudem. Google je zdaj napovedal napredek na tem področju v obliki novega modela AI.

Google ima razkrito Robotics Transformer 2 (RT-2), njegov najnovejši model AI z zelo specifičnim namenom: sporočanje želenega dejanja robotu. Za doseganje tega namena uporablja nove tehnike, ki jih poganja edinstvena vizualno-jezikovna akcija (VLA), za katero Google trdi, da je prva te vrste. Čeprav je več prejšnjih modelov, kot sta RT-1 in PaLM-E, doseglo napredek pri povečevanju sposobnosti sklepanja pri robotih in zagotavljanju, da se učijo Drug od drugega se svet, v katerem prevladujejo roboti, ki ga prikazujejo znanstvenofantastični filmi, verjetno še vedno zdi kot nekaj iz zelo oddaljene prihodnosti.

Cilj RT-2 je zmanjšati to vrzel med fikcijo in resničnostjo tako, da zagotovi, da roboti v celoti razumejo svet okoli sebe z minimalno podporo ali brez nje. Načeloma je zelo podoben študiju LLM, kjer uporablja model, ki temelji na transformatorju, za spoznavanje sveta iz besedila in slike. informacije, ki so na voljo v spletu, in jih nato prevedejo v robotska dejanja, tudi na testnih primerih, kjer to ni bilo izrecno usposobljeni.

Google je pojasnil več primerov uporabe, da bi razložil zmogljivosti RT-2. Na primer, če prosite robota, ki ga poganja RT-2, da vrže smeti v koš, bi zlahka razumel, kaj so smeti, in kako jih ločiti od drugih predmetov. prisoten v okolju, kako ga mehansko premakniti in pobrati ter kako ga odvreči v smetnjak, ne da bi bili posebej usposobljeni za katero koli od teh aktivnosti.

Google je delil tudi nekaj precej impresivnih rezultatov svojega testiranja RT-2. V več kot 6000 poskusih se je RT-2 izkazal kot spreten kot njegov predhodnik pri "videnih" nalogah. Še bolj zanimivo je, da je v nevidenih scenarijih dosegel 62 % v primerjavi z 32 % RT-1, kar je skoraj dvakratno povečanje zmogljivosti. Čeprav se zdi, da je uporaba takšne tehnologije že zelo oprijemljiva, je za to potrebno precej časa dozoreti, saj primeri uporabe v resničnem svetu razumljivo zahtevajo strogo testiranje in celo regulativno odobritev pri krat. Za zdaj lahko preberete več o zalednem mehanizmu RT-2 v Spletni dnevnik Google DeepMind tukaj.