Google oznamuje RT-2, model AI na rozhovory s robotmi

Google predstavil RT-2, nový model umelej inteligencie, ktorý dokáže previesť vaše príkazy na robotické akcie bez toho, aby bolo potrebné explicitné školenie.

Hoci AI chatboty poháňané veľkými jazykovými modelmi (LLM) dominujú v týchto dňoch titulkom kvôli raketovému nárastu popularity ChatGPT, Bing Chat, Metaova láma, a Google Bard, toto je len malá časť prostredia AI. Ďalšou oblasťou, ktorá sa už roky aktívne skúma, je robotický hardvér využívajúci zložité techniky na nahradenie alebo pomoc ľuďom. Google teraz oznámil pokrok v tejto doméne v podobe nového modelu AI.

Google má odhalený Robotics Transformer 2 (RT-2), jej najnovší model AI s veľmi špecifickým účelom: oznámiť robotovi požadovanú akciu. Na dosiahnutie tohto účelu využíva nové techniky, poháňané unikátnou vizuálno-jazykovou akciou (VLA), o ktorej Google tvrdí, že je prvou svojho druhu. Hoci niekoľko predchádzajúcich modelov ako RT-1 a PaLM-E urobilo pokrok v zvyšovaní rozumových schopností u robotov a zabezpečilo, že sa učia Svet ovládaný robotmi prezentovaný vedecko-fantastickými filmami sa pravdepodobne stále javí ako niečo z extrémne vzdialenej budúcnosti.

Cieľom RT-2 je znížiť túto priepasť medzi fikciou a realitou tým, že zabezpečí, aby roboty plne rozumeli svetu okolo seba s minimálnou alebo žiadnou podporou. V princípe je to veľmi podobné LLM, kde využíva model založený na Transformere na spoznávanie sveta z textových a vizuálnych informácie dostupné na webe a následne ich previesť do robotických akcií, a to aj v testovacích prípadoch, kde to výslovne nebolo vyškolený.

Google vysvetlil niekoľko prípadov použitia, aby vysvetlil možnosti RT-2. Napríklad, ak požiadate robota s pohonom RT-2, aby hodil odpadky do koša, ľahko by pochopil, čo je to odpad a ako ho odlíšiť od iných predmetov. prítomný v prostredí, ako ho mechanicky premiestniť a zdvihnúť a ako ho zlikvidovať v koši, a to všetko bez toho, aby ste boli špeciálne vyškolení v niektorom z týchto činnosti.

Google tiež zdieľal niektoré pomerne pôsobivé výsledky z testovania RT-2. Vo viac ako 6000 pokusoch sa RT-2 ukázal byť rovnako zdatný ako jeho predchodca v „videných“ úlohách. Zaujímavejšie je, že v neviditeľných scenároch dosiahol 62 % v porovnaní s 32 % RT-1, čo je takmer dvojnásobný nárast výkonu. Zatiaľ čo aplikácie takejto technológie sa už zdajú veľmi hmatateľné, zaberie to značný čas dospieť ako prípady použitia v reálnom svete si pochopiteľne vyžadujú prísne testovanie a dokonca schválenie regulačnými orgánmi krát. Zatiaľ si môžete prečítať viac o backendovom mechanizme RT-2 v Blog Google DeepMind tu.