Google anunță RT-2, un model AI pentru a vorbi cu roboții

Google a dezvăluit RT-2, un model nou de inteligență artificială care vă poate transpune comenzile în acțiuni robotizate fără a necesita instruire explicită.

Deși chatboții AI alimentați de modele de limbă mari (LLM) domină titlurile în aceste zile din cauza creșterii fulminante a popularității ChatGPT, Bing Chat, Lama lui Meta, și Google Bard, aceasta este doar o mică parte din peisajul AI. Un alt domeniu care a fost explorat activ de ani de zile este hardware-ul robotic care folosește tehnici complexe pentru a înlocui sau a ajuta oamenii. Google a anunțat acum un progres în acest domeniu, sub forma unui nou model AI.

Google are dezvăluit Robotics Transformer 2 (RT-2), cel mai recent model AI cu un scop foarte specific: comunicarea acțiunii dorite unui robot. Utilizează tehnici noi pentru a atinge acest scop, alimentat de o acțiune unică în limbaj vizual (VLA) despre care Google susține că este primul de acest gen. Deși mai multe modele anterioare, cum ar fi RT-1 și PaLM-E, au făcut progrese în creșterea abilităților de raționament la roboți și asigurându-se că aceștia învață unul față de celălalt, lumea dominată de roboți prezentată de filmele științifico-fantastice pare, probabil, încă ceva dintr-un viitor extrem de îndepărtat.

RT-2 își propune să reducă acest decalaj dintre ficțiune și realitate, asigurându-se că roboții înțeleg pe deplin lumea din jurul lor cu un sprijin minim sau deloc. În principiu, este foarte asemănător cu LLM-urile, unde folosește un model bazat pe Transformer pentru a învăța despre lume din text și vizual. informațiile disponibile pe web și apoi le traduc în acțiuni robotizate, chiar și în cazuri de testare în care nu a fost în mod explicit antrenat.

Google a explicat mai multe cazuri de utilizare pentru a explica capabilitățile RT-2. De exemplu, dacă cereți unui robot alimentat RT-2 să arunce gunoiul în coș, ar putea înțelege cu ușurință ce este gunoiul, cum să îl diferențieze de alte obiecte. prezent în mediul înconjurător, cum să-l miști și să-l ridici mecanic și cum să-l arunci în coșul de gunoi, totul fără a fi instruit în mod specific cu privire la oricare dintre acestea Activități.

De asemenea, Google a împărtășit câteva rezultate destul de impresionante de la testarea RT-2. În peste 6.000 de încercări, RT-2 s-a dovedit a fi la fel de abil ca și predecesorul său în sarcini „văzute”. Mai interesant, în scenarii nevăzute, a obținut un scor de 62% în comparație cu 32% a lui RT-1, o creștere de aproape două ori a performanței. În timp ce aplicațiile unei astfel de tehnologii par deja foarte tangibile, este nevoie de un timp semnificativ pentru aceasta pentru a se maturiza pe măsură ce cazurile de utilizare din lumea reală necesită, în mod înțeles, teste riguroase și chiar aprobare de reglementare la ori. Pentru moment, puteți citi mai multe despre mecanismul de backend al RT-2 în Blogul Google DeepMind aici.