A Google bemutatja az RT-2-t, a robotokkal való beszélgetéshez használható mesterséges intelligencia modellt

click fraud protection

A Google bemutatta az RT-2-t, egy újszerű mesterséges intelligencia-modellt, amely képes a parancsokat robotműveletekre fordítani anélkül, hogy kifejezett képzést igényelne.

Bár manapság a nagy nyelvi modelleken (LLM) működő mesterséges intelligencia-csevegőbotok dominálnak a címlapokon a népszerűség rohamos növekedése miatt. ChatGPT, Bing Chat, Meta láma, és Google Bard, ez csak egy kis része az AI-környezetnek. Egy másik, évek óta aktívan feltárt terület a robothardver, amely összetett technikákat alkalmaz az emberek helyettesítésére vagy segítésére. A Google most előrelépést jelentett be ezen a területen, egy új AI-modell formájában.

A Google-nek van leleplezett A Robotics Transformer 2 (RT-2), legújabb mesterséges intelligencia-modellje egy nagyon konkrét céllal: a kívánt művelet kommunikálása egy robottal. E cél elérése érdekében újszerű technikákat használ, amelyeket egy egyedi vizuális nyelvű művelet (VLA) hajt, amely a Google állítása szerint az első a maga nemében. Bár számos korábbi modell, például az RT-1 és a PaLM-E előrelépést tett a robotok érvelési képességének növelésében és a tanulásban. egymástól, a tudományos-fantasztikus filmek által bemutatott robotok uralta világ vitathatatlanul még mindig valami rendkívül távoli jövőnek tűnik.

Az RT-2 célja, hogy csökkentse ezt a szakadékot a fikció és a valóság között, biztosítva, hogy a robotok teljesen megértsék az őket körülvevő világot minimális támogatással vagy támogatás nélkül. Elvileg nagyon hasonlít az LLM-ekhez, ahol egy Transformer alapú modellt használ a világ megismerésére szöveges és vizuális az interneten elérhető információkat, majd lefordíthatja azokat robotos műveletekké, még olyan tesztesetekben is, ahol nem kifejezetten kiképzett.

A Google több használati esetet is elmagyarázott az RT-2 képességeinek magyarázatára. Például, ha megkér egy RT-2-vel működő robotot, hogy dobja a szemetet a kukába, könnyen megértheti, mi az a szemét, és hogyan lehet megkülönböztetni más tárgyaktól. jelen van a környezetben, hogyan kell mechanikusan mozgatni és felvenni, és hogyan kell kidobni a szemetesbe, mindezt anélkül, hogy bármelyikre külön oktatást kapnánk. tevékenységek.

A Google is megosztott néhány igen lenyűgöző eredményt az RT-2 teszteléséből. Több mint 6000 kísérlet során az RT-2 ugyanolyan ügyesnek bizonyult a "látott" feladatokban, mint elődje. Még érdekesebb, hogy nem látott forgatókönyvekben 62%-ot ért el, szemben az RT-1 32%-ával, ami közel kétszeres teljesítménynövekedést jelent. Noha egy ilyen technológia alkalmazásai már most is nagyon kézzelfoghatónak tűnnek, jelentős időbe telik hogy a valós felhasználási esetek érthető módon szigorú tesztelést, sőt hatósági jóváhagyást igényelnek alkalommal. Az RT-2 háttérmechanizmusáról egyelőre többet olvashat itt A Google DeepMind blogja itt.