Google обявява RT-2, AI модел за разговори с роботи

Google представи RT-2, нов AI модел, който може да преведе вашите команди в роботизирани действия, без да изисква изрично обучение.

Въпреки че чатботовете с изкуствен интелект, задвижвани от големи езикови модели (LLM), доминират в заглавията тези дни поради стремителното нарастване на популярността на ChatGPT, Чат в Bing, Ламата на Мета, и Google Bard, това е само малка част от AI пейзажа. Друга област, която е активно изследвана от години, е роботизираният хардуер, използващ сложни техники за заместване или подпомагане на хората. Сега Google обяви напредък в тази област под формата на нов AI модел.

Google има разкрит Robotics Transformer 2 (RT-2), най-новият му AI модел с много специфична цел: съобщаване на желаното от вас действие на робот. Той използва нови техники за постигане на тази цел, задвижвани от уникално визуално-езично действие (VLA), което Google твърди, че е първото по рода си. Въпреки че няколко предишни модела като RT-1 и PaLM-E постигнаха напредък в увеличаването на способностите за разсъждение на роботите и гарантирането, че те учат един от друг, доминираният от роботи свят, демонстриран от научно-фантастичните филми, вероятно все още изглежда като нещо от изключително далечно бъдеще.

RT-2 има за цел да намали тази разлика между измислицата и реалността, като гарантира, че роботите напълно разбират света около тях с минимална или никаква подкрепа. По принцип той е много подобен на LLMs, където използва модел, базиран на Transformer, за да научи за света от текст и визуално информация, налична в мрежата, и след това да я преведе в роботизирани действия, дори при тестови случаи, където не е изрично обучени.

Google обясни няколко случая на употреба, за да обясни възможностите на RT-2. Например, ако помолите робот, задвижван от RT-2, да хвърли боклук в кофата, той лесно ще може да разбере какво е боклук, как да го разграничи от другите предмети присъства в околната среда, как механично да го преместите и вземете и как да го изхвърлите в кошчето, всичко това без да сте специално обучени за нито едно от тези дейности.

Google също така сподели някои доста впечатляващи резултати от тестването на RT-2. В повече от 6000 изпитания RT-2 доказа, че е също толкова умел, колкото и своя предшественик в „вижданите“ задачи. По-интересното е, че в невиждани сценарии той отбеляза 62% в сравнение с 32% на RT-1, което е почти двойно увеличение на производителността. Въпреки че приложенията на такава технология вече изглеждат много осезаеми, отнема значително време за това да узреят, тъй като случаите на употреба в реалния свят разбираемо изискват строго тестване и дори регулаторно одобрение на пъти. Засега можете да прочетете повече за задния механизъм на RT-2 в Блогът на Google DeepMind тук.