Google ogłasza RT-2, model sztucznej inteligencji umożliwiający komunikację z robotami

Google zaprezentowało RT-2, nowatorski model sztucznej inteligencji, który może przełożyć Twoje polecenia na działania robotów bez konieczności specjalnego szkolenia.

Chociaż chatboty AI oparte na dużych modelach językowych (LLM) dominują obecnie na pierwszych stronach gazet ze względu na błyskawiczny wzrost popularności CzatGPT, Czat Binga, Lama Meta, I Google Bard, to tylko niewielka część krajobrazu AI. Innym obszarem aktywnie badanym od lat jest sprzęt robotyczny wykorzystujący złożone techniki w celu zastąpienia człowieka lub wspomagania go. Google ogłosił teraz postęp w tej dziedzinie w postaci nowego modelu sztucznej inteligencji.

Google ma odsłonięty Robotics Transformer 2 (RT-2), najnowszy model sztucznej inteligencji o bardzo konkretnym celu: komunikowaniu robotowi pożądanej akcji. Aby osiągnąć ten cel, wykorzystuje nowatorskie techniki, oparte na unikalnej akcji wizualnej i językowej (VLA), która według Google jest pierwszą tego typu. Chociaż kilka poprzednich modeli, takich jak RT-1 i PaLM-E, poczyniło postępy w zwiększaniu zdolności rozumowania robotów i zapewnianiu im uczenia się od siebie nawzajem, świat zdominowany przez roboty, pokazany w filmach science-fiction, prawdopodobnie nadal wydaje się czymś z niezwykle odległej przyszłości.

RT-2 ma na celu zmniejszenie tej luki między fikcją a rzeczywistością, upewniając się, że roboty w pełni rozumieją otaczający je świat przy minimalnym wsparciu lub bez niego. W zasadzie jest bardzo podobny do LLM, gdzie wykorzystuje model oparty na Transformatorze do poznawania świata na podstawie tekstu i obrazu informacji dostępnych w Internecie, a następnie przełożyć je na działania robotyczne, nawet w przypadkach testowych, w których nie zostało to wyraźnie stwierdzone przeszkolony.

Google wyjaśnił kilka przypadków użycia, aby wyjaśnić możliwości RT-2. Na przykład, jeśli poprosisz robota zasilanego RT-2 o wyrzucenie śmieci do kosza, z łatwością będzie on w stanie zrozumieć, czym są śmieci i jak odróżnić je od innych obiektów obecnych w środowisku, jak je mechanicznie przenosić i zbierać oraz jak wyrzucać do kosza, a wszystko to bez specjalnego przeszkolenia w zakresie któregokolwiek z tych zajęcia.

Google podzielił się także imponującymi wynikami testów RT-2. W ponad 6000 próbach RT-2 okazał się równie skuteczny w „widzianych” zadaniach, jak jego poprzednik. Co ciekawsze, w niewidzianych scenariuszach uzyskał 62% w porównaniu do 32% RT-1, co oznacza prawie dwukrotny wzrost wydajności. Chociaż zastosowania takiej technologii wydają się już bardzo namacalne, zajmuje to dużo czasu dojrzewać, ponieważ przypadki użycia w świecie rzeczywistym, co zrozumiałe, wymagają rygorystycznych testów, a nawet zatwierdzenia przez organy regulacyjne czasy. Na razie możesz przeczytać więcej o mechanizmie backendu RT-2 w Blog Google DeepMind tutaj.