Google представила RT-2, новую модель искусственного интеллекта, которая может переводить ваши команды в действия робота, не требуя специального обучения.
Хотя чат-боты с искусственным интеллектом, основанные на больших языковых моделях (LLM), в наши дни доминируют в заголовках из-за стремительного роста популярности ЧатGPT, Чат Bing, Лама Меты, и Гугл Бард, это лишь малая часть ландшафта ИИ. Другая область, которая активно исследуется в течение многих лет, — это роботизированное оборудование, использующее сложные методы для замены людей или помощи им. Google объявил о продвижении в этой области в виде новой модели искусственного интеллекта.
У Google есть обнародован Robotics Transformer 2 (RT-2), новейшая модель искусственного интеллекта с очень конкретной целью: сообщить роботу желаемое действие. Для достижения этой цели он использует новые методы, основанные на уникальном визуально-языковом действии (VLA), которое, по утверждению Google, является первым в своем роде. Хотя несколько предыдущих моделей, таких как RT-1 и PaLM-E, добились успехов в повышении способности роботов к рассуждению и обеспечении их обучения друг от друга, мир, где доминируют роботы, показанный в научно-фантастических фильмах, возможно, все еще кажется чем-то из чрезвычайно далекого будущего.
RT-2 стремится сократить этот разрыв между вымыслом и реальностью, гарантируя, что роботы полностью понимают мир вокруг них с минимальной поддержкой или без нее. В принципе, это очень похоже на LLM, где используется модель на основе Трансформера для изучения мира с помощью текстовых и визуальных изображений. информацию, доступную в Интернете, а затем преобразовать ее в роботизированные действия, даже в тестовых случаях, где это явно не было обучен.
Google объяснил несколько вариантов использования возможностей RT-2. Например, если вы попросите робота РТ-2 выбросить мусор в мусорное ведро, он легко сможет понять, что такое мусор и как отличить его от других предметов. присутствует в окружающей среде, как механически перемещать и поднимать его, а также как выбрасывать его в мусорное ведро, и все это без специального обучения ни одному из этих деятельность.
Google также поделился довольно впечатляющими результатами тестирования RT-2. В более чем 6000 испытаниях РТ-2 оказался столь же сведущ в «видимых» задачах, как и его предшественник. Что еще более интересно, в невидимых сценариях он набрал 62% по сравнению с 32% у RT-1, что почти двукратное увеличение производительности. Хотя применение такой технологии уже кажется весьма ощутимым, на это уходит значительное время. для того, чтобы стать зрелым, поскольку реальные сценарии использования, по понятным причинам, требуют тщательного тестирования и даже одобрения регулирующих органов на раз. На данный момент вы можете прочитать больше о внутреннем механизме RT-2 в Блог Google DeepMind здесь.