Google은 명시적인 교육 없이도 명령을 로봇 동작으로 변환할 수 있는 새로운 AI 모델인 RT-2를 공개했습니다.
LLM(대형 언어 모델)을 기반으로 하는 AI 챗봇이 요즘 엄청난 인기를 끌면서 헤드라인을 장악하고 있지만 채팅GPT, 빙 채팅, 메타의 라마, 그리고 구글 바드, 이것은 AI 환경의 작은 부분일 뿐입니다. 수년 동안 활발하게 연구되어 온 또 다른 영역은 인간을 대체하거나 보조하기 위해 복잡한 기술을 활용하는 로봇 하드웨어입니다. Google은 이제 새로운 AI 모델의 형태로 이 영역의 발전을 발표했습니다.
구글은 공개됨 Robotics Transformer 2(RT-2)는 원하는 작업을 로봇에 전달하는 매우 구체적인 목적을 가진 최신 AI 모델입니다. 이 목적을 달성하기 위해 Google이 최초로 주장하는 고유한 시각적 언어 동작(VLA)을 기반으로 하는 새로운 기술을 활용합니다. RT-1 및 PaLM-E와 같은 여러 이전 모델은 로봇의 추론 능력을 높이고 학습을 보장하는 데 발전을 이루었지만 SF 영화에서 보여주는 로봇이 지배하는 세계는 아마도 여전히 매우 먼 미래의 세계처럼 보일 것입니다.
RT-2는 로봇이 최소한의 지원이나 지원 없이도 주변 세계를 완전히 이해할 수 있도록 하여 허구와 현실 사이의 격차를 줄이는 것을 목표로 합니다. 원칙적으로 이는 Transformer 기반 모델을 사용하여 텍스트와 시각적 정보를 통해 세상에 대해 배우는 LLM과 매우 유사합니다. 명시적으로 확인되지 않은 테스트 사례에서도 웹에서 사용 가능한 정보를 로봇 동작으로 변환합니다. 훈련을 받았습니다.
Google은 RT-2의 기능을 설명하기 위해 몇 가지 사용 사례를 설명했습니다. 예를 들어, RT-2 로봇에게 쓰레기통에 쓰레기를 버리라고 요청하면 쓰레기가 무엇인지, 다른 물체와 구별하는 방법을 쉽게 이해할 수 있습니다. 환경에 존재하는 물질을 기계적으로 옮기고 집어 드는 방법, 쓰레기통에 버리는 방법 등을 모두 특별히 교육받지 않은 상태에서 수행합니다. 활동.
Google은 또한 RT-2 테스트에서 다소 인상적인 결과를 공유했습니다. 6,000회 이상의 시험을 통해 RT-2는 "눈에 보이는" 작업에서 이전 제품만큼 능숙하다는 것이 입증되었습니다. 더 흥미롭게도, 보이지 않는 시나리오에서는 RT-1의 32%에 비해 62%를 기록하여 성능이 거의 두 배 증가했습니다. 이러한 기술의 적용은 이미 매우 현실적으로 보이지만 실제로는 상당한 시간이 걸립니다. 실제 사용 사례로 성숙하려면 당연히 엄격한 테스트와 규제 승인이 필요합니다. 타임스. 지금은 RT-2의 백엔드 메커니즘에 대한 자세한 내용을 읽을 수 있습니다.
Google DeepMind의 블로그는 여기에 있습니다..