Google har afsløret RT-2, en ny AI-model, der kan omsætte dine kommandoer til robothandlinger uden at kræve eksplicit træning.
Selvom AI-chatbots drevet af store sprogmodeller (LLM'er) dominerer overskrifterne i disse dage på grund af den voldsomme stigning i populariteten af ChatGPT, Bing Chat, Metas lama, og Google Bard, dette er kun en lille del af AI-landskabet. Et andet område, der er blevet aktivt udforsket i årevis, er robothardware, der udnytter komplekse teknikker til enten at erstatte eller hjælpe mennesker. Google har nu annonceret et fremskridt på dette domæne, i form af en ny AI-model.
Google har afsløret Robotics Transformer 2 (RT-2), dens seneste AI-model med et meget specifikt formål: at kommunikere din ønskede handling til en robot. Den bruger nye teknikker til at opnå dette formål, drevet af en unik visuel-sprog-handling (VLA), som Google hævder er den første af sin slags. Selvom flere tidligere modeller som RT-1 og PaLM-E har gjort fremskridt med at øge ræsonnementet i robotter og sikre, at de lærer fra hinanden, virker den robotdominerede verden, der fremvises af science-fiction-film, stadig som noget fra en ekstremt fjern fremtid.
RT-2 sigter mod at reducere denne kløft mellem fiktion og virkelighed ved at sikre, at robotter fuldt ud forstår verden omkring dem med minimal eller ingen støtte. I princippet ligner den meget LLM'er, hvor den bruger en transformer-baseret model til at lære om verden fra tekst og visuel information tilgængelig på nettet og derefter omsætte den til robothandlinger, selv i testsager, hvor det ikke eksplicit er blevet trænet.
Google har forklaret flere use-cases for at forklare RT-2's muligheder. For eksempel, hvis du beder en RT-2-drevet robot om at smide affald i skraldespanden, ville den nemt kunne forstå, hvad affald er, hvordan man adskiller det fra andre objekter til stede i miljøet, hvordan man mekanisk flytter og samler det op, og hvordan man smider det væk fra det i skraldespanden, alt sammen uden at være specifikt trænet i nogen af disse aktiviteter.
Google har også delt nogle ret imponerende resultater fra sin test af RT-2. I mere end 6.000 forsøg viste RT-2 sig at være lige så dygtig som sin forgænger i "sete" opgaver. Mere interessant, i usete scenarier, scorede den 62% sammenlignet med RT-1's 32%, en næsten fordobling af ydeevnen. Selvom anvendelserne af en sådan teknologi allerede virker meget håndgribelige, tager det en betydelig tid for det at modnes, da brugssager i den virkelige verden, forståeligt nok kræver strenge tests og endda regulatorisk godkendelse hos gange. Indtil videre kan du læse mere om RT-2's backend-mekanisme i Google DeepMinds blog her.