Google ha presentato RT-2, un nuovo modello di intelligenza artificiale in grado di tradurre i tuoi comandi in azioni robotiche senza richiedere una formazione esplicita.
Sebbene i chatbot IA basati su modelli linguistici di grandi dimensioni (LLM) stiano dominando i titoli dei giornali in questi giorni a causa dell'aumento vertiginoso della popolarità di ChatGPT, BingChat, Il lama di Meta, E Google Bardo, questa è solo una piccola parte del panorama dell'intelligenza artificiale. Un’altra area esplorata attivamente da anni è quella dell’hardware robotico che sfrutta tecniche complesse per sostituire o assistere gli esseri umani. Google ha ora annunciato un progresso in questo ambito, sotto forma di un nuovo modello di intelligenza artificiale.
Google ha svelato Robotics Transformer 2 (RT-2), il suo ultimo modello di intelligenza artificiale con uno scopo molto specifico: comunicare l'azione desiderata a un robot. Utilizza nuove tecniche per raggiungere questo scopo, alimentate da un'azione di linguaggio visivo (VLA) unica che secondo Google è la prima nel suo genere. Sebbene diversi modelli precedenti come RT-1 e PaLM-E abbiano fatto progressi nell’aumentare le capacità di ragionamento dei robot e nell’assicurarsi che imparino l’uno dall’altro, il mondo dominato dai robot mostrato dai film di fantascienza sembra ancora probabilmente qualcosa proveniente da un futuro estremamente lontano.
RT-2 mira a ridurre questo divario tra finzione e realtà assicurandosi che i robot comprendano appieno il mondo che li circonda con un supporto minimo o nullo. In linea di principio, è molto simile ai LLM, in cui utilizza un modello basato su Transformer per conoscere il mondo da testi e immagini. informazioni disponibili sul web per poi tradurle in azioni robotiche, anche su casi di test in cui non è stato esplicitamente effettuato allenato.
Google ha spiegato diversi casi d'uso per spiegare le capacità di RT-2. Ad esempio, se chiedessi a un robot motorizzato RT-2 di gettare la spazzatura nel cestino, sarebbe facilmente in grado di capire cos'è la spazzatura e come differenziarla dagli altri oggetti. presente nell'ambiente, come spostarlo e raccoglierlo meccanicamente e come smaltirlo nel contenitore, il tutto senza essere specificatamente addestrato su nessuno dei due attività.
Google ha anche condiviso alcuni risultati piuttosto impressionanti dei suoi test su RT-2. In più di 6.000 prove, RT-2 si è dimostrato altrettanto abile del suo predecessore nei compiti "visti". Ancora più interessante, in scenari mai visti, ha ottenuto un punteggio del 62% rispetto al 32% di RT-1, un aumento quasi doppio delle prestazioni. Anche se le applicazioni di tale tecnologia sembrano già molto tangibili, ci vuole molto tempo per realizzarle per maturare poiché i casi d'uso del mondo reale richiedono comprensibilmente test rigorosi e persino l'approvazione normativa volte. Per ora, puoi leggere di più sul meccanismo backend di RT-2 in Il blog di Google DeepMind qui.