Η Google ανακοινώνει το RT-2, ένα μοντέλο τεχνητής νοημοσύνης για συνομιλία με ρομπότ

Η Google αποκάλυψε το RT-2, ένα νέο μοντέλο τεχνητής νοημοσύνης που μπορεί να μεταφράσει τις εντολές σας σε ρομποτικές ενέργειες χωρίς να απαιτείται ρητή εκπαίδευση.

Παρόλο που τα chatbots AI που τροφοδοτούνται από μεγάλα γλωσσικά μοντέλα (LLM) κυριαρχούν στα πρωτοσέλιδα αυτές τις μέρες λόγω της μετεωρικής αύξησης της δημοτικότητας του ChatGPT, Bing Chat, Ο Λάμα του Μέτα, και Google Bard, αυτό είναι μόνο ένα μικρό μέρος του τοπίου της τεχνητής νοημοσύνης. Ένας άλλος τομέας που έχει διερευνηθεί ενεργά εδώ και χρόνια είναι το ρομποτικό υλικό που αξιοποιεί πολύπλοκες τεχνικές είτε για να αντικαταστήσει είτε να βοηθήσει τους ανθρώπους. Η Google ανακοίνωσε τώρα μια πρόοδο σε αυτόν τον τομέα, με τη μορφή ενός νέου μοντέλου AI.

Η Google έχει αποκαλύφθηκε Robotics Transformer 2 (RT-2), το πιο πρόσφατο μοντέλο τεχνητής νοημοσύνης του με έναν πολύ συγκεκριμένο σκοπό: να επικοινωνήσει την επιθυμητή ενέργεια σε ένα ρομπότ. Χρησιμοποιεί νέες τεχνικές για την επίτευξη αυτού του σκοπού, που υποστηρίζεται από μια μοναδική δράση οπτικής γλώσσας (VLA) που η Google ισχυρίζεται ότι είναι η πρώτη του είδους της. Παρόλο που πολλά προηγούμενα μοντέλα όπως το RT-1 και το PaLM-E έχουν σημειώσει πρόοδο στην αύξηση των συλλογιστικών ικανοτήτων στα ρομπότ και στη διασφάλιση ότι μαθαίνουν ο ένας από τον άλλον, ο κόσμος που κυριαρχείται από ρομπότ που παρουσιάζεται από ταινίες επιστημονικής φαντασίας αναμφισβήτητα εξακολουθεί να φαίνεται σαν κάτι από ένα εξαιρετικά μακρινό μέλλον.

Το RT-2 στοχεύει να μειώσει αυτό το χάσμα μεταξύ της φαντασίας και της πραγματικότητας διασφαλίζοντας ότι τα ρομπότ κατανοούν πλήρως τον κόσμο γύρω τους με ελάχιστη ή καθόλου υποστήριξη. Κατ 'αρχήν, είναι πολύ παρόμοιο με τα LLM, όπου χρησιμοποιεί ένα μοντέλο που βασίζεται σε Transformer για να μάθει για τον κόσμο μέσω κειμένου και οπτικής πληροφορίες που είναι διαθέσιμες στον Ιστό και στη συνέχεια μεταφράζονται σε ρομποτικές ενέργειες, ακόμη και σε περιπτώσεις δοκιμών όπου δεν είναι ρητά εκπαιδευμένο.

Η Google έχει εξηγήσει αρκετές περιπτώσεις χρήσης για να εξηγήσει τις δυνατότητες του RT-2. Για παράδειγμα, αν ζητήσετε από ένα ρομπότ RT-2 να πετάξει σκουπίδια στον κάδο, θα μπορούσε εύκολα να καταλάβει τι είναι τα σκουπίδια, πώς να τα διαφοροποιήσει από άλλα αντικείμενα παρόν στο περιβάλλον, πώς να το μετακινήσετε και να το παραλάβετε μηχανικά και πώς να το πετάξετε στον κάδο, όλα αυτά χωρίς να έχετε εκπαιδευτεί ειδικά σε κανένα από αυτά δραστηριότητες.

Η Google μοιράστηκε επίσης μερικά αρκετά εντυπωσιακά αποτελέσματα από τις δοκιμές του RT-2. Σε περισσότερες από 6.000 δοκιμές, το RT-2 αποδείχθηκε εξίσου επιδέξιο με τον προκάτοχό του σε «βλέπονται» εργασίες. Το πιο ενδιαφέρον είναι ότι σε αόρατα σενάρια, σημείωσε 62% σε σύγκριση με το 32% του RT-1, μια σχεδόν διπλάσια αύξηση στην απόδοση. Ενώ οι εφαρμογές μιας τέτοιας τεχνολογίας φαίνονται ήδη πολύ χειροπιαστές, χρειάζεται σημαντικός χρόνος για αυτήν για να ωριμάσει καθώς οι πραγματικές περιπτώσεις χρήσης απαιτούν εύλογα αυστηρές δοκιμές και ακόμη και ρυθμιστική έγκριση στο φορές. Προς το παρόν, μπορείτε να διαβάσετε περισσότερα για τον μηχανισμό υποστήριξης του RT-2 στο Το ιστολόγιο του Google DeepMind εδώ.