Google ने रोबोट से बात करने के लिए एक AI मॉडल RT-2 की घोषणा की

Google ने RT-2 का अनावरण किया है, जो एक नया AI मॉडल है जो स्पष्ट प्रशिक्षण की आवश्यकता के बिना आपके आदेशों को रोबोटिक क्रियाओं में अनुवादित कर सकता है।

हालाँकि बड़े भाषा मॉडल (एलएलएम) द्वारा संचालित एआई चैटबॉट इन दिनों लोकप्रियता में भारी वृद्धि के कारण सुर्खियों में बने हुए हैं। चैटजीपीटी, बिंग चैट, मेटा का लामा, और गूगल बार्ड, यह AI परिदृश्य का केवल एक छोटा सा हिस्सा है। एक अन्य क्षेत्र जो वर्षों से सक्रिय रूप से खोजा जा रहा है वह है रोबोटिक हार्डवेयर जो जटिल तकनीकों का उपयोग करके मनुष्यों को प्रतिस्थापित करता है या उनकी सहायता करता है। Google ने अब एक नए AI मॉडल के रूप में इस डोमेन में प्रगति की घोषणा की है।

गूगल के पास है अनावरण किया रोबोटिक्स ट्रांसफॉर्मर 2 (आरटी-2), इसका नवीनतम एआई मॉडल एक बहुत ही विशिष्ट उद्देश्य के साथ: रोबोट को आपकी वांछित क्रिया संप्रेषित करना। इस उद्देश्य को प्राप्त करने के लिए यह नवीन तकनीकों का उपयोग करता है, जो एक अद्वितीय दृश्य-भाषा-क्रिया (वीएलए) द्वारा संचालित है, जिसके बारे में Google का दावा है कि यह अपनी तरह का पहला है। हालाँकि RT-1 और PaLM-E जैसे कई पिछले मॉडलों ने रोबोट में तर्क क्षमता बढ़ाने और यह सुनिश्चित करने में प्रगति की है कि वे सीखें एक-दूसरे से, साइंस-फिक्शन फिल्मों द्वारा प्रदर्शित रोबोट-प्रधान दुनिया यकीनन अभी भी बहुत दूर के भविष्य की तरह लगती है।

आरटी-2 का उद्देश्य यह सुनिश्चित करके कल्पना और वास्तविकता के बीच के अंतर को कम करना है कि रोबोट न्यूनतम या बिना किसी समर्थन के अपने आसपास की दुनिया को पूरी तरह से समझें। सिद्धांत रूप में, यह एलएलएम के समान है, जहां यह पाठ्य और दृश्य से दुनिया के बारे में जानने के लिए ट्रांसफार्मर-आधारित मॉडल का उपयोग करता है वेब पर उपलब्ध जानकारी और फिर इसे रोबोटिक क्रियाओं में अनुवादित करें, यहां तक ​​कि उन परीक्षण मामलों पर भी जहां यह स्पष्ट रूप से नहीं है प्रशिक्षित.

Google ने RT-2 की क्षमताओं को समझाने के लिए कई उपयोग-मामलों की व्याख्या की है। उदाहरण के लिए, यदि आप RT-2 संचालित रोबोट को कूड़ेदान में कचरा फेंकने के लिए कहते हैं, तो वह आसानी से समझ पाएगा कि कचरा क्या है, इसे अन्य वस्तुओं से कैसे अलग किया जाए। पर्यावरण में मौजूद, इसे यंत्रवत् कैसे स्थानांतरित करें और उठाएं, और इसे बिन में कैसे निपटाना है, यह सब इनमें से किसी पर भी विशेष रूप से प्रशिक्षित किए बिना गतिविधियाँ।

Google ने RT-2 के परीक्षण से कुछ प्रभावशाली परिणाम भी साझा किए हैं। 6,000 से अधिक परीक्षणों में, आरटी-2 "देखे गए" कार्यों में अपने पूर्ववर्ती की तरह ही कुशल साबित हुआ। अधिक दिलचस्प बात यह है कि अनदेखे परिदृश्यों में, इसने आरटी-1 के 32% की तुलना में 62% स्कोर किया, जो कि प्रदर्शन में लगभग दो गुना वृद्धि है। हालाँकि ऐसी तकनीक के अनुप्रयोग पहले से ही बहुत ठोस लगते हैं, लेकिन इसमें काफी समय लगता है वास्तविक दुनिया के उपयोग-मामलों के रूप में परिपक्व होने के लिए कठोर परीक्षण और यहां तक ​​कि नियामक अनुमोदन की भी आवश्यकता होती है बार. अभी के लिए, आप RT-2 के बैकएंड तंत्र के बारे में अधिक पढ़ सकते हैं Google DeepMind का ब्लॉग यहाँ.