Google აცხადებს RT-2, ხელოვნური ინტელექტის მოდელს რობოტებთან სასაუბროდ

Google-მა წარმოადგინა RT-2, ახალი ხელოვნური ინტელექტის მოდელი, რომელსაც შეუძლია თქვენი ბრძანებების გადაყვანა რობოტულ ქმედებებად, აშკარა ტრენინგის საჭიროების გარეშე.

მიუხედავად იმისა, რომ AI ჩეთბოტები, რომლებიც აღჭურვილია დიდი ენობრივი მოდელებით (LLMs) დომინირებს ამ დღეებში, პოპულარობის მეტეორიული ზრდის გამო. ChatGPT, Bing ჩატი, მეტას ლამა, და Google Bard, ეს AI ლანდშაფტის მხოლოდ მცირე ნაწილია. კიდევ ერთი სფერო, რომელიც წლების განმავლობაში აქტიურად იყო შესწავლილი, არის რობოტული აპარატურა, რომელიც იყენებს კომპლექსურ ტექნიკას ადამიანების ჩანაცვლებისთვის ან დასახმარებლად. Google-მა ახლა გამოაცხადა წინსვლა ამ დომენში, ახალი AI მოდელის სახით.

გუგლს აქვს გაამხილა Robotics Transformer 2 (RT-2), მისი უახლესი AI მოდელი ძალიან სპეციფიკური დანიშნულებით: თქვენი სასურველი მოქმედების რობოტთან კომუნიკაცია. ის იყენებს ახალ ტექნიკას ამ მიზნის მისაღწევად, რომელიც შექმნილია უნიკალური ვიზუალური ენის მოქმედებით (VLA), რომელიც Google-ის მტკიცებით პირველია ამ ტიპის. მიუხედავად იმისა, რომ რამდენიმე წინა მოდელმა, როგორიცაა RT-1 და PaLM-E, მიაღწია წინსვლას რობოტებში მსჯელობის უნარის გაზრდაში და მათ სწავლაში. ერთმანეთისგან, რობოტებით დომინირებული სამყარო, რომელიც აჩვენა სამეცნიერო ფანტასტიკურ ფილმებს, სავარაუდოდ, მაინც გამოიყურება რაღაც უკიდურესად შორეული მომავლიდან.

RT-2 მიზნად ისახავს შეამციროს ეს უფსკრული ფანტასტიკასა და რეალობას შორის იმით, რომ რობოტებს სრულად ესმით მათ გარშემო არსებული სამყარო მინიმალური მხარდაჭერით ან მხარდაჭერის გარეშე. პრინციპში, ის ძალიან ჰგავს LLM-ებს, სადაც ის იყენებს ტრანსფორმერზე დაფუძნებულ მოდელს, რათა შეიტყოს სამყარო ტექსტური და ვიზუალური საშუალებით. ინფორმაცია ხელმისაწვდომია ინტერნეტში და შემდეგ გადათარგმნეთ იგი რობოტულ ქმედებებად, თუნდაც სატესტო შემთხვევებზე, სადაც ეს აშკარად არ არის გაწვრთნილი.

Google-მა ახსნა რამდენიმე გამოყენების შემთხვევა RT-2-ის შესაძლებლობების ასახსნელად. მაგალითად, თუ RT-2 რობოტს სთხოვთ ნაგვის ურნაში გადაყრას, ის ადვილად მიხვდება რა არის ნაგავი და როგორ განასხვავოს იგი სხვა ობიექტებისგან. იმყოფება გარემოში, როგორ გადავიტანოთ და აიღოთ იგი მექანიკურად და როგორ გადააგდოთ იგი ურნაში, ეს ყველაფერი არცერთ მათგანზე სპეციალურად მომზადების გარეშე საქმიანობის.

Google-მა ასევე გააზიარა რამდენიმე საკმაოდ შთამბეჭდავი შედეგი RT-2-ის ტესტირებიდან. 6000-ზე მეტ ცდაში RT-2 აღმოჩნდა ისეთივე კომპეტენტური, როგორც მისი წინამორბედი "ნანახ" ამოცანებში. უფრო საინტერესოა, რომ უხილავ სცენარებში, მან მიიღო 62% RT-1-ის 32%-თან შედარებით, რაც თითქმის ორჯერ გაიზარდა შესრულებაში. მიუხედავად იმისა, რომ ასეთი ტექნოლოგიის გამოყენება უკვე ძალიან ხელშესახები ჩანს, მას მნიშვნელოვანი დრო სჭირდება მომწიფება, რადგან რეალურ სამყაროში გამოყენების შემთხვევები გასაგებია, მოითხოვს მკაცრ ტესტირებას და მარეგულირებელ დამტკიცებას კი ჯერ. ამ დროისთვის შეგიძლიათ მეტი წაიკითხოთ RT-2-ის უკანა მექანიზმის შესახებ Google DeepMind-ის ბლოგი აქ.