كشفت جوجل النقاب عن RT-2، وهو نموذج جديد للذكاء الاصطناعي يمكنه ترجمة أوامرك إلى إجراءات آلية دون الحاجة إلى تدريب واضح.
على الرغم من أن روبوتات الدردشة المدعومة بالذكاء الاصطناعي والمدعومة بنماذج اللغات الكبيرة (LLMs) تهيمن على العناوين الرئيسية هذه الأيام بسبب الارتفاع الكبير في شعبية ChatGPT, دردشة بينج, ميتا اللاما، و جوجل بارد، هذا ليس سوى جزء صغير من مشهد الذكاء الاصطناعي. المجال الآخر الذي تم استكشافه بنشاط لسنوات هو الأجهزة الروبوتية التي تستفيد من التقنيات المعقدة إما لتحل محل البشر أو مساعدتهم. وقد أعلنت جوجل الآن عن تقدم في هذا المجال، في شكل نموذج جديد للذكاء الاصطناعي.
جوجل لديها كشف النقاب Robotics Transformer 2 (RT-2)، أحدث طراز للذكاء الاصطناعي له غرض محدد للغاية: توصيل الإجراء المطلوب إلى الروبوت. ويستخدم تقنيات جديدة لتحقيق هذا الغرض، مدعومًا بحركة لغة مرئية فريدة (VLA) والتي تدعي Google أنها الأولى من نوعها. على الرغم من أن العديد من النماذج السابقة مثل RT-1 وPaLM-E قد حققت تقدمًا في زيادة قدرات التفكير لدى الروبوتات والتأكد من أنها تتعلم من بعضها البعض، يمكن القول إن العالم الذي يهيمن عليه الروبوت والذي عرضته أفلام الخيال العلمي لا يزال يبدو وكأنه شيء من مستقبل بعيد للغاية.
يهدف RT-2 إلى تقليص هذه الفجوة بين الخيال والواقع من خلال التأكد من أن الروبوتات تفهم العالم من حولها بشكل كامل مع الحد الأدنى من الدعم أو بدونه. من حيث المبدأ، فهو يشبه إلى حد كبير LLMs، حيث يستخدم نموذجًا قائمًا على المحولات للتعرف على العالم من النصوص والمرئيات المعلومات المتاحة على الويب ثم ترجمتها إلى إجراءات آلية، حتى في حالات الاختبار التي لم يتم فيها ذلك بشكل صريح تدريب.
لقد أوضحت Google العديد من حالات الاستخدام لشرح إمكانيات RT-2. على سبيل المثال، إذا طلبت من الروبوت الذي يعمل بالطاقة RT-2 رمي القمامة في سلة المهملات، فسيكون قادرًا بسهولة على فهم ماهية القمامة وكيفية تمييزها عن الكائنات الأخرى الموجود في البيئة، وكيفية تحريكه والتقاطه ميكانيكيًا، وكيفية التخلص منه في سلة المهملات، كل ذلك دون أن يتم تدريبه بشكل محدد على أي من هذه الأمور أنشطة.
شاركت Google أيضًا بعض النتائج المثيرة للإعجاب من اختبارها لـ RT-2. وفي أكثر من 6000 تجربة، أثبت RT-2 كفاءته مثل سابقه في المهام "المرئية". والأمر الأكثر إثارة للاهتمام هو أنه في السيناريوهات غير المرئية، سجل 62% مقارنة بـ RT-1 الذي بلغ 32%، وهي زيادة مضاعفة في الأداء تقريبًا. في حين أن تطبيقات مثل هذه التكنولوجيا تبدو ملموسة للغاية بالفعل، إلا أنها تستغرق وقتًا طويلاً لتنضج لأن حالات الاستخدام في العالم الحقيقي تتطلب اختبارات صارمة وحتى موافقة تنظيمية مرات. في الوقت الحالي، يمكنك قراءة المزيد حول آلية الواجهة الخلفية لـ RT-2 في مدونة Google DeepMind هنا.