Google เปิดตัว RT-2 โมเดล AI สำหรับการพูดคุยกับหุ่นยนต์

Google ได้เปิดตัว RT-2 ซึ่งเป็นโมเดล AI ใหม่ที่สามารถแปลคำสั่งของคุณให้เป็นการกระทำของหุ่นยนต์โดยไม่ต้องมีการฝึกอบรมที่ชัดเจน

แม้ว่าแชทบอท AI ที่ขับเคลื่อนโดยโมเดลภาษาขนาดใหญ่ (LLM) กำลังครองพาดหัวข่าวในปัจจุบัน เนื่องจากความนิยมที่เพิ่มขึ้นอย่างรวดเร็วของ ChatGPT, บิงแชท, ลามะของเมต้า, และ กูเกิล เบิร์ดนี่เป็นเพียงส่วนเล็กๆ ของภูมิทัศน์ AI อีกด้านที่ได้รับการสำรวจอย่างแข็งขันมานานหลายปีคือฮาร์ดแวร์หุ่นยนต์ที่ใช้ประโยชน์จากเทคนิคที่ซับซ้อนเพื่อทดแทนหรือช่วยเหลือมนุษย์ ขณะนี้ Google ได้ประกาศความก้าวหน้าในโดเมนนี้ ในรูปแบบของโมเดล AI ใหม่

Google มี เปิดตัว Robotics Transformer 2 (RT-2) ซึ่งเป็นโมเดล AI ล่าสุดที่มีจุดประสงค์เฉพาะเจาะจงมาก นั่นคือการสื่อสารการกระทำที่คุณต้องการกับหุ่นยนต์ ใช้เทคนิคใหม่ๆ เพื่อให้บรรลุวัตถุประสงค์นี้ ซึ่งขับเคลื่อนโดย Visual-Language-Action (VLA) ที่เป็นเอกลักษณ์ซึ่ง Google อ้างว่าเป็นประเภทแรก แม้ว่ารุ่นก่อนหน้าหลายรุ่น เช่น RT-1 และ PaLM-E จะมีความก้าวหน้าในการเพิ่มความสามารถในการให้เหตุผลในหุ่นยนต์และทำให้แน่ใจว่าหุ่นยนต์จะเรียนรู้ เมื่อแยกจากกัน โลกที่ถูกครอบงำโดยหุ่นยนต์ซึ่งจัดแสดงโดยภาพยนตร์นิยายวิทยาศาสตร์ยังคงดูเหมือนเป็นสิ่งที่มาจากอนาคตอันไกลแสนไกล

RT-2 มุ่งหวังที่จะลดช่องว่างระหว่างนิยายและความเป็นจริง โดยทำให้แน่ใจว่าหุ่นยนต์เข้าใจโลกรอบตัวอย่างถ่องแท้โดยได้รับการสนับสนุนเพียงเล็กน้อยหรือไม่มีเลย โดยหลักการแล้ว มันคล้ายกับ LLM มาก โดยจะใช้โมเดลที่ใช้ Transformer เพื่อเรียนรู้เกี่ยวกับโลกจากข้อความและภาพ ข้อมูลที่มีอยู่บนเว็บแล้วแปลงเป็นการดำเนินการของหุ่นยนต์ แม้แต่ในกรณีทดสอบที่ไม่ได้ระบุอย่างชัดเจน ผ่านการฝึกอบรม

Google ได้อธิบายกรณีการใช้งานหลายประการเพื่ออธิบายความสามารถของ RT-2 ตัวอย่างเช่น หากคุณขอให้หุ่นยนต์ขับเคลื่อนด้วย RT-2 ทิ้งขยะลงในถังขยะ มันจะสามารถเข้าใจได้ง่ายว่าขยะคืออะไร และจะแยกมันออกจากวัตถุอื่นได้อย่างไร ปรากฏต่อสิ่งแวดล้อม วิธีเคลื่อนย้ายและหยิบมันด้วยเครื่องจักร และวิธีกำจัดมันลงถังขยะ ทั้งหมดนี้ไม่ได้รับการฝึกอบรมเป็นพิเศษเกี่ยวกับสิ่งเหล่านี้ กิจกรรม.

Google ยังได้แบ่งปันผลลัพธ์ที่ค่อนข้างน่าประทับใจจากการทดสอบ RT-2 ในการทดลองมากกว่า 6,000 ครั้ง RT-2 ได้รับการพิสูจน์แล้วว่าเชี่ยวชาญพอๆ กับรุ่นก่อนในงานที่ "มองเห็น" ที่น่าสนใจกว่านั้นคือในสถานการณ์ที่มองไม่เห็น มันได้คะแนน 62% เมื่อเทียบกับ RT-1 ที่ได้ 32% ซึ่งเพิ่มขึ้นเกือบสองเท่าของประสิทธิภาพ แม้ว่าการประยุกต์ใช้เทคโนโลยีดังกล่าวจะดูเหมือนจับต้องได้อยู่แล้ว แต่ก็ต้องใช้เวลาอย่างมากในการดำเนินการดังกล่าว เพื่อให้บรรลุตามกรณีการใช้งานจริง จำเป็นต้องมีการทดสอบอย่างเข้มงวดและได้รับการอนุมัติตามกฎระเบียบด้วย ครั้ง ในตอนนี้ คุณสามารถอ่านเพิ่มเติมเกี่ยวกับกลไกแบ็กเอนด์ของ RT-2 ได้ใน บล็อกของ Google DeepMind ที่นี่.