גוגל חשפה את RT-2, מודל AI חדשני שיכול לתרגם את הפקודות שלך לפעולות רובוטיות מבלי לדרוש הכשרה מפורשת.
למרות שצ'אטבוטי בינה מלאכותית המופעלים על ידי מודלים של שפה גדולה (LLMs) שולטים בכותרות בימים אלה בשל העלייה המטאורית בפופולריות של ChatGPT, בינג צ'אט, הלאמה של מטא, ו גוגל בארד, זהו רק חלק קטן מנוף הבינה המלאכותית. תחום נוסף שנחקר באופן פעיל במשך שנים הוא חומרה רובוטית הממנפת טכניקות מורכבות כדי להחליף או לסייע לבני אדם. גוגל הודיעה כעת על התקדמות בתחום זה, בדמות דגם AI חדש.
לגוגל יש נחשף Robotics Transformer 2 (RT-2), דגם ה-AI האחרון שלו עם מטרה מאוד ספציפית: העברת הפעולה הרצויה לרובוט. היא משתמשת בטכניקות חדשות כדי להשיג מטרה זו, המופעלת על ידי פעולה חזותית-שפה ייחודית (VLA) שלטענת גוגל היא הראשונה מסוגה. למרות שכמה דגמים קודמים כמו RT-1 ו-PaLM-E עשו התקדמות בהגדלת יכולות החשיבה ברובוטים והקפדה שהם ילמדו זה מזה, העולם הנשלט על ידי רובוטים שמציגים סרטי מדע בדיוני עדיין נראה כמו משהו מעתיד רחוק מאוד.
RT-2 שואפת לצמצם את הפער הזה בין בדיה למציאות על ידי לוודא שרובוטים מבינים במלואם את העולם סביבם עם מינימום או ללא תמיכה. באופן עקרוני, זה דומה מאוד ל-LLMs, שם הוא משתמש במודל מבוסס שנאי כדי ללמוד על העולם מטקסטואלי וחזותי מידע זמין באינטרנט ולאחר מכן לתרגם אותו לפעולות רובוטיות, אפילו על מקרי בדיקה שבהם הוא לא בוצע במפורש מְאוּמָן.
גוגל הסבירה כמה מקרי שימוש כדי להסביר את היכולות של RT-2. לדוגמה, אם תבקש מרובוט מופעל מסוג RT-2 לזרוק אשפה לפח, הוא יוכל בקלות להבין מהו אשפה, כיצד להבדיל אותו מחפצים אחרים נוכח בסביבה, כיצד להזיז ולהרים אותו באופן מכני, וכיצד להשליך אותו ממנו לפח, הכל מבלי לקבל הכשרה ספציפית על אף אחד מאלה פעילויות.
גוגל גם שיתפה כמה תוצאות מרשימות למדי מבדיקת RT-2. בלמעלה מ-6,000 ניסויים, RT-2 הוכיח את עצמו כמיומן כמו קודמו במשימות "נראה". מעניין יותר, בתרחישים בלתי נראים, הוא השיג 62% בהשוואה ל-32% של RT-1, עלייה של כמעט פי שניים בביצועים. אמנם היישומים של טכנולוגיה כזו כבר נראים מאוד מוחשיים, אבל זה לוקח זמן משמעותי בשבילה כדי להבשיל כשמקרי שימוש בעולם האמיתי דורשים באופן מובן בדיקות קפדניות ואפילו אישור רגולטורי ב פִּי. לעת עתה, תוכל לקרוא עוד על מנגנון הקצה האחורי של RT-2 ב הבלוג של Google DeepMind כאן.