באירוע הווירטואלי של Google L10n, גוגל הראתה התמקדות מחודשת בשפות ההודיות עם שינויים שפונים לרב לשוניים בהודו.
הודו היא ארץ מאה שפות, מקום בו הדיאלקט משתנה כל 100 ק"מ. בעולם טכנולוגי הנשלט על ידי אנגלית, השפות והדיאלקטים המקומיים הללו אינם מסוגלים לספק גישה לחוויות משמעותיות באינטרנט. באירוע הוירטואלי של Google L10n היום, גוגל מקלה על משתמשים רב לשוניים בהודו לחוות חוויות מעשירות בהודו עם החלפת שפה קלה עבור חיפוש Google, תוצאות דו-לשוניות טובות יותר בחיפוש Google, החלפת שפה קלה במפות Google, עזרה בשיעורי בית בהינדית באמצעות Google Lens, ומודל AI רב לשוני בשם MuRIL כדי להקל על מחשבים להבין מגוון שפה אנושית.
רקע כללי
לפני שנגיע להכרזות, הנה קצת רקע שיסביר את ההקשר לקהל הבינלאומי שלנו. א חלק גדול מהודו הוא דו לשוני ורב לשוני, כאשר אנגלית היא השפה הראשונה של רק 0.02% מהאוכלוסייה העצומה של הודו המונה למעלה מ-1.2 מיליארד בני אדם. רק 10.6% מכלל האוכלוסייה יודעים לדבר אנגלית. לעומת זאת, 43.63% מהאוכלוסייה מדברים הינדית כשפתם הראשונה, בעוד ש-57.1% יכולים לדבר הינדית בסך הכל (אם כי זו מחולקת לתת-דיאלקטים שונים). שפות אחרות עוקבות אחריהם, אך באחוזים קטנים יותר - בנגלית, מראטית וטלוגו ב-8.9%, 8.2% ו-7.8% בהתאמה. הארוך והקצר הוא שהתמקדות הטכנולוגיה סביב אנגלית כאמצעי הגישה היחיד מרחיקה את הטכנולוגיה ממספר גדול מאוד של משתמשים שאחרת היו מוצאים את הטכנולוגיה שימושית לחלוטין -- ואולי זקוקים לה אפילו יותר מאלה שכבר יש להם גישה לטכניקה אחרת דרכים.
כפי שציינתי אצלי סקירת Google Nest Audio, אפילו משהו כמו רמקול חכם מציע פחות שימוש בהגדרה רב-לשונית כמו במשק בית דובר אנגלית. פקודות בשפות מעורבות אינן מזוהות כל כך טוב (כמו פקודה באנגלית בעיקר עם כמה מילים הינדיות), והגדרה שפות דו לשוניות עדיין מוגבלות לשילובים מסוימים (הינדי + אורדו, או כל שתי שפות אינדיות אינן שילוב חוקי, אבל הינדי + אנגלית כן). המצב טוב יותר ממה שהיה לפני כמה שנים קצרות, אבל עדיין יש דרך הוגנת ללכת לשיפורים.
וגוגל יודעת את זה, ומהווה את הבסיס עבור ההכרזות של היום באירוע L10n (קיצור שובב של Localization, עם 10 אותיות בין L ל-n).
הכרזות באירוע Google L10n 2020
מעבר קל בין תוצאות בשפה האנגלית להודית בחיפוש Google
גוגל מציעה את היכולת להחליף במהירות בין תוצאות באנגלית והינדית באמצעות שבב/כרטיסייה בחיפוש Google, במדינות הודיות עם אוכלוסייה משמעותית של דוברי הינדית. השבב הזה הגביר את הגידול בשאילתות הינדי פי 10 בהודו.
אותו הדבר מורחב כעת לשפות אינדיות נוספות. חיפוש Google יציע כעת את היכולת לעבור בין תוצאות בין אנגלית לטמילית/טלוגו/בנגלה/מראתית גם כן.
תוצאות דו לשוניות טובות יותר בחיפוש Google
משתמשים בהודו, כולל אני, מעדיפים להקליד דברים באנגלית גם אם התוצאות צפויות בשפה מקומית. למעשה, תעתיק הינדי לאנגלית הוליד את הינגליש, שהיא הינדי שנכתבת עם האלפבית האנגלי.
חיפוש Google בא להציל דו-לשוניים כאלה עבור שאילתות החיפוש שלהם. במהלך החודש הבא, החיפוש יתחיל להציג תוכן רלוונטי בשפות הודיות נתמכות כאשר הדבר מתאים, גם אם השאילתה הועברה לתעתיק לאנגלית, מה שהוביל לתוצאות חיפוש דו-לשוניות בשפות נוספות בנוסף לאנגלית כעיקרית. השפות ההודיות הנתמכות עבור המשנית הן הינדי, בנגלה, מראטי, טמילית וטלוגו.
החלפת שפה קלה במפות Google
ל-Google Assistant ול-Discover יש את היכולת לעבור לשפה שונה מהמערכת, מה שמאפשר למשתמשים להשתמש בכלים האלה בהעדפה הספציפית שלהם. יותר מ-50% מהתוכן ב-Google Discover נצפה בשפות הודיות בארץ, ושליש ממשתמשי Google Assistant משתמשים בו בשפה הודית.
היכולת לשנות שפות בתוך האפליקציה מורחבת כעת למפות גוגל. משתמשים יכולים כעת פשוט לפתוח את האפליקציה, לעבור להגדרות ולהקיש על "שפת אפליקציה" כדי לבחור מתוך עד תשע שפות. זה יקל על המשתמשים לחפש מקומות, לקבל מסלול ולנווט בשפה המועדפת עליהם למשימה זו.
עזרה בשיעורי בית בהינדית דרך Google Lens
Google Lens כבר מאפשר לך לפתור בעיות מתמטיקה לעזור בשיעורי הבית של ילדך. אתה יכול לצלם תמונה של בעיה מתמטית, ולהציג לך מדריך שלב אחר שלב כיצד לפתור אותה. אבל המדריך הזה הוצג בעיקר באנגלית.
גוגל מציגה כעת פתרונות הינדיים לעזרה בשיעורי בית ב-Google Lens.
MuRIL - מודל הבינה המלאכותית הרב לשונית כדי לעזור למערכות מחשב להבין שפות הודיות בקנה מידה
הרבה מהשיחה סביב בינה מלאכותית ולמידת מכונה מתרכזת סביב הבנת בני אדם ושפה אנושית. אבל כששפות לובשות מאה צורות, השיחה הזו מתגלגלת למשימה אדירה, יותר ממה שכבר הייתה. כאן נכנסת MuRIL לתמונה.
קיצור של Multilingual Represtantions for שפות הודיות, MuRIL הוא מודל רב לשוני המרחיב את השפות. בין יתר היתרונות, הוא מספק גם תמיכה בטקסט מתעתיק, כגון בעת כתיבת הינדי באמצעות הכתב הרומי. MuRIL גם טוב בקביעת הסנטימנט של משפטים מתעתיקים. MuRIL תומך ב-16 שפות הודיות כמו גם באנגלית, מה שמעניק לה את הכיסוי הגבוה ביותר עבור שפות הודיות מבין כל דגם זמין לציבור אחר מסוגו.
MuRIL הפך לקוד פתוח וזמין עבור הורד מ- TensorFlow Hub בחינם.
זה נהדר לראות חברות מכוונות את השיחות לקראת קבלה רחבה יותר של שפות מגוונות. אנו מקווים שהמאמצים יימשכו במטרה זו גם עבור שפות אחרות ואזורים אחרים.