מודל למידת המכונה החדש של Google Duo משפר את איכות השמע בשיחות

click fraud protection

Google Duo משתמש במודל הלמידה המכונה WaveNetEQ החדש של גוגל כדי לשפר את איכות השמע בשיחות על ידי מילוי פערים וריפוי ריצוד.

לגוגל הייתה היסטוריה של הרג אפליקציות הודעות בצורה לא נעימה לטובת אפליקציות תקשורת חדשות יותר שגם הן נהרגות בסופו של דבר. Google Duo היה, עד כה, חריג מאז שהושק לצד Allo, שירות ההודעות שהוצא משימוש. Duo קיבל ללא הרף את תשומת הלב של Google והוספה תכופה של תכונות חדשות כמו תמיכה ב-1080p בטלפונים 5G של Samsung S20, (בקרוב) כתוביות חיות, שרבוטים, ועד 12 משתתפים בשיחה קבוצתית. כעת, גוגל מיישמת למידת מכונה כדי להפחית את הבעיה העיקרית של ריצודים לחוויית אודיו חלקה יותר וללא הפרעות.

שיחות וידאו הפכו לדרך חיונית לתקשורת רשמית בתקופת ההסגר של COVID-19 ואודיו עצבני עלול לעלות לך או לחברה שלך כלכלית. גוגל מכירה בכך ש-99% מהשיחות ב-Duo סובלות מהפרעות עקב עיכובים ברשת. כחמישית מהשיחות הללו סובלות מאובדן של 3% באודיו בעוד שעשירית מאבדת כמעט 8% מהשמע, שחלק גדול ממנו יכול להיות מידע משמעותי מאוד שבסופו של דבר תפספס. זה קורה כאשר חבילות של נתונים מתעכבות או אובדות בשידור והיעדרן של מנות אלו גורמת לתקלות באודיו, מה שהופך חלק גדול ממנו לבלתי מובן.

אלגוריתם למידת המכונה החדש של גוגל WaveNetEQ עובד על טכניקה הנקראת "הסתרת אובדן מנות" (PLC). WaveNet EQ הוא מודל מחולל המבוסס על של DeepMindWaveRNN ויוצר נתחי אודיו כדי לסתום פערים עם חומרי מילוי מציאותיים. מודל הבינה המלאכותית אומן על ידי הזנת מאגר גדול של נתונים הקשורים לדיבור. עקב הצפנה מקצה לקצה ב-Google Duo, הדגם פועל על מכשיר המקלט. אבל גוגל טוענת שזה "מהיר מספיק כדי לרוץ בטלפון, תוך מתן איכות שמע עדכנית."

WaveRRN מסתמך על מודל טקסט לדיבור ומלבד היותו מאומן ל"מה לומר", הוא גם הוכשר ל"איך לומר" דברים. הוא מנתח את הקלט עם הבנה פונטית חזקה כדי לחזות צלילים בעתיד המיידי. מלבד מילוי פערים, הדגם גם מייצר עודפי אודיו בצורת הגל הגולמית כדי לחפוף את החלק שעוקב אחרי הריצוד. אות זה חופף לאודיו בפועל עם מעט דהייה צולבת ומביא למעבר חלק יותר.

מודל ה-WaveNetEQ של Google Duo הוכשר ב-48 שפות המוזנות על ידי 100 אנשים, כך שהוא יכול ללמוד את המאפיינים הכלליים של הקול האנושי במקום שפה אחת בלבד. המודל מאומן לייצר בעיקר הברות ויכול למלא פערים באורך של עד 120 אלפיות השנייה.

התכונה כבר זמינה ב-Google Pixel 4 וכעת היא מתגלגלת למכשירי אנדרואיד אחרים.


מָקוֹר: בלוג בינה מלאכותית של גוגל