Google Duo משתמש בקודק חדש לאיכות שיחה טובה יותר בחיבורים גרועים

click fraud protection

גוגל פיתחה את Lyra, codec בעל קצב סיביות נמוך לדחיסת דיבור שמטרתו לשפר באופן ניכר את איכות הקול באפליקציות כמו Google Duo.

עדכון 1 (04/09/2021 @ 15:45 ET): גוגל פרסמה את קוד המקור של Lyra, ה-Codec הדיבור החדש בקצב סיביות נמוך המשמש את Google Duo. לחץ כאן למידע נוסף. המאמר, כפי שפורסם ב-1 במרץ 2021, נשמר להלן.

בעוד שספקים אמריקאים עסוקים בשיווק רשתות ה-5G החדשות שלהם, המציאות היא שהרוב המכריע של האנשים לא יחוו את המהירויות המפורסמות. ישנם עדיין חלקים רבים של ארה"ב - וברחבי העולם - שבהם מהירויות הנתונים איטיות, כדי לפצות, שירותים כמו Google Duo משתמשים בטכניקות דחיסה כדי לספק ביעילות את הווידאו והשמע הטובים ביותר האפשריים ניסיון. גוגל בוחנת כעת Codec אודיו חדש שמטרתו לשפר משמעותית את איכות השמע בחיבורי רשת גרועים.

בפוסט בבלוג, צוות ה-AI של Google מפרט את ה-Codec הדיבור החדש באיכות גבוהה ובקצב סיביות נמוך מאוד, שהם כינו "Lyra". כמו מסורתי קודקים פרמטריים, הארכיטקטורה הבסיסית של ליירה כוללת חילוץ של תכונות דיבור ייחודיות (הידועות גם בשם "תכונות") ב- צורה של לוג מל ספקטרוגרמות לאחר מכן נדחסים, מועברים דרך הרשת, ומיוצרים מחדש בצד השני באמצעות מודל מחולל. עם זאת, בניגוד לקודקים פרמטריים מסורתיים יותר, ליירה משתמשת בדגם חדש ליצירת אודיו באיכות גבוהה שאינו מסוגל רק לחלץ פרמטרים קריטיים מהדיבור, אך מסוגל גם לשחזר דיבור תוך שימוש בכמויות מינימליות של נתונים. המודל הגנרטיבי החדש המשמש ב- Lyra מתבסס על זה של גוגל

עבודה קודמת על WaveNetEQ, מערכת ההסתרה של אובדן מנות מבוססת מודלים המשמשת כיום ב-Google Duo.

הארכיטקטורה הבסיסית של ליירה. מקור: גוגל

גוגל טוענת כי הגישה שלה הפכה את ליירה לשווה ל-codec צורות הגל החדישים ביותר המשמשים כיום בפלטפורמות סטרימינג ותקשורת רבות. היתרון של Lyra על פני קודקים של צורות גל חדישים אלה, לפי גוגל, הוא שליירה לא שולחת את האות דגימה-אחר-דגימה, מה שדורש קצב סיביות גבוה יותר (ולכן יותר נתונים). כדי להתגבר על חששות המורכבות החישובית של הפעלת מודל יצירתי במכשיר, גוגל אומרת כי ליירה משתמשת ב"מודל יצירתי חוזר זול יותר" שפועל "ב קצב נמוך יותר" אך מייצר אותות מרובים בטווחי תדרים שונים במקביל המשולבים מאוחר יותר "לאות פלט בודד בקצב הדגימה הרצוי". הפעלת הדגם הגנרטיבי הזה על מכשיר בינוני בזמן אמת מניבה זמן עיבוד של 90ms, שלדברי גוגל "תואמת לדיבור מסורתי אחר קודקים."

בשילוב עם ה-Codec AV1 לווידאו, גוגל אומרת שצ'אט וידאו יכול להתקיים אפילו עבור משתמשים במודם חיוג עתיק של 56kbps. הסיבה לכך היא כי Lyra תוכננה לפעול בסביבות מוגבלות ברוחב פס כגון 3kbps. לפי גוגל, Lyra מתעלה בקלות על ה-Codec Opus בקוד פתוח ללא תמלוגים, כמו גם קודקים אחרים כמו Speex, MELP ו-AMR בקצבי סיביות נמוכים מאוד. הנה כמה דוגמאות דיבור שגוגל מספקת. פרט לאודיו המקודד בלירה, כל אחת מדגימות הדיבור סובלת מאיכות שמע ירודה בקצבי סיביות נמוכים מאוד.

דיבור נקי

מְקוֹרִי

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

סביבה רועשת

מְקוֹרִי

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

גוגל אומרת שהיא אימנה את ליירה "עם אלפי שעות של אודיו עם רמקולים בלמעלה מ-70 שפות באמצעות ספריות אודיו בקוד פתוח ולאחר מכן אימות האודיו איכות עם מאזינים מומחים ומצוי המונים." ככזה, ה-Codec החדש כבר יוצא ב-Google Duo כדי לשפר את איכות השיחה ברוחב פס נמוך מאוד קשרים. בעוד שלייר מכוונת כעת למקרי שימוש בדיבור, גוגל בוחנת כיצד להפוך אותו לקודק אודיו לשימוש כללי.


עדכון 1: Codec Lyra בקוד פתוח של Google בשימוש ב-Google Duo

מוקדם יותר השבוע, גוגל הכריז שהייתה לה Lyra בקוד פתוח, קודק האודיו החדש בשימוש של Google Duo, כך שמפתחים אחרים יכולים להשתמש בו באפליקציות התקשורת שלהם. המהדורה מגיעה עם כלים הדרושים לקידוד ולפענוח אודיו עם Lyra והיא מותאמת ל-64-bit ARM Android עם פיתוח על לינוקס. ספריית הקוד הפתוח מתמקדת בשימוש בליירה לתקשורת קולית בזמן אמת, אבל גוגל כן מצפים מהמפתחים להחיל את ה-codec על יישומים אחרים שמקודדים ומפענחים דיבור שֶׁמַע. הקוד כתוב ב-C++ וה-API הליבה, שרשרת הכלים לעיבוד אותות ואפליקציית אנדרואיד הדגמה זמינים כעת ב- GitHub כגרסת בטא תחת רישיון Apache.