يعمل نموذج التعلم الآلي الجديد من Google Duo على تحسين جودة الصوت في المكالمات

يستخدم Google Duo نموذج التعلم الآلي WaveNetEQ الجديد من Google لتحسين جودة الصوت في المكالمات عن طريق سد الفجوات ومعالجة الارتعاش.

تتمتع Google بتاريخ من قتل تطبيقات المراسلة بشكل غير سار لصالح تطبيقات الاتصالات الأحدث التي يتم قتلها أيضًا في النهاية. لقد كان Google Duo، حتى الآن، استثناءً منذ إطلاقه جنبًا إلى جنب مع Allo، خدمة المراسلة التي لم تعد موجودة الآن. لقد حظي Duo باستمرار باهتمام Google وإضافة ميزات جديدة بشكل متكرر مثل دعم 1080p على هواتف Samsung S20 5G، (القادمة) التسميات التوضيحية الحية, رسومات الشعار المبتكرة، وما يصل إلى 12 مشاركًا في مكالمة جماعية. الآن، تطبق Google التعلم الآلي للحد من المشكلة الرئيسية المتمثلة في التشويش للحصول على تجربة صوتية أكثر سلاسة ودون انقطاع.

أصبحت مكالمات الفيديو وسيلة حيوية للتواصل الرسمي خلال فترة الحجر الصحي بسبب فيروس كورونا (COVID-19)، وقد يكلفك الصوت المزعج أنت أو شركتك ماليًا. تقر Google بأن 99% من المكالمات على Duo تعاني من انقطاعات بسبب تأخيرات الشبكة. يعاني حوالي خُمس هذه المكالمات من فقدان الصوت بنسبة 3% بينما يفقد عُشر هذه المكالمات ما يقرب من 8% من الصوت، وقد يكون الكثير منها عبارة عن معلومات مهمة للغاية ينتهي بك الأمر إلى فقدها. يحدث هذا عندما يتم تأخير حزم البيانات أو فقدانها أثناء الإرسال، ويؤدي غياب هذه الحزم إلى حدوث خلل في الصوت، مما يجعل الكثير منه غير مفهوم.

تعمل خوارزمية التعلم الآلي WaveNetEQ الجديدة من Google على تقنية تسمى "إخفاء فقدان الحزمة" (PLC). WaveNet EQ هو نموذج توليدي يعتمد على ديب مايندWaveRNN وينشئ مقاطع صوتية لسد الفجوات باستخدام مواد حشو واقعية. تم تدريب نموذج الذكاء الاصطناعي من خلال تغذية مجموعة كبيرة من البيانات المتعلقة بالكلام. نظرًا للتشفير الشامل في Google Duo، يعمل النموذج على جهاز المتلقي. لكن جوجل تدعي أنه "سريع بما يكفي للتشغيل على الهاتف، مع الاستمرار في توفير جودة صوت عالية الجودة."

يعتمد WaveRRN على نموذج تحويل النص إلى كلام، وإلى جانب تدريبه على "ما يجب قوله"، فقد تم تدريبه أيضًا على "كيفية قول" الأشياء. فهو يحلل المدخلات بفهم صوتي قوي للتنبؤ بالأصوات في المستقبل القريب. إلى جانب سد الفجوات، ينتج النموذج أيضًا صوتًا فائضًا في شكل موجة خام ليتداخل مع الجزء الذي يتبع الارتعاش. تتداخل هذه الإشارة مع الصوت الفعلي مع قليل من التلاشي المتقاطع وتؤدي إلى انتقال أكثر سلاسة.

تم تدريب نموذج WaveNetEQ الخاص بـ Google Duo على 48 لغة يغذيها 100 فرد حتى يتمكن من تعلم الخصائص العامة للصوت البشري بدلاً من لغة واحدة فقط. تم تدريب النموذج على إنتاج مقاطع لفظية في الغالب ويمكنه ملء فجوات يصل طولها إلى 120 مللي ثانية.

الميزة متاحة بالفعل على Google Pixel 4 ويتم طرحها الآن على أجهزة Android الأخرى.


مصدر: مدونة جوجل للذكاء الاصطناعي