قامت Google بتطوير Lyra، وهو برنامج ترميز منخفض معدل البت لضغط الكلام يهدف إلى تحسين جودة الصوت بشكل كبير في تطبيقات مثل Google Duo.
التحديث 1 (04/09/2021 @ 03:45 مساءً بالتوقيت الشرقي): أصدرت Google الكود المصدري لبرنامج Lyra، وهو برنامج ترميز الكلام ذو معدل البت المنخفض الجديد الذي يستخدمه Google Duo. انقر هنا للمزيد من المعلومات. المقال كما نشر بتاريخ 1 مارس 2021 محفوظ أدناه.
بينما تنشغل شركات النقل الأمريكية بتسويق شبكات 5G الجديدة الخاصة بها، فإن الحقيقة هي أن الغالبية العظمى من الناس لن يجربوا السرعات المعلن عنها. لا تزال هناك أجزاء كثيرة من الولايات المتحدة - وفي جميع أنحاء العالم - حيث تكون سرعات البيانات بطيئة، لذا للتعويض، تستخدم خدمات مثل Google Duo تقنيات الضغط لتقديم أفضل فيديو وصوت ممكن بكفاءة خبرة. تختبر Google الآن برنامج ترميز صوتي جديد يهدف إلى تحسين جودة الصوت بشكل كبير في اتصالات الشبكة الضعيفة.
في تدوينة، يقدم فريق Google AI تفاصيل برنامج ترميز الكلام الجديد عالي الجودة ومعدل البت المنخفض جدًا الذي أطلقوا عليه اسم "Lyra". مثل التقليدية من خلال برامج الترميز البارامترية، تتضمن البنية الأساسية لـ Lyra استخراج سمات الكلام المميزة (المعروفة أيضًا باسم "الميزات") في شكل
تسجيل الطيف الطيفي ميل والتي يتم ضغطها بعد ذلك، ونقلها عبر الشبكة، وإعادة إنشائها على الطرف الآخر باستخدام نموذج توليدي. على عكس برامج الترميز البارامترية التقليدية، تستخدم Lyra نموذجًا جديدًا لتوليد الصوت عالي الجودة وهو ليس كذلك قادر فقط على استخراج المعلمات المهمة من الكلام ولكنه قادر أيضًا على إعادة بناء الكلام باستخدام كميات قليلة من بيانات. يعتمد النموذج التوليدي الجديد المستخدم في Lyra على نموذج Google العمل السابق على WaveNetEQ، وهو نظام إخفاء فقدان الحزم القائم على النموذج المستخدم حاليًا في Google Duo.تقول Google إن نهجها جعل Lyra على قدم المساواة مع أحدث برامج الترميز الموجية المستخدمة في العديد من منصات البث والاتصالات اليوم. إن فائدة Lyra مقارنة ببرامج الترميز الموجية المتطورة هذه، وفقًا لـ Google، هي أن Lyra لا ترسل عينة تلو الأخرى من الإشارة، الأمر الذي يتطلب معدل بت أعلى (وبالتالي المزيد من البيانات). للتغلب على مخاوف التعقيد الحسابي لتشغيل نموذج توليدي على الجهاز، تقول جوجل إن Lyra تستخدم "نموذجًا توليديًا متكررًا أرخص" يعمل "في بمعدل أقل" ولكنه يولد إشارات متعددة بنطاقات تردد مختلفة بالتوازي والتي يتم دمجها لاحقًا "في إشارة خرج واحدة بمعدل العينة المطلوب." يؤدي تشغيل هذا النموذج التوليدي على جهاز متوسط المدى في الوقت الفعلي إلى زمن وصول معالجة يصل إلى 90 مللي ثانية، وهو ما تقول Google إنه "يتماشى مع الكلام التقليدي الآخر برامج الترميز."
يقترن برنامج الترميز AV1 للفيديوتقول Google إن محادثات الفيديو يمكن إجراؤها حتى بالنسبة للمستخدمين المتصلين بمودم اتصال قديم بسرعة 56 كيلوبت في الثانية. وذلك لأن Lyra مصمم للعمل في بيئات ذات نطاق ترددي محدود للغاية مثل 3 كيلوبت في الثانية. وفقًا لشركة Google، تتفوق Lyra بسهولة على برنامج ترميز Opus مفتوح المصدر الخالي من حقوق الملكية بالإضافة إلى برامج الترميز الأخرى مثل Speex وMELP وAMR بمعدلات بت منخفضة جدًا. فيما يلي بعض نماذج الكلام المقدمة من Google. باستثناء الصوت المشفر في Lyra، تعاني كل عينة من عينات الكلام من انخفاض جودة الصوت بمعدلات بت منخفضة للغاية.
خطاب نظيف
إبداعي
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
أوبوس @ 6 كيلو بايت في الثانية
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
ليرا بسرعة 3 كيلوبت في الثانية
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
سبيكس بسرعة 3 كيلوبت في الثانية
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
بيئة صاخبة
إبداعي
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
أوبوس @ 6 كيلو بايت في الثانية
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
ليرا بسرعة 3 كيلوبت في الثانية
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
سبيكس بسرعة 3 كيلوبت في الثانية
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
تقول Google إنها دربت Lyra "بآلاف الساعات من الصوت مع مكبرات صوت بأكثر من 70 لغة باستخدام مكتبات صوتية مفتوحة المصدر ثم التحقق من الصوت الجودة مع مستمعين خبراء ومصادر جماعية." وعلى هذا النحو، يتم طرح برنامج الترميز الجديد بالفعل في Google Duo لتحسين جودة الاتصال على النطاق الترددي المنخفض للغاية. روابط. وبينما يستهدف Lyra حاليًا حالات استخدام الكلام، تستكشف Google كيفية تحويله إلى برنامج ترميز صوتي للأغراض العامة.
التحديث 1: برنامج ترميز Lyra مفتوح المصدر من Google المستخدم في Google Duo
في وقت سابق من هذا الأسبوع، جوجل أعلن أنها تحتوي على Lyra مفتوح المصدر، وهو برنامج ترميز الصوت الجديد الذي يستخدمه Google Duo، حتى يتمكن المطورون الآخرون من استخدامه في تطبيقات الاتصال الخاصة بهم. يأتي الإصدار مزودًا بالأدوات اللازمة لتشفير الصوت وفك تشفيره باستخدام Lyra، وهو مُحسّن لنظام التشغيل ARM Android 64 بت مع التطوير على Linux. تركز المكتبة مفتوحة المصدر على استخدام Lyra للاتصالات الصوتية في الوقت الفعلي، لكن Google كذلك نتوقع أن يقوم المطورون بتطبيق برنامج الترميز على التطبيقات الأخرى التي تقوم بتشفير الكلام وفك تشفيره صوتي. تمت كتابة الكود بلغة C++، وتتوفر الآن واجهة برمجة التطبيقات الأساسية وسلسلة أدوات معالجة الإشارات وتطبيق Android التجريبي جيثب كإصدار تجريبي بموجب ترخيص Apache.