Google Duo використовує новий кодек для кращої якості зв’язку через погане з’єднання

Google розробив Lyra, кодек із низьким бітрейтом для стиснення мовлення, який має на меті значно покращити якість голосу в таких програмах, як Google Duo.

Оновлення 1 (09.04.2021 о 15:45 за східним часом): Google опублікував вихідний код для Lyra, нового мовного кодека з низьким бітрейтом, який використовується Google Duo. Натисніть тут для отримання додаткової інформації. Нижче збережено статтю в редакції, опублікованій 1 березня 2021 року.

У той час як оператори США зайняті маркетингом своїх нових мереж 5G, реальність така, що переважна більшість людей не відчує рекламованих швидкостей. У США й у всьому світі все ще є багато регіонів, де швидкість передачі даних низька, тому, щоб компенсувати це, такі служби, як Google Duo, використовують методи стиснення для ефективної передачі найкращого відео та аудіо досвід. Зараз Google тестує новий аудіокодек, який має на меті суттєво покращити якість аудіо при поганому з’єднанні з мережею.

У дописі в блозі, команда Google AI докладно описує свій новий високоякісний мовний кодек із дуже низьким бітрейтом, який вони назвали «Lyra». Як традиційні параметричних кодеків, базова архітектура Lyra передбачає вилучення відмінних мовних атрибутів (також відомих як «функції») у форма

логарифмічні спектрограми Мел які потім стискаються, передаються через мережу та відтворюються на іншому кінці за допомогою генеративної моделі. Проте, на відміну від більш традиційних параметричних кодеків, Lyra використовує нову високоякісну генеративну модель звуку, яка не здатний лише витягувати критичні параметри з мовлення, але також здатний реконструювати мовлення, використовуючи мінімальну кількість даних. Нова генеративна модель, яка використовується в Lyra, базується на моделі Google попередня робота над WaveNetEQ, система приховування втрат пакетів на основі генеративної моделі, яка зараз використовується в Google Duo.

Основна архітектура Ліри. Джерело: Google

Google стверджує, що завдяки своєму підходу Lyra зрівнялася з найсучаснішими кодеками сигналу, які сьогодні використовуються в багатьох потокових і комунікаційних платформах. Перевага Lyra перед цими найсучаснішими кодеками форми сигналу, за словами Google, полягає в тому, що Lyra не надсилає сигнал вибірку за вибіркою, для чого потрібен вищий бітрейт (і, отже, більше даних). Щоб подолати проблеми з обчислювальною складністю запуску генеративної моделі на пристрої, Google каже, що Lyra використовує «дешевшу рекурентну генеративну модель», яка працює «на нижча швидкість", але паралельно генерує декілька сигналів у різних частотних діапазонах, які пізніше об'єднуються "в єдиний вихідний сигнал із бажаною частотою дискретизації". Запуск цієї генеративної моделі на пристрої середнього класу в режимі реального часу дає затримку обробки 90 мс, що, за словами Google, «відповідає іншим традиційним мовленням». кодеки».

У парі з кодек AV1 для відео, Google стверджує, що відеочати можуть проводитися навіть для користувачів, які використовують старий модем на 56 Кбіт/с. Це тому, що Lyra розроблена для роботи в середовищах із сильно обмеженою пропускною здатністю, як-от 3 Кбіт/с. За даними Google, Lyra легко перевершує безкоштовний кодек Opus з відкритим вихідним кодом, а також інші кодеки, такі як Speex, MELP і AMR, на дуже низьких бітрейтах. Ось деякі зразки мовлення, надані Google. За винятком аудіо, закодованого в Lyra, кожен із зразків мовлення страждає від погіршення якості звуку на дуже низьких бітрейтах.

Чиста мова

Оригінал

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Шумне середовище

Оригінал

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google каже, що навчив Lyra «тисячами годин аудіо з носіями більш ніж 70 мовами, використовуючи бібліотеки аудіо з відкритим кодом, а потім перевіряючи аудіо Якість із експертами та краудсорсинговими слухачами". Таким чином, новий кодек уже розгортається в Google Duo для покращення якості дзвінків у дуже низькій пропускній спроможності. з'єднання. Хоча Lyra наразі орієнтована на випадки використання мови, Google досліджує, як перетворити її на аудіокодек загального призначення.

Оновлення 1: відкритий кодек Google Lyra, який використовується в Google Duo

Раніше цього тижня Google оголосив що він мав відкритий вихідний код Lyra, новий аудіокодек, який використовується Google Duo, тому інші розробники можуть використовувати його у своїх власних комунікаційних програмах. Випуск містить інструменти, необхідні для кодування та декодування аудіо за допомогою Lyra, і оптимізований для 64-бітної ARM Android із розробкою на Linux. Бібліотека з відкритим вихідним кодом зосереджена на використанні Lyra для голосового спілкування в реальному часі, але Google – це очікується, що розробники застосують кодек до інших програм, які кодують і декодують мову аудіо. Код написаний мовою C++, а основний API, ланцюжок інструментів обробки сигналів і демонстраційна програма для Android тепер доступні на GitHub як бета-версія під ліцензією Apache.