Google Duo использует новый кодек для улучшения качества связи при плохом соединении

Google разработал Lyra, кодек с низким битрейтом для сжатия речи, целью которого является значительное улучшение качества голоса в таких приложениях, как Google Duo.

Обновление 1 (09.04.2021, 15:45 по восточному времени): Google опубликовал исходный код Lyra, нового речевого кодека с низким битрейтом, используемого Google Duo. Для получения дополнительной информации нажмите здесь. Статья в редакции, опубликованной 1 марта 2021 года, сохранена ниже.

В то время как американские операторы связи заняты маркетингом своих новых сетей 5G, реальность такова, что подавляющее большинство людей не ощутят рекламируемые скорости. Во многих частях США и по всему миру по-прежнему существует низкая скорость передачи данных, поэтому, чтобы компенсировать это, такие сервисы, как Google Duo, используют методы сжатия для эффективной передачи видео и аудио наилучшего качества. опыт. В настоящее время Google тестирует новый аудиокодек, целью которого является существенное улучшение качества звука при плохом сетевом соединении.

В сообщении в блоге, команда Google AI подробно описывает свой новый высококачественный речевой кодек с очень низким битрейтом, который они назвали «Lyra». Как традиционный параметрических кодеках, базовая архитектура Lyra включает извлечение отличительных атрибутов речи (также известных как «функции») в форма логарифмические спектрограммы которые затем сжимаются, передаются по сети и воссоздаются на другом конце с использованием генеративной модели. Однако, в отличие от более традиционных параметрических кодеков, Lyra использует новую модель генерации высококачественного звука, которая не является способен не только извлекать критические параметры из речи, но также способен восстанавливать речь, используя минимальное количество данные. Новая генеративная модель, используемая в Lyra, основана на Google предыдущая работа над WaveNetEQ, система сокрытия потери пакетов на основе генеративной модели, которая в настоящее время используется в Google Duo.

Базовая архитектура Лиры. Источник: Гугл

Google утверждает, что ее подход поставил Lyra в один ряд с современными кодеками сигналов, используемыми сегодня во многих потоковых и коммуникационных платформах. По мнению Google, преимущество Lyra перед этими современными кодеками сигналов заключается в том, что Lyra не передает сигнал выборка за выборкой, что требует более высокого битрейта (и, следовательно, большего количества данных). Чтобы преодолеть проблемы вычислительной сложности, связанные с запуском генеративной модели на устройстве, Google утверждает, что Лира использует «более дешевую рекуррентную генеративную модель», которая работает «на более низкая частота», но параллельно генерирует несколько сигналов в разных частотных диапазонах, которые позже объединяются «в один выходной сигнал с желаемой частотой дискретизации». Запуск этой генеративной модели на устройстве среднего класса в режиме реального времени дает задержку обработки 90 мс, что, по словам Google, «соответствует другим традиционным речевым технологиям». кодеки».

В паре с кодек AV1 для видеоGoogle утверждает, что видеочаты могут проводиться даже для пользователей, использующих древний модем с коммутируемым доступом со скоростью 56 кбит/с. Это связано с тем, что Lyra предназначена для работы в средах с сильно ограниченной пропускной способностью, например 3 Кбит/с. По данным Google, Lyra легко превосходит бесплатный кодек Opus с открытым исходным кодом, а также другие кодеки, такие как Speex, MELP и AMR, при очень низких битрейтах. Вот несколько образцов речи, предоставленных Google. За исключением звука, закодированного в Lyra, каждый из образцов речи страдает от ухудшения качества звука при очень низких битрейтах.

Чистая речь

Оригинал

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Опус@6кбит/с

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Лира@3кбит/с

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Скорость звука@3кбит/с

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Шумная среда

Оригинал

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Опус@6кбит/с

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Лира@3кбит/с

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Скорость звука@3кбит/с

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google утверждает, что обучал Лиру «тысячами часов аудио с докладчиками на более чем 70 языках, используя аудиобиблиотеки с открытым исходным кодом, а затем проверяя аудио». качество с экспертами и слушателями, привлеченными краудсорсингом». Таким образом, новый кодек уже внедряется в Google Duo для улучшения качества звонков при очень низкой пропускной способности. связи. Хотя Lyra в настоящее время нацелена на речевое использование, Google изучает, как превратить ее в аудиокодек общего назначения.

Обновление 1: кодек Google Lyra с открытым исходным кодом, используемый в Google Duo

Ранее на этой неделе Google объявлено что у него есть Lyra с открытым исходным кодом, новый аудиокодек, используемый Google Duo, поэтому другие разработчики могут использовать его в своих собственных коммуникационных приложениях. Релиз поставляется с инструментами, необходимыми для кодирования и декодирования звука с помощью Lyra, и оптимизирован для 64-битной ARM Android с разработкой для Linux. Библиотека с открытым исходным кодом ориентирована на использование Lyra для голосовой связи в реальном времени, но Google ожидая, что разработчики будут применять этот кодек к другим приложениям, которые кодируют и декодируют речь в аудио. Код написан на C++, а основной API, набор инструментов для обработки сигналов и демо-приложение для Android теперь доступны на GitHub как бета-версия под лицензией Apache.