Google Duo използва нов кодек за по-добро качество на разговорите при лоши връзки

Google разработи Lyra, кодек с нисък битрейт за компресиране на реч, който има за цел значително да подобри качеството на гласа в приложения като Google Duo.

Актуализация 1 (09.04.2021 г. в 15:45 ET): Google пусна изходния код за Lyra, новия говорен кодек с нисък битрейт, използван от Google Duo. Щракнете тук за повече информация. Статията, публикувана на 1 март 2021 г., е запазена по-долу.

Докато американските превозвачи са заети с маркетинга на новите си 5G мрежи, реалността е, че по-голямата част от хората няма да изпитат рекламираните скорости. Все още има много части на САЩ - и по света - където скоростите на данни са бавни, така че за компенсация, услуги като Google Duo използват техники за компресиране, за да предоставят ефективно възможно най-доброто видео и аудио опит. Сега Google тества нов аудио кодек, който има за цел да подобри значително качеството на звука при лоши мрежови връзки.

В публикация в блог, екипът на Google AI описва своя нов висококачествен кодек за говор с много ниска скорост на предаване, който са нарекли „Lyra“. Като традиционен параметрични кодеци, основната архитектура на Lyra включва извличане на отличителни речеви атрибути (известни също като "функции") в форма на

log mel спектрограми които след това се компресират, предават по мрежата и се пресъздават на другия край с помощта на генеративен модел. За разлика от по-традиционните параметрични кодеци обаче, Lyra използва нов висококачествен аудио генериращ модел, който не е способен само да извлича критични параметри от речта, но също така е в състояние да реконструира реч, използвайки минимални количества данни. Новият генеративен модел, използван в Lyra, се основава на този на Google предишна работа по WaveNetEQ, базираната на генеративен модел система за прикриване на загуба на пакети, използвана в момента в Google Duo.

Основната архитектура на Лира. Източник: Google

Google казва, че неговият подход е направил Lyra наравно с най-съвременните кодеци за вълнови форми, използвани в много платформи за стрийминг и комуникация днес. Предимството на Lyra пред тези най-съвременни кодеци за вълнови форми, според Google, е, че Lyra не изпраща сигнала проба по проба, което изисква по-висок битрейт (и следователно повече данни). За да преодолее притесненията относно изчислителната сложност на изпълнението на генеративен модел на устройството, Google казва, че Lyra използва „по-евтин повтарящ се генеративен модел“, който работи „при по-ниска скорост", но генерира множество сигнали в различни честотни диапазони паралелно, които по-късно се комбинират "в един изходен сигнал с желаната честота на дискретизация". Изпълнението на този генеративен модел на устройство от среден клас в реално време води до латентност на обработката от 90 ms, което според Google е „в съответствие с друга традиционна реч кодеци."

Сдвоени с AV1 кодек за видео, Google казва, че видео чатовете могат да се провеждат дори за потребители на древен 56kbps модем за набиране. Това е така, защото Lyra е проектирана да работи в среди със силно ограничена честотна лента, като например 3kbps. Според Google Lyra лесно превъзхожда безплатния кодек Opus с отворен код, както и други кодеци като Speex, MELP и AMR при много ниски битрейтове. Ето някои примери за реч, предоставени от Google. С изключение на звука, кодиран в Lyra, всяка от пробите на говор страда от влошено качество на звука при много ниски битрейтове.

Чиста реч

Оригинален

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Шумна среда

Оригинален

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google казва, че е обучил Lyra „с хиляди часове аудио с високоговорители на над 70 езика, използвайки аудио библиотеки с отворен код и след това проверявайки аудиото качество с експертни и привлечени слушатели." Като такъв, новият кодек вече се разпространява в Google Duo, за да подобри качеството на разговорите при много ниска честотна лента връзки. Докато Lyra в момента е насочена към случаи на използване на говор, Google проучва как да я превърне в аудио кодек с общо предназначение.

Актуализация 1: Кодек Lyra с отворен код на Google, използван в Google Duo

По-рано тази седмица Google обяви че има Lyra с отворен код, новият аудио кодек, използван от Google Duo, така че други разработчици да могат да го използват в собствените си приложения за комуникация. Изданието идва с инструменти, необходими за кодиране и декодиране на аудио с Lyra и е оптимизирано за 64-битов ARM Android с разработка на Linux. Библиотеката с отворен код се фокусира върху използването на Lyra за гласова комуникация в реално време, но Google е очаква разработчиците да прилагат кодека към други приложения, които кодират и декодират речта аудио. Кодът е написан на C++ и основният API, инструменталната верига за обработка на сигнали и демо приложение за Android вече са налични на GitHub като бета версия под лиценза на Apache.