Гоогле Дуо користи нови кодек за бољи квалитет позива преко лоших веза

click fraud protection

Гоогле је развио Лира, кодек ниске брзине преноса за компресију говора који има за циљ да значајно побољша квалитет гласа у апликацијама као што је Гоогле Дуо.

Ажурирање 1 (04.9.2021. у 15:45 ЕТ): Гоогле је објавио изворни код за Лира, нови говорни кодек ниске брзине у битовима који користи Гоогле Дуо. Кликните овде за више информација. Чланак, објављен 1. марта 2021, сачуван је у наставку.

Док су амерички оператери заузети маркетингом својих нових 5Г мрежа, реалност је да велика већина људи неће искусити рекламиране брзине. Још увек постоје многи делови САД — и широм света — где су брзине података споре, тако да компензирамо, услуге као што је Гоогле Дуо користе технике компресије да би ефикасно испоручиле најбољи могући видео и аудио искуство. Гоогле сада тестира нови аудио кодек који има за циљ да значајно побољша квалитет звука на лошим мрежним везама.

У посту на блогу, Гоогле АИ тим описује свој нови висококвалитетни говорни кодек са веома ниском брзином у битовима који су назвали „Лира“. Као традиционално параметарски кодеци, основна архитектура Лира укључује издвајање карактеристичних говорних атрибута (такође познатих као „карактеристике“) у облик

лог мел спектрограма који се затим компримују, преносе преко мреже и поново креирају на другом крају користећи генеративни модел. Међутим, за разлику од традиционалнијих параметарских кодека, Лира користи нови висококвалитетни аудио генеративни модел који није може само да издвоји критичне параметре из говора, али такође може да реконструише говор користећи минималне количине података. Нови генеративни модел који се користи у Лири надовезује се на Гоогле-ов претходни рад на ВавеНетЕК, систем за прикривање губитка пакета заснован на генеративном моделу који се тренутно користи у Гоогле Дуо-у.

Лирина основна архитектура. Извор: Гугл

Гугл каже да је његов приступ учинио Лира-у у рангу са најсавременијим кодецима таласних облика који се данас користе у многим платформама за стриминг и комуникацију. Предност Лире у односу на ове најсавременије кодеке таласног облика, према Гуглу, је у томе што Лира не шаље сигнал узорак по узорак, што захтева већи битрате (а самим тим и више података). Да би се превазишао проблем рачунске сложености покретања генеративног модела на уређају, Гоогле каже да Лира користи „јефтинији рекурентни генеративни модел“ који ради „на нижу брзину“, али паралелно генерише више сигнала у различитим фреквентним опсезима који се касније комбинују „у један излазни сигнал са жељеном брзином узорковања“. Покретање овог генеративног модела на уређају средњег домета у реалном времену даје латенцију обраде од 90 мс, за коју Гоогле каже да је „у складу са другим традиционалним говором кодеци."

Упарено са АВ1 кодек за видео, Гоогле каже да се видео ћаскања могу одвијати чак и за кориснике на древном 56кбпс модему за бирање. То је зато што је Лира дизајнирана да ради у окружењима са јако ограниченим пропусним опсегом као што је 3 кбпс. Према Гоогле-у, Лира лако надмашује Опен-соурце кодек Опус без накнаде, као и друге кодеке као што су Спеек, МЕЛП и АМР при веома малим брзинама. Ево неких примера говора које је обезбедио Гоогле. Осим звука кодираног у Лири, сваки од узорака говора пати од деградираног квалитета звука при веома малим брзинама.

Чист говор

Оригинал

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Опус@6кбпс

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Лира@3кбпс

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Спеек@3кбпс

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Ноиси Енвиронмент

Оригинал

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Опус@6кбпс

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Лира@3кбпс

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Спеек@3кбпс

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Гоогле каже да је обучио Лира "са хиљадама сати звука са звучницима на преко 70 језика користећи аудио библиотеке отвореног кода, а затим верификујући аудио квалитет са стручним слушаоцима и слушаоцима из групе." Као такав, нови кодек се већ покреће у Гоогле Дуо-у како би побољшао квалитет позива на веома ниском пропусном опсегу везе. Док је Лира тренутно усмерена на случајеве употребе говора, Гоогле истражује како да је претвори у аудио кодек опште намене.


Ажурирање 1: Гоогле кодек Лира отвореног кода који се користи у Гоогле Дуо-у

Раније ове недеље, Гоогле најавио да је имао Лира отвореног кода, нови аудио кодек који користи Гоогле Дуо, тако да други програмери могу да га користе у својим апликацијама за комуникацију. Издање долази са алатима потребним за кодирање и декодирање звука помоћу Лире и оптимизовано је за 64-битни АРМ Андроид са развојем на Линук-у. Библиотека отвореног кода се фокусира на коришћење Лире за гласовну комуникацију у реалном времену, али Гоогле јесте очекујући да ће програмери применити кодек на друге апликације које кодирају и декодирају говор аудио. Код је написан на Ц++, а основни АПИ, ланац алата за обраду сигнала и демо Андроид апликација су сада доступни на ГитХуб као бета издање под лиценцом Апацхе.