Google Duo koristi novi kodek za bolju kvalitetu poziva preko loših veza

click fraud protection

Google je razvio Lyra, kodek niske brzine prijenosa za kompresiju govora koji ima za cilj znatno poboljšati kvalitetu glasa u aplikacijama kao što je Google Duo.

Ažuriranje 1 (04/09/2021 @ 15:45 ET): Google je objavio izvorni kod za Lyra, novi govorni kodek niske brzine prijenosa koji koristi Google Duo. Kliknite ovdje za više informacija. Članak, kako je objavljen 1. ožujka 2021., sačuvan je u nastavku.

Dok su američki operateri zauzeti marketingom svojih novih 5G mreža, realnost je da velika većina ljudi neće iskusiti reklamirane brzine. Još uvijek postoje mnogi dijelovi SAD-a - i diljem svijeta - gdje su podatkovne brzine niske, pa da to kompenziramo, usluge kao što je Google Duo koriste tehnike kompresije za učinkovitu isporuku najboljeg mogućeg videa i zvuka iskustvo. Google sada testira novi audio kodek koji ima za cilj značajno poboljšati kvalitetu zvuka na lošim mrežnim vezama.

U objavi na blogu, Googleov AI tim opisuje svoj novi visokokvalitetni govorni kodek s vrlo niskom brzinom prijenosa koji su nazvali "Lyra". Kao tradicionalno parametarski kodeci, Lyrina osnovna arhitektura uključuje izdvajanje karakterističnih govornih atributa (također poznatih kao "značajke") u oblik

log mel spektrogrami koji se zatim komprimiraju, prenose preko mreže i ponovno stvaraju na drugom kraju pomoću generativnog modela. Međutim, za razliku od tradicionalnijih parametarskih kodeka, Lyra koristi novi audio generativni model visoke kvalitete koji nije može samo izdvojiti kritične parametre iz govora, ali također može rekonstruirati govor koristeći minimalne količine podaci. Novi generativni model korišten u Lyri temelji se na Googleovom prethodni rad na WaveNetEQ, generativni sustav za prikrivanje gubitka paketa koji se trenutno koristi u Google Duo.

Lyrina osnovna arhitektura. Izvor: Google

Google kaže da je svojim pristupom Lyru izjednačio s najsuvremenijim kodecima valnog oblika koji se danas koriste u mnogim streaming i komunikacijskim platformama. Prednost Lyre u odnosu na ove najsuvremenije kodeke valnog oblika, prema Googleu, jest ta da Lyra ne šalje signal uzorak po uzorak, što zahtijeva veću brzinu prijenosa (a time i više podataka). Kako bi prevladao probleme računalne složenosti pokretanja generativnog modela na uređaju, Google kaže da Lyra koristi "jeftiniji rekurentni generativni model" koji radi "na niža brzina", ali paralelno generira više signala na različitim frekvencijskim rasponima koji se kasnije kombiniraju "u jedan izlazni signal na željenoj brzini uzorkovanja". Pokretanje ovog generativnog modela na uređaju srednje klase u stvarnom vremenu daje latenciju obrade od 90 ms, za što Google kaže da je "u skladu s drugim tradicionalnim govorom kodeci."

Uparen sa AV1 kodek za video, Google kaže da se video chatovi mogu odvijati čak i za korisnike na starom 56kbps dial-in modemu. To je zato što je Lyra dizajnirana za rad u okruženjima s ograničenom propusnošću kao što je 3kbps. Prema Googleu, Lyra lako nadmašuje besplatni kodek otvorenog koda Opus, kao i druge kodeke kao što su Speex, MELP i AMR pri vrlo niskim brzinama prijenosa. Evo nekoliko uzoraka govora koje je dostavio Google. Osim zvuka kodiranog u Lyri, svaki od uzoraka govora pati od degradirane kvalitete zvuka pri vrlo niskim brzinama prijenosa.

Čist govor

Izvornik

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Bučno okruženje

Izvornik

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google kaže da je obučavao Lyru "tisućama sati zvuka sa govornicima na više od 70 jezika koristeći audio knjižnice otvorenog koda i zatim provjeravajući zvuk kvaliteta sa stručnim slušateljima i slušateljima iz mnoštva." Kao takav, novi kodek već se uvodi u Google Duo kako bi poboljšao kvalitetu poziva na vrlo maloj propusnosti veze. Dok je Lyra trenutačno usmjerena na slučajeve govorne upotrebe, Google istražuje kako od nje napraviti audio kodek opće namjene.


1. ažuriranje: Google Lyra kodek otvorenog koda koji se koristi u Google Duo

Ranije ovog tjedna, Google najavio da je imao otvoreni kodek Lyra, novi audio kodek koji koristi Google Duo, tako da ga drugi programeri mogu koristiti u svojim komunikacijskim aplikacijama. Izdanje dolazi s alatima potrebnim za kodiranje i dekodiranje zvuka s Lyrom i optimizirano je za 64-bitni ARM Android s razvojem na Linuxu. Knjižnica otvorenog koda fokusirana je na korištenje Lyre za glasovnu komunikaciju u stvarnom vremenu, ali Google je očekujući da će programeri primijeniti kodek na druge aplikacije koje kodiraju i dekodiraju govor audio. Kod je napisan u C++, a temeljni API, alatni lanac za obradu signala i demo Android aplikacija sada su dostupni na GitHub kao beta izdanje pod Apache licencom.