Google Duo folosește un codec nou pentru o calitate mai bună a apelurilor în cazul conexiunilor slabe

Google a dezvoltat Lyra, un codec cu rată de biți scăzută pentru compresia vorbirii, care își propune să îmbunătățească considerabil calitatea vocii în aplicații precum Google Duo.

Actualizare 1 (04.09.2021 la 15:45 ET): Google a lansat codul sursă pentru Lyra, noul codec de vorbire cu rată redusă de biți utilizat de Google Duo. Faceți clic pe AICI pentru mai multe informații. Articolul, publicat pe 1 martie 2021, este păstrat mai jos.

În timp ce operatorii americani sunt ocupați să își comercializeze noile rețele 5G, realitatea este că marea majoritate a oamenilor nu vor experimenta vitezele anunțate. Există încă multe părți ale S.U.A. - și din întreaga lume - unde vitezele datelor sunt lente, așa că pentru a compensa, servicii precum Google Duo folosesc tehnici de compresie pentru a oferi în mod eficient cele mai bune videoclipuri și sunet posibile experienţă. Google testează acum un nou codec audio care urmărește să îmbunătățească substanțial calitatea audio pe conexiuni de rețea slabe.

Într-o postare pe blog, echipa Google AI detaliază noul său codec de vorbire de înaltă calitate, cu o rată de biți foarte scăzută, pe care l-au numit „Lyra”. Ca și tradițional codecuri parametrice, arhitectura de bază a Lyrei implică extragerea de atribute distinctive de vorbire (cunoscute și sub numele de „funcții”) în formă de log mel spectrograme care sunt apoi comprimate, transmise prin rețea și recreate la celălalt capăt folosind un model generativ. Spre deosebire de codec-urile parametrice tradiționale, Lyra folosește un nou model generativ audio de înaltă calitate, care nu este este capabil să extragă doar parametrii critici din vorbire, dar este și capabil să reconstruiască vorbirea folosind cantități minime de date. Noul model generativ folosit în Lyra se bazează pe cel de la Google munca anterioară pe WaveNetEQ, sistemul generativ de ascundere a pierderii de pachete bazat pe modele utilizat în prezent în Google Duo.

Arhitectura de bază a Lyrei. Sursa: Google

Google spune că abordarea sa a făcut ca Lyra să fie la egalitate cu codecurile de formă de undă de ultimă generație utilizate în multe platforme de transmisie și comunicare în prezent. Avantajul Lyra față de aceste codecuri de formă de undă de ultimă generație, conform Google, este că Lyra nu trimite semnalul eșantion cu eșantion, ceea ce necesită o rată de biți mai mare (și, prin urmare, mai multe date). Pentru a depăși problemele de complexitate computațională ale rulării unui model generativ pe dispozitiv, Google spune că Lyra utilizează un „model generativ recurent mai ieftin” care funcționează „la o rată mai mică”, dar generează mai multe semnale la diferite game de frecvență în paralel, care sunt ulterior combinate „într-un singur semnal de ieșire la rata de eșantionare dorită”. Rularea acestui model generativ pe un dispozitiv de gamă medie în timp real produce o latență de procesare de 90 ms, despre care Google spune că este „în conformitate cu alte cuvinte tradiționale”. codecuri."

Împreună cu codecul AV1 pentru video, Google spune că chat-urile video pot avea loc chiar și pentru utilizatorii pe un vechi modem cu apelare de 56 kbps. Acest lucru se datorează faptului că Lyra este proiectat să funcționeze în medii cu lățime de bandă foarte restrânsă, cum ar fi 3 kbps. Potrivit Google, Lyra depășește cu ușurință codecul Opus cu sursă deschisă fără drepturi de autor, precum și alte codecuri precum Speex, MELP și AMR la rate de biți foarte mici. Iată câteva exemple de vorbire oferite de Google. Cu excepția sunetului codificat în Lyra, fiecare dintre mostrele de vorbire suferă de o calitate audio degradată la rate de biți foarte mici.

Discurs curat

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Mediu zgomotos

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google spune că a antrenat-o pe Lyra „cu mii de ore de sunet cu difuzoare în peste 70 de limbi folosind biblioteci audio open-source și apoi verificând sunetul. calitate cu ascultători experți și participanți.” Ca atare, noul codec este deja lansat în Google Duo pentru a îmbunătăți calitatea apelurilor pe o lățime de bandă foarte mică. conexiuni. În timp ce Lyra vizează în prezent cazuri de utilizare a vorbirii, Google explorează cum să o transforme într-un codec audio de uz general.

Actualizare 1: Codecul Lyra cu sursă deschisă Google utilizat în Google Duo

La începutul acestei săptămâni, Google a anunţat că avea Lyra cu sursă deschisă, noul codec audio folosit de Google Duo, astfel încât alți dezvoltatori să îl poată utiliza în propriile aplicații de comunicare. Versiunea vine cu instrumentele necesare pentru a codifica și decoda audio cu Lyra și este optimizată pentru Android ARM pe 64 de biți cu dezvoltare pe Linux. Biblioteca open-source se concentrează pe utilizarea Lyra pentru comunicarea vocală în timp real, dar Google este așteaptă ca dezvoltatorii să aplice codecul altor aplicații care codifică și decodifică vorbirea audio. Codul este scris în C++, iar API-ul de bază, lanțul de instrumente de procesare a semnalului și o aplicație demonstrativă pentru Android sunt acum disponibile pe GitHub ca versiune beta sub licența Apache.