Google vyvinul Lyra, kodek s nízkou bitovou rýchlosťou na kompresiu reči, ktorého cieľom je výrazne zlepšiť kvalitu hlasu v aplikáciách, ako je Google Duo.
Aktualizácia 1 (4. 9. 2021 o 15:45 ET): Google zverejnil zdrojový kód pre Lyra, nový kodek reči s nízkou bitovou rýchlosťou, ktorý používa Google Duo. Pre viac informácií kliknite sem. Článok v znení zverejnenom 1. marca 2021 je zachovaný nižšie.
Zatiaľ čo americkí operátori sú zaneprázdnení marketingom svojich nových sietí 5G, realita je taká, že drvivá väčšina ľudí nezažije inzerované rýchlosti. Stále existuje veľa častí USA – a po celom svete – kde sú rýchlosti dát pomalé, aby sme to kompenzovali, služby ako Google Duo využívajú kompresné techniky na efektívne poskytovanie najlepšieho možného videa a zvuku skúsenosti. Google teraz testuje nový zvukový kodek, ktorého cieľom je podstatne zlepšiť kvalitu zvuku pri slabom sieťovom pripojení.
V blogovom príspevku, tím Google AI podrobne opisuje svoj nový vysokokvalitný kodek reči s veľmi nízkou bitovou rýchlosťou, ktorý nazvali „Lyra“. Ako tradičné parametrické kodeky, základná architektúra Lyry zahŕňa extrakciu charakteristických rečových atribútov (známych aj ako „vlastnosti“) v forma
log mel spektrogramy ktoré sú potom komprimované, prenesené cez sieť a znovu vytvorené na druhom konci pomocou generatívneho modelu. Na rozdiel od tradičnejších parametrických kodekov však Lyra používa nový vysokokvalitný audio generatívny model, ktorý ním nie je dokáže z reči extrahovať iba kritické parametre, ale dokáže aj rekonštruovať reč s použitím minimálnych množstiev údajov. Nový generatívny model použitý v Lyre stavia na Google predchádzajúca práca na WaveNetEQ, generatívny modelový systém na zakrytie straty paketov, ktorý sa v súčasnosti používa v Google Duo.Google tvrdí, že jeho prístup urobil Lyru na rovnakej úrovni ako najmodernejšie kodeky s priebehom, ktoré sa dnes používajú na mnohých streamovacích a komunikačných platformách. Výhodou Lyry oproti týmto najmodernejším kodekom s priebehom je podľa Google to, že Lyra neposiela signál vzorka po vzorke, čo si vyžaduje vyššiu bitovú rýchlosť (a teda viac dát). Na prekonanie problémov s výpočtovou zložitosťou spustenia generatívneho modelu na zariadení Google hovorí, že Lyra používa „lacnejší rekurentný generatívny model“, ktorý funguje „na nižšia frekvencia", ale paralelne generuje viacero signálov v rôznych frekvenčných rozsahoch, ktoré sa neskôr spoja „do jedného výstupného signálu s požadovanou vzorkovacou frekvenciou." Spustenie tohto generatívneho modelu na zariadení strednej triedy v reálnom čase poskytuje latenciu spracovania 90 ms, čo je podľa Googlu „v súlade s inou tradičnou rečou. kodeky."
Spárované s kodek AV1 pre video, Google hovorí, že videorozhovory môžu prebiehať aj pre používateľov so starým 56kbps modemom. Je to preto, že Lyra je navrhnutá tak, aby fungovala v prostrediach s obmedzenou šírkou pásma, ako napríklad 3 kbps. Podľa Google Lyra ľahko prekonáva bezplatný open-source kodek Opus, ako aj iné kodeky ako Speex, MELP a AMR pri veľmi nízkych bitových rýchlostiach. Tu je niekoľko ukážok reči poskytnutých spoločnosťou Google. S výnimkou zvuku kódovaného v Lyre, každá zo vzoriek reči trpí zhoršenou kvalitou zvuku pri veľmi nízkych bitových rýchlostiach.
Čistá reč
Originál
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3 kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Speex@3 kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Hlučné prostredie
Originál
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3 kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Speex@3 kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google hovorí, že vyškolil Lyru „tisíckami hodín zvuku s reproduktormi vo viac ako 70 jazykoch pomocou audio knižníc s otvoreným zdrojom a následným overením zvuku kvalita s odbornými a crowdsourcingovými poslucháčmi." Nový kodek ako taký sa už zavádza v aplikácii Google Duo s cieľom zlepšiť kvalitu hovorov pri veľmi nízkej šírke pásma spojenia. Zatiaľ čo Lyra je v súčasnosti zameraná na prípady použitia reči, Google skúma, ako z nej urobiť univerzálny zvukový kodek.
Aktualizácia 1: Kodek Google s otvoreným zdrojom Lyra používaný v Google Duo
Začiatkom tohto týždňa Google oznámil že má otvorený zdrojový kód Lyra, nový zvukový kodek používaný službou Google Duo, takže ho ostatní vývojári môžu používať vo svojich vlastných komunikačných aplikáciách. Vydanie prichádza s nástrojmi potrebnými na kódovanie a dekódovanie zvuku pomocou Lyry a je optimalizované pre 64-bitový ARM Android s vývojom na Linuxe. Knižnica s otvoreným zdrojovým kódom sa zameriava na využitie Lyry na hlasovú komunikáciu v reálnom čase, no Google áno Očakáva sa, že vývojári použijú kodek na iné aplikácie, ktoré kódujú a dekódujú reč audio. Kód je napísaný v C++ a základné API, reťazec nástrojov na spracovanie signálu a ukážková aplikácia pre Android sú teraz k dispozícii na GitHub ako beta vydanie pod licenciou Apache.