Google Duo používá nový kodek pro lepší kvalitu hovoru při špatném připojení

Google vyvinul Lyra, kodek s nízkou bitovou rychlostí pro kompresi řeči, jehož cílem je výrazně zlepšit kvalitu hlasu v aplikacích, jako je Google Duo.

Aktualizace 1 (4. 9. 2021, 15:45 ET): Google zveřejnil zdrojový kód pro Lyra, nový kodek řeči s nízkou bitovou rychlostí, který používá Google Duo. Pro více informací klikněte sem. Článek ve znění zveřejněném 1. března 2021 je zachován níže.

Zatímco američtí operátoři jsou zaneprázdněni marketingem svých nových 5G sítí, realita je taková, že drtivá většina lidí inzerované rychlosti nezažije. Stále existuje mnoho částí USA – a po celém světě – kde jsou rychlosti dat pomalé, abychom to kompenzovali, služby jako Google Duo využívají kompresní techniky k efektivnímu poskytování nejlepšího možného videa a zvuku Zkušenosti. Google nyní testuje nový zvukový kodek, jehož cílem je podstatně zlepšit kvalitu zvuku na špatných síťových připojeních.

V příspěvku na blogu, tým Google AI podrobně popisuje svůj nový vysoce kvalitní kodek řeči s velmi nízkou bitovou rychlostí, který pojmenoval „Lyra“. Jako tradiční parametrické kodeky, základní architektura Lyry zahrnuje extrahování charakteristických řečových atributů (také známých jako „vlastnosti“) v druh

log mel spektrogramy které jsou poté komprimovány, přenášeny po síti a znovu vytvořeny na druhém konci pomocí generativního modelu. Na rozdíl od tradičnějších parametrických kodeků však Lyra používá nový vysoce kvalitní audio generativní model, který není dokáže pouze extrahovat kritické parametry z řeči, ale je také schopen rekonstruovat řeč s použitím minimálního množství data. Nový generativní model použitý v Lyře staví na modelu Google předchozí práce na WaveNetEQ, generativní model založený na systému zakrývání ztráty paketů, který se v současnosti používá v Google Duo.

Základní architektura Lyry. Zdroj: Google

Google říká, že jeho přístup učinil Lyru na stejné úrovni s nejmodernějšími kodeky křivek, které se dnes používají na mnoha streamovacích a komunikačních platformách. Výhoda Lyry oproti těmto nejmodernějším kodekům křivek podle Google spočívá v tom, že Lyra neposílá signál vzorek po vzorku, což vyžaduje vyšší datový tok (a tedy více dat). K překonání problémů s výpočetní složitostí při spuštění generativního modelu na zařízení používá Google Lyra „levnější rekurentní generativní model“, který funguje „na nižší rychlost", ale paralelně generuje více signálů v různých frekvenčních rozsazích, které jsou později kombinovány "do jediného výstupního signálu s požadovanou vzorkovací frekvencí." Spuštění tohoto generativního modelu na zařízení střední třídy v reálném čase poskytuje latenci zpracování 90 ms, což je podle Googlu „v souladu s jinými tradičními řečmi. kodeky."

Spárováno s kodek AV1 pro video, Google říká, že videochaty mohou probíhat i pro uživatele na starém 56kbps modemu pro telefonické připojení. Je to proto, že Lyra je navržena tak, aby fungovala v prostředí se silně omezenou šířkou pásma, jako je 3 kbps. Podle Google Lyra snadno překonává bezplatný open-source kodek Opus i další kodeky jako Speex, MELP a AMR při velmi nízkých bitratech. Zde jsou některé ukázky řeči poskytnuté společností Google. S výjimkou zvuku kódovaného v Lyře trpí každý ze vzorků řeči zhoršenou kvalitou zvuku při velmi nízkém datovém toku.

Čistá řeč

Originál

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Hlučné prostředí

Originál

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google říká, že vyškolil Lyru „s tisíci hodin zvuku s reproduktory ve více než 70 jazycích pomocí open source zvukových knihoven a poté ověřením zvuku kvalita s odbornými a crowdsourcovanými posluchači." Nový kodek se jako takový již zavádí do Google Duo, aby zlepšil kvalitu hovorů při velmi nízké šířce pásma. spojení. Zatímco Lyra se v současnosti zaměřuje na případy použití řeči, Google zkoumá, jak z ní udělat univerzální zvukový kodek.


Aktualizace 1: Kodek Google s otevřenými zdroji Lyra používaný v Google Duo

Začátkem tohoto týdne Google oznámil že měl otevřený zdroj Lyra, nový zvukový kodek používaný službou Google Duo, takže jej ostatní vývojáři mohou používat ve svých vlastních komunikačních aplikacích. Vydání přichází s nástroji potřebnými pro kódování a dekódování zvuku pomocí Lyry a je optimalizováno pro 64bitový ARM Android s vývojem na Linuxu. Open-source knihovna se zaměřuje na použití Lyry pro hlasovou komunikaci v reálném čase, ale Google ano očekává se, že vývojáři použijí kodek na další aplikace, které kódují a dekódují řeč Zvuk. Kód je napsán v C++ a základní API, nástroj pro zpracování signálu a ukázková aplikace pro Android jsou nyní k dispozici na GitHub jako beta verze pod licencí Apache.