A Google kifejlesztette a Lyra-t, egy alacsony bitsebességű kodeket a beszédtömörítéshez, amelynek célja a hangminőség jelentős javítása az olyan alkalmazásokban, mint a Google Duo.
1. frissítés (2021.09.04., 15:45 ET): A Google kiadta a Lyra, a Google Duo által használt új, alacsony bitsebességű beszédkodek forráskódját. Kattintson ide további információért. A 2021. március 1-jén megjelent cikk az alábbiakban megőrződik.
Míg az amerikai szolgáltatók új 5G hálózataik marketingjével vannak elfoglalva, a valóság az, hogy az emberek túlnyomó többsége nem fogja megtapasztalni a hirdetett sebességet. Az Egyesült Államoknak – és a világnak – még mindig sok olyan része van, ahol lassú az adatsebesség, ezért ennek kompenzálására az olyan szolgáltatások, mint a Google Duo, tömörítési technikákat használnak a lehető legjobb kép és hang hatékony megjelenítéséhez tapasztalat. A Google most egy új audiokodeket tesztel, amelynek célja, hogy lényegesen javítsa a hangminőséget gyenge hálózati kapcsolatokon.
Egy blogbejegyzésben, a Google AI csapata részletesen ismerteti új, jó minőségű, nagyon alacsony bitsebességű beszédkodekjét, amelyet „Lyra”-nak neveztek el. Mint a hagyományos Paraméteres kodekek, a Lyra alapvető architektúrája magában foglalja a megkülönböztető beszédattribútumok (más néven "szolgáltatások") kinyerését a formája log mel spektrogramok amelyeket aztán tömörítenek, továbbítanak a hálózaton, majd generatív modell segítségével újra létrehozzák a másik végén. A hagyományos parametrikus kodekekkel ellentétben azonban a Lyra új, kiváló minőségű hanggenerációs modellt használ, amely nem az csak a kritikus paraméterek kinyerésére képes a beszédből, de képes a beszédet minimális mennyiségű beszéd felhasználásával rekonstruálni is adat. A Lyrában használt új generatív modell a Google modelljére épül korábbi munkák a WaveNetEQ-n, a Google Duo-ban jelenleg használt generatív modell alapú csomagvesztés-elrejtő rendszer.
A Google azt állítja, hogy megközelítése a Lyra-t egyenrangúvá tette a sok streaming és kommunikációs platformon manapság használt legmodernebb hullámforma kodekekkel. A Lyra előnye ezekkel a legmodernebb hullámforma kodekekkel szemben a Google szerint, hogy a Lyra nem küldi át a jelet mintánként, ami nagyobb bitrátát (és így több adatot) igényel. A generatív modell eszközön történő futtatásával járó számítási nehézségek leküzdésére a Google szerint a Lyra egy "olcsóbb, ismétlődő generatív modellt" használ, amely kisebb sebességgel", de párhuzamosan több jelet generál különböző frekvenciatartományokban, amelyeket később "egyetlen kimeneti jellé egyesítenek a kívánt mintavételezési sebességgel". Ennek a generatív modellnek egy középkategóriás eszközön valós idejű futtatása 90 ms-os feldolgozási késleltetést eredményez, ami a Google szerint "összehangzik más hagyományos beszéddel kodekek."
Párosítva ezzel az AV1 kodek videóhoz, a Google azt állítja, hogy a videocsevegés még az ősi 56 kb/s-os betárcsázós modemet használó felhasználók számára is megtörténhet. Ennek az az oka, hogy a Lyra-t úgy tervezték, hogy erősen korlátozott sávszélességű környezetben, például 3 kb/s-on működjön. A Google szerint a Lyra nagyon alacsony bitrátával könnyedén felülmúlja a jogdíjmentes nyílt forráskódú Opus kodeket, valamint más kodeket, mint a Speex, MELP és AMR. Íme néhány beszédminta, amelyet a Google biztosított. A Lyra kódolású hang kivételével mindegyik beszédminták nagyon alacsony bitráták mellett romlott hangminőségben szenvednek.
Tiszta beszéd
Eredeti
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Sebesség@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Zajos környezet
Eredeti
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Sebesség@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
A Google azt állítja, hogy "több ezer órányi hangfelvételre tanította a Lyrát hangszórókkal több mint 70 nyelven, nyílt forráskódú audiokönyvtárak segítségével, majd ellenőrizte a hangot minőség szakértő és közösségi forrásból származó hallgatókkal." Mint ilyen, az új kodek már elérhető a Google Duóban, hogy javítsa a hívásminőséget nagyon alacsony sávszélességen kapcsolatokat. Míg a Lyra jelenleg a beszédhasználati esetekre irányul, a Google azt vizsgálja, hogyan lehetne általános célú audiokodekké tenni.
1. frissítés: A Google nyílt forráskódú Lyra kodek a Google Duo-ban
A hét elején a Google bejelentett hogy nyílt forráskódú Lyra, a Google Duo által használt új audiokodek volt rajta, így más fejlesztők használhatják saját kommunikációs alkalmazásaikban. A kiadás tartalmazza a hang Lyra-val történő kódolásához és dekódolásához szükséges eszközöket, és 64 bites ARM Androidra van optimalizálva, Linuxra való fejlesztéssel. A nyílt forráskódú könyvtár a Lyra valós idejű hangkommunikációra való használatára összpontosít, de a Google az elvárja a fejlesztőktől, hogy alkalmazzák a kodeket más alkalmazásokban, amelyek beszédet kódolnak és dekódolnak hang. A kód C++ nyelven íródott, és az alap API, a jelfeldolgozó eszközlánc és egy demó Android alkalmazás már elérhető GitHub béta kiadásként az Apache licenc alatt.