Google Duo använder en ny codec för bättre samtalskvalitet över dåliga anslutningar

Google har utvecklat Lyra, en codec med låg bithastighet för talkomprimering som syftar till att avsevärt förbättra röstkvaliteten i appar som Google Duo.

Uppdatering 1 (2021-09-04 @ 15:45 ET): Google har släppt källkoden för Lyra, den nya lågbithastighetstal-codec som används av Google Duo. Klicka här för mer information. Artikeln, som publicerades den 1 mars 2021, finns bevarad nedan.

Medan amerikanska operatörer är upptagna med att marknadsföra sina nya 5G-nätverk, är verkligheten att den stora majoriteten av människor inte kommer att uppleva de annonserade hastigheterna. Det finns fortfarande många delar av USA – och runt om i världen – där datahastigheterna är långsamma, så för att kompensera, tjänster som Google Duo använder komprimeringstekniker för att effektivt leverera bästa möjliga video och ljud erfarenhet. Google testar nu en ny ljudcodec som syftar till att avsevärt förbättra ljudkvaliteten vid dåliga nätverksanslutningar.

I ett blogginlägg, beskriver Google AI-teamet sin nya högkvalitativa talkodek med mycket låg bithastighet som de har döpt till "Lyra". Som traditionellt parametriska codecs, innebär Lyras grundläggande arkitektur att extrahera distinkta talattribut (även kända som "funktioner") i form av

log mel spektrogram som sedan komprimeras, sänds över nätverket och återskapas i andra änden med hjälp av en generativ modell. Till skillnad från mer traditionella parametriska codecs använder Lyra dock en ny högkvalitativ ljudgenererande modell som inte är kan endast extrahera kritiska parametrar från tal men kan också rekonstruera tal med minimala mängder data. Den nya generativa modellen som används i Lyra bygger på Googles tidigare arbete på WaveNetEQ, det generativa modellbaserade paketförlust-döljningssystemet som för närvarande används i Google Duo.

Lyras grundläggande arkitektur. Källa: Google

Google säger att dess tillvägagångssätt har gjort Lyra i paritet med de toppmoderna vågformscodecs som används i många streaming- och kommunikationsplattformar idag. Fördelen med Lyra jämfört med dessa toppmoderna vågformscodecs, enligt Google, är att Lyra inte skickar över signalen sampel-för-prov, vilket kräver en högre bithastighet (och därmed mer data). För att övervinna problem med beräkningskomplexiteten med att köra en generativ modell på enheten, säger Google att Lyra använder en "billigare återkommande generativ modell" som fungerar "vid en lägre hastighet" men genererar flera signaler vid olika frekvensområden parallellt som senare kombineras "till en enda utsignal med den önskade samplingshastigheten." Att köra den här generativa modellen på en medelstor enhet i realtid ger en bearbetningsfördröjning på 90 ms, vilket Google säger är "i linje med annat traditionellt tal codecs."

Parad med AV1-codec för video, säger Google att videochattar kan äga rum även för användare på ett gammalt 56kbps-modem. Det beror på att Lyra är designad för att fungera i starkt bandbreddsbegränsade miljöer som 3kbps. Enligt Google överträffar Lyra lätt den royaltyfria open-source Opus codec såväl som andra codecs som Speex, MELP och AMR vid mycket låga bithastigheter. Här är några talexempel från Google. Förutom ljud som är kodat i Lyra, lider vart och ett av talproverna av försämrad ljudkvalitet vid mycket låga bithastigheter.

Rent tal

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Bullrig miljö

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google säger att det tränade Lyra "med tusentals timmars ljud med högtalare på över 70 språk genom att använda ljudbibliotek med öppen källkod och sedan verifiera ljudet kvalitet med expertlyssnare och publiksända." Som sådan rullas den nya codec redan ut i Google Duo för att förbättra samtalskvaliteten på mycket låg bandbredd anslutningar. Medan Lyra för närvarande är inriktat på fall av talanvändning, undersöker Google hur man gör det till en ljudcodec för allmänt bruk.

Uppdatering 1: Lyra-codec med öppen källkod från Google som används i Google Duo

Tidigare i veckan, Google meddelat att den hade öppen källkod Lyra, den nya ljudcodec som används av Google Duo, så att andra utvecklare kan använda den i sina egna kommunikationsappar. Utgåvan kommer med verktyg som behövs för att koda och avkoda ljud med Lyra och är optimerad för 64-bitars ARM Android med utveckling på Linux. Biblioteket med öppen källkod fokuserar på användningen av Lyra för röstkommunikation i realtid, men det är Google förväntar sig att utvecklare ska tillämpa codec på andra applikationer som kodar och avkodar tal i audio. Koden är skriven i C++ och kärn-API: et, verktygskedjan för signalbehandling och en demo-app för Android finns nu på GitHub som en betaversion under Apache-licensen.