Google Duo bruger et nyt codec for bedre opkaldskvalitet over dårlige forbindelser

Google har udviklet Lyra, et lavbitrate-codec til talekomprimering, der har til formål at forbedre stemmekvaliteten i apps som Google Duo.

Opdatering 1 (04/09/2021 @ 15:45 ET): Google har frigivet kildekoden til Lyra, det nye tale-codec med lav bithastighed, der bruges af Google Duo. Klik her for mere information. Artiklen, som blev offentliggjort den 1. marts 2021, er bevaret nedenfor.

Mens amerikanske luftfartsselskaber har travlt med at markedsføre deres nye 5G-netværk, er virkeligheden, at langt de fleste mennesker ikke vil opleve de annoncerede hastigheder. Der er stadig mange dele af USA - og rundt om i verden - hvor datahastigheder er langsomme, så for at kompensere, tjenester som Google Duo bruger komprimeringsteknikker til effektivt at levere den bedst mulige video og lyd erfaring. Google tester nu et nyt lyd-codec, der har til formål at forbedre lydkvaliteten væsentligt på dårlige netværksforbindelser.

I et blogindlæg, fortæller Google AI-teamet om dets nye højkvalitets tale-codec med meget lav bithastighed, som de har kaldt "Lyra". Som traditionel parametriske codecs involverer Lyras grundlæggende arkitektur at udtrække karakteristiske taleattributter (også kendt som "funktioner") i form af

log mel spektrogrammer som derefter komprimeres, transmitteres over netværket og genskabes i den anden ende ved hjælp af en generativ model. I modsætning til mere traditionelle parametriske codecs bruger Lyra imidlertid en ny højkvalitets lydgenerativ model, der ikke er kun i stand til at udtrække kritiske parametre fra tale, men er også i stand til at rekonstruere tale ved hjælp af minimale mængder data. Den nye generative model, der bruges i Lyra, bygger på Googles tidligere arbejde på WaveNetEQ, det generative modelbaserede pakketabs-skjulsystem, der i øjeblikket bruges i Google Duo.

Lyras grundlæggende arkitektur. Kilde: Google

Google siger, at deres tilgang har gjort Lyra på niveau med de avancerede bølgeforms-codecs, der bruges i mange streaming- og kommunikationsplatforme i dag. Fordelen ved Lyra i forhold til disse avancerede bølgeformscodecs er ifølge Google, at Lyra ikke sender signalet sample-by-sample, hvilket kræver en højere bitrate (og dermed flere data). For at overvinde de beregningsmæssige kompleksitetsproblemer ved at køre en generativ model på enheden, siger Google, at Lyra bruger en "billigere tilbagevendende generativ model", der fungerer "ved en lavere hastighed", men genererer flere signaler ved forskellige frekvensområder parallelt, som senere kombineres "til et enkelt udgangssignal ved den ønskede samplingshastighed." At køre denne generative model på en enhed i mellemklassen i realtid giver en behandlingsforsinkelse på 90 ms, hvilket Google siger er "på linje med anden traditionel tale codecs."

Parret med AV1-codec til video, siger Google, at videochat kan finde sted selv for brugere på et gammelt 56 kbps opkaldsmodem. Det er fordi Lyra er designet til at fungere i stærkt båndbredde-begrænsede miljøer såsom 3kbps. Ifølge Google udkonkurrerer Lyra let den royaltyfri open source Opus-codec samt andre codecs som Speex, MELP og AMR ved meget lave bithastigheder. Her er nogle taleeksempler leveret af Google. Med undtagelse af lyd, der er kodet i Lyra, lider hver af taleeksemplerne af forringet lydkvalitet ved meget lave bithastigheder.

Ren tale

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Støjende miljø

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google siger, at det trænede Lyra "med tusindvis af timers lyd med højttalere på over 70 sprog ved at bruge open source-lydbiblioteker og derefter verificere lyden kvalitet med ekspert- og crowdsourcede lyttere." Som sådan ruller det nye codec allerede ud i Google Duo for at forbedre opkaldskvaliteten på meget lav båndbredde forbindelser. Mens Lyra i øjeblikket er rettet mod talebrug, er Google i gang med at undersøge, hvordan man kan gøre det til et almindeligt audio-codec.

Opdatering 1: Google open source Lyra-codec brugt i Google Duo

Tidligere på ugen, Google annonceret at det havde open source Lyra, det nye lyd-codec, der blev brugt af Google Duo, så andre udviklere kan bruge det i deres egne kommunikationsapps. Udgivelsen kommer med værktøjer, der er nødvendige for at kode og afkode lyd med Lyra og er optimeret til 64-bit ARM Android med udvikling på Linux. Open source-biblioteket fokuserer på brugen af Lyra til stemmekommunikation i realtid, men det er Google forventer, at udviklere anvender codec'et til andre applikationer, der koder og afkoder tale i lyd. Koden er skrevet i C++ og kerne-API'en, signalbehandlingsværktøjskæden og en demo Android-app er nu tilgængelig på GitHub som en beta-udgivelse under Apache-licensen.