Google Duo bruker en ny kodek for bedre samtalekvalitet over dårlige forbindelser

Google har utviklet Lyra, en lavbitrate-kodek for talekomprimering som har som mål å forbedre stemmekvaliteten i apper som Google Duo betydelig.

Oppdatering 1 (04/09/2021 @ 15:45 ET): Google har gitt ut kildekoden for Lyra, den nye talekodeken med lav bithastighet som brukes av Google Duo. Klikk her for mer informasjon. Artikkelen, slik den ble publisert 1. mars 2021, er bevart nedenfor.

Mens amerikanske operatører er opptatt med å markedsføre sine nye 5G-nettverk, er realiteten at det store flertallet av mennesker ikke vil oppleve de annonserte hastighetene. Det er fortsatt mange deler av USA – og rundt om i verden – hvor datahastighetene er lave, så for å kompensere, tjenester som Google Duo bruker komprimeringsteknikker for å levere best mulig video og lyd effektivt erfaring. Google tester nå en ny lydkodek som tar sikte på å forbedre lydkvaliteten vesentlig på dårlige nettverksforbindelser.

I et blogginnlegg, forteller Google AI-teamet sin nye høykvalitets talekodeken med svært lav bithastighet, de har kalt «Lyra». Som tradisjonell parametriske kodeker, innebærer Lyras grunnleggende arkitektur å trekke ut særegne taleattributter (også kjent som "funksjoner") i type av

log mel spektrogrammer som deretter komprimeres, overføres over nettverket og gjenskapes i den andre enden ved hjelp av en generativ modell. I motsetning til mer tradisjonelle parametriske kodeker, bruker Lyra imidlertid en ny høykvalitets lydgenerativ modell som ikke er kun i stand til å trekke ut kritiske parametere fra tale, men er også i stand til å rekonstruere tale ved å bruke minimale mengder data. Den nye generative modellen som brukes i Lyra bygger på Googles tidligere arbeid med WaveNetEQ, det generative modellbaserte pakketap-skjulsystemet som for tiden brukes i Google Duo.

Lyras grunnleggende arkitektur. Kilde: Google

Google sier at deres tilnærming har gjort Lyra på nivå med de toppmoderne bølgeformkodekene som brukes i mange strømme- og kommunikasjonsplattformer i dag. Fordelen med Lyra fremfor disse toppmoderne bølgeformkodekene, ifølge Google, er at Lyra ikke sender over signalet sample-by-sample, noe som krever en høyere bitrate (og dermed mer data). For å overvinne beregningskompleksiteten ved å kjøre en generativ modell på enheten, sier Google at Lyra bruker en "billigere tilbakevendende generativ modell" som fungerer "på en lavere hastighet", men genererer flere signaler ved forskjellige frekvensområder parallelt som senere kombineres "til et enkelt utgangssignal med ønsket samplingshastighet." Å kjøre denne generative modellen på en mellomtoneenhet i sanntid gir en behandlingsforsinkelse på 90 ms, som Google sier er "i tråd med annen tradisjonell tale kodeker."

Sammenkoblet med AV1-kodeken for video, sier Google at videochatter kan finne sted selv for brukere på et gammelt 56kbps oppringt modem. Det er fordi Lyra er designet for å operere i sterkt båndbreddebegrensede miljøer som 3kbps. Ifølge Google utkonkurrerer Lyra lett den royaltyfrie open-source Opus-kodeken så vel som andre kodeker som Speex, MELP og AMR med svært lave bithastigheter. Her er noen taleeksempler levert av Google. Med unntak av lyd som er kodet i Lyra, lider hver av taleprøvene av forringet lydkvalitet ved svært lave bithastigheter.

Ren tale

Opprinnelig

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Støyende miljø

Opprinnelig

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google sier at det trente Lyra "med tusenvis av timer med lyd med høyttalere på over 70 språk ved å bruke åpen kildekode-lydbiblioteker og deretter bekrefte lyden kvalitet med ekspertlyttere og publikumsbaserte lyttere." Som sådan rulles den nye kodeken allerede ut i Google Duo for å forbedre samtalekvaliteten på svært lav båndbredde forbindelser. Mens Lyra for tiden er rettet mot talebruk, utforsker Google hvordan man kan gjøre det til en generell lydkodek.

Oppdatering 1: Lyra-kodeken med åpen kildekode fra Google som brukes i Google Duo

Tidligere denne uken, Google annonsert at den hadde åpen kildekode Lyra, den nye lydkodeken som brukes av Google Duo, slik at andre utviklere kan bruke den i sine egne kommunikasjonsapper. Utgivelsen kommer med verktøy som trengs for å kode og dekode lyd med Lyra og er optimalisert for 64-bit ARM Android med utvikling på Linux. Åpen kildekode-biblioteket fokuserer på bruken av Lyra for sanntids stemmekommunikasjon, men Google er det forventer at utviklere skal bruke kodeken på andre applikasjoner som koder og dekoder tale i lyd. Koden er skrevet i C++ og kjerne-API, signalbehandlingsverktøykjede og en demo Android-app er nå tilgjengelig på GitHub som en betaversjon under Apache-lisensen.