Google Duos nye maskinlæringsmodell forbedrer lydkvaliteten i samtaler

Google Duo bruker Googles nye WaveNetEQ maskinlæringsmodell for å forbedre lydkvaliteten i samtaler ved å fylle tomrom og kurere jitter.

Google har hatt en historie med å drepe meldingsapper på en ubehagelig måte til fordel for nyere kommunikasjonsapper som også blir drept til slutt. Google Duo har så langt vært et unntak siden den ble lansert sammen med Allo, den nå nedlagte meldingstjenesten. Duo har kontinuerlig fått Googles oppmerksomhet og hyppige tillegg av nye funksjoner som 1080p-støtte på 5G Samsung S20-telefoner, (kommende) live bildetekster, doodles, og opp til 12 deltakere i en gruppesamtale. Nå bruker Google maskinlæring for å redusere det store problemet med jitter for en jevnere og uavbrutt lydopplevelse.

Videosamtaler har blitt en viktig måte for offisiell kommunikasjon i løpet av COVID-19-karanteneperioden, og nervøs lyd kan koste deg eller din bedrift økonomisk. Google erkjenner at 99 % av samtalene på Duo lider av avbrudd på grunn av nettverksforsinkelser. Omtrent en femtedel av disse samtalene lider av 3 % tap i lyd mens en tiendedel mister nesten 8 % av lyden, hvorav mye kan være svært viktig informasjon som du ender opp med å gå glipp av. Dette skjer ettersom pakker med data enten blir forsinket eller tapt i overføringen, og fraværet av disse pakkene resulterer i feil i lyden, noe som gjør mye av det uforståelig.

Googles nye WaveNetEQ maskinlæringsalgoritme fungerer på en teknikk som kalles "packet loss concealment" (PLC). WaveNet EQ er en generativ modell basert på DeepMind sinWaveRNN og lager lydbiter for å plugge inn hull med realistiske fyllstoffer. AI-modellen har blitt trent ved å mate en stor pool av talerelaterte data. På grunn av ende-til-ende-kryptering i Google Duo, kjører modellen på mottakerens enhet. Men Google hevder at det er "rask nok til å kjøre på en telefon, samtidig som den gir toppmoderne lydkvalitet."

WaveRRN er avhengig av en tekst-til-tale-modell, og i tillegg til å være trent for "hva du skal si", har den også blitt trent for "hvordan si" ting. Den analyserer input med en sterk fonetisk forståelse for å forutsi lyder i umiddelbar fremtid. Foruten å fylle opp hull, produserer modellen også overskuddslyd i den rå bølgeformen for å overlappe delen som følger jitteren. Dette signalet overlapper med den faktiske lyden med litt kryssfading og resulterer i en jevnere overgang.

Google Duos WaveNetEQ-modell har blitt trent i 48 språk matet av 100 individer, slik at den kan lære de generelle egenskapene til menneskelig stemme i stedet for bare ett språk. Modellen er opplært til for det meste å produsere stavelser og kan fylle opptil 120 ms lange hull.

Funksjonen er allerede tilgjengelig på Google Pixel 4 og rulles nå ut til andre Android-enheter.

Kilde: Google AI-blogg