Google Duos nye maskinlæringsmodel forbedrer lydkvaliteten i opkald

Google Duo bruger Googles nye WaveNetEQ-maskineindlæringsmodel til at forbedre lydkvaliteten i opkald ved at udfylde huller og afhjælpe jitter.

Google har haft en historie med at dræbe besked-apps på en ubehagelig måde til fordel for nyere kommunikationsapps, der også bliver dræbt til sidst. Google Duo har indtil videre været en undtagelse, siden den blev lanceret sammen med Allo, den nu hedengangne beskedtjeneste. Duo har løbende modtaget Googles opmærksomhed og hyppige tilføjelser af nye funktioner som 1080p-understøttelse på 5G Samsung S20-telefoner, (kommende) live billedtekster, doodles, og op til 12 deltagere i et gruppeopkald. Nu anvender Google maskinlæring for at afhjælpe det store problem med rystelser for en jævnere og uafbrudt lydoplevelse.

Videoopkald er blevet en vigtig måde til officiel kommunikation under COVID-19-karantæneperioden, og nervøs lyd kan koste dig eller din virksomhed økonomisk. Google anerkender, at 99 % af opkaldene på Duo lider af afbrydelser på grund af netværksforsinkelser. Omkring en femtedel af disse opkald lider af et tab på 3 % i lyden, mens en tiendedel mister næsten 8 % af lyden, hvoraf meget kan være meget væsentlig information, som du ender med at gå glip af. Dette sker, da pakker med data enten forsinkes eller går tabt i transmissionen, og fraværet af disse pakker resulterer i fejl i lyden, hvilket gør meget af det uforståeligt.

Googles nye WaveNetEQ maskinlæringsalgoritme arbejder på en teknik kaldet "packet loss concealment" (PLC). WaveNet EQ er en generativ model baseret på DeepMind'sWaveRNN og skaber bidder af lyd for at lukke huller med realistiske fyldstoffer. AI-modellen er blevet trænet ved at fodre en stor pulje af tale-relaterede data. På grund af ende-til-ende-kryptering i Google Duo, kører modellen på modtagerens enhed. Men Google hævder, at det er "hurtig nok til at køre på en telefon, mens den stadig leverer den nyeste lydkvalitet."

WaveRRN er afhængig af en tekst-til-tale-model og udover at være trænet i "hvad man skal sige", er den også blevet trænet i "hvordan man siger" ting. Den analyserer inputtet med en stærk fonetisk forståelse for at forudsige lyde i den umiddelbare fremtid. Udover at udfylde huller, producerer modellen også overskudslyd i den rå bølgeform for at overlappe den del, der følger efter jitteren. Dette signal overlapper med den faktiske lyd med en smule krydsfading og resulterer i en jævnere overgang.

Google Duos WaveNetEQ-model er blevet trænet i 48 sprog fodret af 100 personer, så den kan lære de generelle karakteristika ved menneskelig stemme i stedet for kun ét sprog. Modellen er trænet til for det meste at producere stavelser og kan fylde op til 120ms lange huller.

Funktionen er allerede tilgængelig på Google Pixel 4 og ruller nu ud til andre Android-enheder.

Kilde: Google AI-blog