Google Duos nya maskininlärningsmodell förbättrar ljudkvaliteten i samtal

Google Duo använder Googles nya WaveNetEQ maskininlärningsmodell för att förbättra ljudkvaliteten i samtal genom att fylla luckor och bota jitter.

Google har haft en historia av att döda meddelandeappar obehagligt till förmån för nyare kommunikationsappar som också dödas så småningom. Google Duo har hittills varit ett undantag sedan den lanserades tillsammans med Allo, den numera nedlagda meddelandetjänsten. Duo har kontinuerligt fått Googles uppmärksamhet och frekventa tillägg av nya funktioner som 1080p-stöd på 5G Samsung S20-telefoner, (kommande) live bildtexter, doodles, och upp till 12 deltagare i ett gruppsamtal. Nu använder Google maskininlärning för att minska det stora problemet med jitter för en smidigare och oavbruten ljudupplevelse.

Videosamtal har blivit ett viktigt sätt för officiell kommunikation under covid-19-karantänperioden och skakigt ljud kan kosta dig eller ditt företag ekonomiskt. Google medger att 99 % av samtalen på Duo lider av avbrott på grund av nätverksförseningar. Ungefär en femtedel av dessa samtal förlorar 3 % i ljud medan en tiondel förlorar nästan 8 % av ljudet, varav mycket kan vara mycket viktig information som du till slut missar. Detta händer eftersom paket med data antingen försenas eller förloras i överföringen och frånvaron av dessa paket resulterar i fel i ljudet, vilket gör mycket av det obegripligt.

Googles nya WaveNetEQ maskininlärningsalgoritm fungerar på en teknik som kallas "packet loss concealment" (PLC). WaveNet EQ är en generativ modell baserad på DeepMindsWaveRNN och skapar bitar av ljud för att täppa till luckor med realistiska fyllmedel. AI-modellen har tränats genom att mata en stor pool av talrelaterade data. På grund av end-to-end-kryptering i Google Duo körs modellen på mottagarens enhet. Men Google hävdar att det är "tillräckligt snabb för att köras på en telefon, samtidigt som den ger den senaste ljudkvaliteten."

WaveRRN förlitar sig på en text-till-tal-modell och förutom att vara tränad för "vad man ska säga", har den också tränats för "hur man säger" saker. Den analyserar ingången med en stark fonetisk förståelse för att förutsäga ljud i den omedelbara framtiden. Förutom att fylla upp luckor, producerar modellen också överskottsljud i den råa vågformen för att överlappa den del som följer efter jitter. Denna signal överlappar det faktiska ljudet med lite korsfading och resulterar i en mjukare övergång.

Google Duos WaveNetEQ-modell har tränats i 48 språk som matas av 100 individer så att den kan lära sig de allmänna egenskaperna hos mänsklig röst istället för bara ett språk. Modellen är tränad att mestadels producera stavelser och kan fylla upp till 120ms långa luckor.

Funktionen är redan tillgänglig på Google Pixel 4 och rullas nu ut till andra Android-enheter.

Källa: Google AI-blogg