Het nieuwe machine learning-model van Google Duo verbetert de audiokwaliteit tijdens gesprekken

Google Duo maakt gebruik van het nieuwe WaveNetEQ machine learning-model van Google om de audiokwaliteit tijdens gesprekken te verbeteren door gaten op te vullen en jitter te verminderen.

Google heeft een geschiedenis van het op onaangename wijze doden van berichten-apps ten gunste van nieuwere communicatie-apps die uiteindelijk ook worden gedood. Google Duo vormde tot nu toe een uitzondering sinds het werd gelanceerd naast Allo, de inmiddels ter ziele gegane berichtenservice. Duo heeft voortdurend de aandacht van Google getrokken en er worden regelmatig nieuwe functies toegevoegd, zoals 1080p-ondersteuning op 5G Samsung S20-telefoons, (aankomende) live ondertiteling, krabbels, en tot 12 deelnemers aan een groepsgesprek. Nu past Google machine learning toe om het grote probleem van kriebels te verminderen, voor een soepelere en ononderbroken audio-ervaring.

Videobellen is een essentiële manier van officiële communicatie geworden tijdens de quarantaineperiode van COVID-19 en zenuwachtige audio kan u of uw bedrijf financieel kosten. Google erkent dat 99% van de oproepen via Duo last hebben van onderbrekingen als gevolg van netwerkvertragingen. Ongeveer een vijfde van deze oproepen lijdt een audioverlies van 3%, terwijl een tiende bijna 8% van de audio verliest, waarvan een groot deel zeer belangrijke informatie kan zijn die u uiteindelijk mist. Dit gebeurt omdat gegevenspakketten vertraagd worden of verloren gaan tijdens de verzending en de afwezigheid van deze pakketten resulteert in storingen in de audio, waardoor een groot deel ervan onbegrijpelijk wordt.

Het nieuwe WaveNetEQ machine learning-algoritme van Google werkt op een techniek die 'packet loss concealment' (PLC) wordt genoemd. WaveNet EQ is een generatief model gebaseerd op DeepMind'sWaveRNN en creëert stukjes audio om gaten op te vullen met realistische vulstoffen. Het AI-model is getraind door een grote hoeveelheid spraakgerelateerde gegevens te voeden. Door end-to-end encryptie in Google Duo draait het model op het apparaat van de ontvanger. Maar Google beweert dat het zo is "snel genoeg om op een telefoon te draaien, terwijl het toch de allernieuwste audiokwaliteit biedt."

WaveRRN vertrouwt op een tekst-naar-spraak-model en is niet alleen getraind in 'wat te zeggen', maar ook in 'hoe te zeggen'. Het analyseert de invoer met een sterk fonetisch begrip om geluiden in de nabije toekomst te voorspellen. Naast het opvullen van gaten, produceert het model ook overtollige audio in de onbewerkte golfvorm om het gedeelte dat op de jitter volgt te overlappen. Dit signaal overlapt met de daadwerkelijke audio met een beetje cross-fading en resulteert in een vloeiendere overgang.

Het WaveNetEQ-model van Google Duo is getraind in 48 talen, gevoed door 100 individuen, zodat het de algemene kenmerken van de menselijke stem kan leren in plaats van slechts één taal. Het model is getraind om voornamelijk lettergrepen te produceren en kan gaten van maximaal 120 ms opvullen.

De functie is al beschikbaar op de Google Pixel 4 en wordt nu uitgerold naar andere Android-apparaten.

Bron: Google AI-blog