Noul model de învățare automată al Google Duo îmbunătățește calitatea sunetului în apeluri

Google Duo folosește noul model de învățare automată WaveNetEQ de la Google pentru a îmbunătăți calitatea sunetului în apeluri prin completarea golurilor și remediarea fluctuațiilor.

Google a avut o istorie de ucidere neplăcută a aplicațiilor de mesagerie în favoarea aplicațiilor de comunicare mai noi care, de asemenea, sunt ucise în cele din urmă. Google Duo a fost, până acum, o excepție de când a fost lansat alături de Allo, serviciul de mesagerie dispărut. Duo a primit în mod continuu atenția Google și adăugarea frecventă de noi funcții, cum ar fi Suport 1080p pe telefoanele 5G Samsung S20, (în viitor) subtitrări live, mâzgălituri, și până la 12 participanți la un apel de grup. Acum, Google aplică învățarea automată pentru a atenua problema majoră a agitației pentru o experiență audio mai fluidă și neîntreruptă.

Apelurile video au devenit o modalitate vitală de comunicare oficială în timpul perioadei de carantină COVID-19, iar sunetul nervos vă poate costa financiar pe dumneavoastră sau pe compania dumneavoastră. Google recunoaște că 99% dintre apelurile de pe Duo suferă de întreruperi din cauza întârzierilor din rețea. Aproximativ o cincime dintre aceste apeluri suferă o pierdere de 3% în sunet, în timp ce o zecime pierde aproape 8% din sunet, multe dintre acestea ar putea fi informații foarte semnificative pe care le pierdeți. Acest lucru se întâmplă deoarece pachetele de date sunt fie întârziate, fie pierdute în transmisie, iar absența acestor pachete are ca rezultat erori în sunetul, făcând o mare parte din acestea de neînțeles.

Noul algoritm de învățare automată WaveNetEQ de la Google funcționează pe o tehnică numită „ascunderea pierderilor de pachete” (PLC). WaveNet EQ este un model generativ bazat pe DeepMind’sWaveRNN și creează bucăți de sunet pentru a completa golurile cu umpleri realiste. Modelul de inteligență artificială a fost antrenat prin furnizarea unui număr mare de date legate de vorbire. Datorită criptării end-to-end din Google Duo, modelul rulează pe dispozitivul receptorului. Dar Google susține că este „suficient de rapid pentru a rula pe un telefon, oferind totuși o calitate audio de ultimă generație."

WaveRRN se bazează pe un model text-to-speech și, pe lângă faptul că a fost antrenat pentru „ce să spun”, a fost, de asemenea, antrenat pentru „cum să spui”. Analizează intrarea cu o înțelegere fonetică puternică pentru a prezice sunete în viitorul imediat. Pe lângă umplerea golurilor, modelul produce, de asemenea, un surplus de sunet în forma de undă brută pentru a suprapune partea care urmează jitter-ul. Acest semnal se suprapune cu sunetul real, cu un pic de estompare încrucișată și are ca rezultat o tranziție mai lină.

Modelul WaveNetEQ de la Google Duo a fost instruit în 48 de limbi alimentate de 100 de persoane, astfel încât să poată învăța caracteristicile generale ale vocii umane în loc de o singură limbă. Modelul este antrenat să producă în mare parte silabe și poate umple goluri lungi de până la 120 ms.

Funcția este deja disponibilă pe Google Pixel 4 și este acum implementată și pe alte dispozitive Android.

Sursă: Blogul Google AI