Google Duo novi model strojnog učenja poboljšava kvalitetu zvuka u pozivima

Google Duo koristi Googleov novi model strojnog učenja WaveNetEQ za poboljšanje kvalitete zvuka u pozivima popunjavanjem praznina i otklanjanjem podrhtavanja.

Google je imao povijest neugodnog ubijanja aplikacija za razmjenu poruka u korist novijih komunikacijskih aplikacija koje su također na kraju ukinute. Google Duo je do sada bio iznimka jer je lansiran zajedno s Allom, sada nepostojećom uslugom za razmjenu poruka. Duo neprestano privlači pozornost Googlea i često mu se dodaju nove značajke poput Podrška za 1080p na 5G Samsung S20 telefonima, (Nadolazeći) titlovi uživo, crteži, i do 12 sudionika u grupnom pozivu. Sada Google primjenjuje strojno učenje kako bi ublažio glavni problem podrhtavanja za glatkije i neometano audio iskustvo.

Videopozivi su postali vitalni način službene komunikacije tijekom razdoblja karantene COVID-19, a nervozan zvuk može financijski koštati vas ili vašu tvrtku. Google priznaje da 99% poziva u Duou ima prekida zbog kašnjenja mreže. Otprilike petina ovih poziva pretrpi gubitak zvuka od 3%, dok desetina izgubi gotovo 8% zvuka, od čega većina može biti vrlo značajna informacija koju na kraju propustite. To se događa kada paketi podataka ili kasne ili se izgube u prijenosu, a nedostatak tih paketa rezultira smetnjama u zvuku, čineći većinu toga nerazumljivim.

Googleov novi algoritam strojnog učenja WaveNetEQ radi na tehnici koja se zove "prikrivanje gubitka paketa" (PLC). WaveNet EQ je generativni model temeljen na DeepMind-aWaveRNN i stvara dijelove zvuka za popunjavanje praznina realističnim ispunama. AI model obučen je unosom velikog skupa podataka povezanih s govorom. Zbog enkripcije s kraja na kraj u Google Duou, model radi na uređaju primatelja. Ali Google tvrdi da je "dovoljno brz za rad na telefonu, a istovremeno pruža najsuvremeniju kvalitetu zvuka."

WaveRRN se oslanja na model pretvaranja teksta u govor i osim što je obučen za "što reći", također je obučen za stvari "kako reći". Analizira unos s jakim fonetskim razumijevanjem kako bi predvidio zvukove u neposrednoj budućnosti. Osim popunjavanja praznina, model također proizvodi višak zvuka u neobrađenom valnom obliku kako bi se preklapao dio koji slijedi podrhtavanje. Ovaj se signal preklapa sa stvarnim zvukom uz malo zatamnjenja i rezultira glatkijim prijelazom.

WaveNetEQ model Google Duo obučen je za 48 jezika koje hrani 100 pojedinaca kako bi mogao naučiti opće karakteristike ljudskog glasa umjesto samo jednog jezika. Model je osposobljen da uglavnom proizvodi slogove i može popuniti praznine duge do 120 ms.

Značajka je već dostupna na Google Pixelu 4, a sada se uvodi i na druge Android uređaje.

Izvor: Google AI blog