Novi model strojnega učenja Google Duo izboljša kakovost zvoka v klicih

Google Duo uporablja Googlov nov model strojnega učenja WaveNetEQ za izboljšanje kakovosti zvoka v klicih z zapolnjevanjem vrzeli in odpravljanjem tresenja.

Google je v preteklosti neprijetno ubijal aplikacije za sporočanje v korist novejših komunikacijskih aplikacij, ki so prav tako sčasoma uničene. Google Duo je bil doslej izjema, saj je bil predstavljen skupaj z Allo, zdaj nedelujočo storitvijo za sporočanje. Duo je nenehno prejemal Googlovo pozornost in pogosto dodajanje novih funkcij, kot je Podpora za 1080p na 5G telefonih Samsung S20, (prihajajoče) podnapisi v živo, doodle, in do 12 udeležencev v skupinskem klicu. Zdaj Google uporablja strojno učenje, da bi zmanjšal glavno težavo tresenja za bolj gladko in neprekinjeno zvočno izkušnjo.

Video klici so postali pomemben način uradne komunikacije med obdobjem karantene COVID-19 in nemiren zvok lahko finančno stane vas ali vaše podjetje. Google priznava, da je 99 % klicev v Duu prekinjeno zaradi zamud v omrežju. Približno petina teh klicev utrpi 3-odstotno izgubo zvoka, medtem ko desetina izgubi skoraj 8 % zvoka, pri čemer je večina lahko zelo pomembnih informacij, ki jih na koncu zamudite. To se zgodi, ko paketi podatkov zamujajo ali se med prenosom izgubijo, odsotnost teh paketov pa povzroči napake v zvoku, zaradi česar je velik del nerazumljiv.

Googlov novi algoritem strojnega učenja WaveNetEQ deluje na tehniki, imenovani "prikrivanje izgube paketov" (PLC). WaveNet EQ je generativni model, ki temelji na DeepMind'sWaveRNN in ustvarja dele zvoka, da zapolni vrzeli z realističnimi polnili. Model umetne inteligence je bil usposobljen z dovajanjem velike zbirke podatkov, povezanih z govorom. Zaradi šifriranja od konca do konca v Googlu Duo se model izvaja na prejemnikovi napravi. Toda Google trdi, da je "dovolj hiter za delovanje na telefonu, hkrati pa zagotavlja najsodobnejšo kakovost zvoka."

WaveRRN se opira na model besedila v govor in poleg tega, da je bil usposobljen za "kaj reči", je bil usposobljen tudi za "kako reči". Analizira vnos z močnim fonetičnim razumevanjem, da napove zvoke v bližnji prihodnosti. Poleg zapolnjevanja vrzeli model proizvaja tudi presežek zvoka v neobdelani valovni obliki, da prekriva del, ki sledi tresenju. Ta signal se prekriva z dejanskim zvokom z malo navzkrižnega bledenja in povzroči bolj gladek prehod.

Model Google Duo WaveNetEQ je bil usposobljen za 48 jezikov, ki jih je hranilo 100 posameznikov, tako da se lahko nauči splošnih značilnosti človeškega glasu namesto samo enega jezika. Model je usposobljen za večinoma ustvarjanje zlogov in lahko zapolni do 120 ms dolge vrzeli.

Funkcija je že na voljo na Google Pixel 4 in se zdaj uvaja v druge naprave Android.

Vir: Google AI blog