Google Duon uusi koneoppimismalli parantaa äänenlaatua puheluissa

Google Duo käyttää Googlen uutta WaveNetEQ-koneoppimismallia parantaakseen äänenlaatua puheluissa täyttämällä aukkoja ja vähentämällä värinää.

Google on tappanut viestisovelluksia epämiellyttävästi uusien viestintäsovellusten hyväksi, jotka myös lopulta tapetaan. Google Duo on toistaiseksi ollut poikkeus, koska se lanseerattiin Allon, nyt lakkautetun viestipalvelun, rinnalla. Duo on jatkuvasti saanut Googlen huomion ja lisännyt jatkuvasti uusia ominaisuuksia, kuten 1080p-tuki 5G Samsung S20 -puhelimissa, (tulossa) live-tekstitykset, doodles, ja aina 12 osallistujaa ryhmäpuheluun. Nyt Google soveltaa koneoppimista vähentääkseen tärinän aiheuttamaa suurta ongelmaa tasaisemman ja keskeytyksettömän äänikokemuksen saamiseksi.

Videopuheluista on tullut elintärkeä tapa viralliseen viestintään COVID-19-karanteenin aikana, ja häiritsevä ääni voi maksaa sinulle tai yrityksellesi taloudellisesti. Google myöntää, että 99 % Duon puheluista kärsii verkkoviiveistä johtuvista keskeytyksistä. Noin viidesosa näistä puheluista kärsii 3 prosentin äänen häviämisestä, kun taas kymmenesosa menettää lähes 8 prosenttia äänestä. Suurin osa näistä puheluista voi olla erittäin tärkeitä tietoja, jotka lopulta puuttuvat. Tämä tapahtuu, koska datapaketit joko viivästyvät tai katoavat lähetyksessä, ja näiden pakettien puuttuminen aiheuttaa äänihäiriöitä, mikä tekee suuren osan siitä käsittämättömäksi.

Googlen uusi WaveNetEQ-koneoppimisalgoritmi toimii tekniikalla, jota kutsutaan "pakettihäviöiden peittämiseksi" (PLC). WaveNet EQ on generatiivinen malli, joka perustuu DeepMind'sWaveRNN ja luo äänipaloja, jotka täyttävät aukot realistisilla täyteaineilla. Tekoälymallia on koulutettu syöttämällä suuri joukko puheeseen liittyviä tietoja. Google Duon päästä päähän -salauksen ansiosta malli toimii vastaanottimen laitteessa. Mutta Google väittää, että se on "riittävän nopea toimimaan puhelimella, mutta tarjoaa silti huippuluokan äänenlaadun."

WaveRRN luottaa tekstistä puheeksi -malliin, ja sen lisäksi, että se on koulutettu "mitä sanoa", se on myös koulutettu "miten sanoa" -asioihin. Se analysoi syötteen vahvalla foneettisella ymmärryksellä ennustaakseen ääniä lähitulevaisuudessa. Sen lisäksi, että malli täyttää aukot, se tuottaa myös ylimääräistä ääntä raakaaaltomuodossa, jotta se menee päällekkäin värinää seuraavan osan kanssa. Tämä signaali menee päällekkäin todellisen äänen kanssa hieman ristihäipymällä ja johtaa tasaisempaan siirtymiseen.

Google Duon WaveNetEQ-malli on koulutettu 48 kielellä, joita syötti 100 henkilöä, jotta se voi oppia ihmisäänen yleiset ominaisuudet yhden kielen sijaan. Malli on koulutettu tuottamaan enimmäkseen tavuja ja se voi täyttää jopa 120 ms pitkiä aukkoja.

Ominaisuus on jo saatavilla Google Pixel 4:ssä, ja se otetaan nyt käyttöön muille Android-laitteille.

Lähde: Google AI -blogi