Nový model strojového učenia Google Duo zlepšuje kvalitu zvuku pri hovoroch

Google Duo používa nový model strojového učenia WaveNetEQ od Googlu na zlepšenie kvality zvuku pri hovoroch vyplnením medzier a odstránením chvenia.

Spoločnosť Google mala v minulosti nepríjemné zabíjanie aplikácií na odosielanie správ v prospech novších komunikačných aplikácií, ktoré sú tiež nakoniec zabité. Google Duo bol doteraz výnimkou, pretože bol spustený spolu s Allo, dnes už neexistujúcou službou na odosielanie správ. Duo neustále získava pozornosť Google a často pridáva nové funkcie, ako napr Podpora 1080p na 5G telefónoch Samsung S20, (nadchádzajúce) živé titulky, čmáranice, a až 12 účastníkov skupinového hovoru. Teraz spoločnosť Google používa strojové učenie na zmiernenie hlavného problému chvenia pre plynulejší a neprerušovaný zvukový zážitok.

Videohovory sa stali dôležitým spôsobom oficiálnej komunikácie počas obdobia karantény COVID-19 a nervózny zvuk vás alebo vašu spoločnosť môže finančne stáť. Google uznáva, že 99 % hovorov v aplikácii Duo trpí prerušeniami kvôli oneskoreniam siete. Asi pätina z týchto hovorov utrpí stratu 3 % zvuku, zatiaľ čo desatina stratí takmer 8 % zvuku, pričom mnohé z nich môžu byť veľmi významné informácie, ktoré vám nakoniec chýbajú. Stáva sa to vtedy, keď sa dátové pakety pri prenose oneskoria alebo stratia a neprítomnosť týchto paketov má za následok chyby vo zvuku, vďaka čomu je väčšina z nich nezrozumiteľná.

Nový algoritmus strojového učenia WaveNetEQ od spoločnosti Google pracuje na technike nazývanej „zakrytie straty paketov“ (PLC). WaveNet EQ je generatívny model založený na DeepMind’sWaveRNN a vytvára kúsky zvuku na vyplnenie medzier realistickými výplňami. Model AI bol trénovaný napájaním veľkého množstva údajov súvisiacich s rečou. Vďaka end-to-end šifrovaniu v Google Duo beží model na zariadení prijímača. Google však tvrdí, že je to „dostatočne rýchly na to, aby ho bolo možné spustiť na telefóne, pričom stále poskytuje špičkovú kvalitu zvuku."

WaveRRN sa spolieha na model prevodu textu na reč a okrem toho, že je trénovaný na „čo povedať“, bol trénovaný aj na veci „ako povedať“. Analyzuje vstup so silným fonetickým porozumením, aby predpovedal zvuky v bezprostrednej budúcnosti. Okrem vypĺňania medzier vytvára model aj nadbytočný zvuk v surovom tvare vlny, aby sa prekryla časť, ktorá nasleduje jitter. Tento signál sa trochu prekrýva so skutočným zvukom a výsledkom je plynulejší prechod.

Model WaveNetEQ od Google Duo bol trénovaný v 48 jazykoch kŕmených 100 jednotlivcami, aby sa mohol naučiť všeobecné charakteristiky ľudského hlasu namiesto iba jedného jazyka. Model je trénovaný tak, aby väčšinou produkoval slabiky a dokáže vyplniť medzery dlhé až 120 ms.

Táto funkcia je už k dispozícii na Google Pixel 4 a teraz sa rozširuje na ďalšie zariadenia so systémom Android.

Zdroj: Blog Google AI