A Google Duo új gépi tanulási modellje javítja a hívások hangminőségét

A Google Duo a Google új WaveNetEQ gépi tanulási modelljét használja a hívások hangminőségének javítására azáltal, hogy kitölti a hézagokat és enyhíti a rezgést.

A Google már korábban is kellemetlenül megölte az üzenetküldő alkalmazásokat az újabb kommunikációs alkalmazások javára, amelyeket végül szintén megölnek. A Google Duo ez idáig kivétel volt, mióta az Allo, a már megszűnt üzenetküldő szolgáltatás mellett elindult. A Duo folyamatosan felkeltette a Google figyelmét, és olyan új funkciókkal bővült, mint pl 1080p támogatás 5G Samsung S20 telefonokon, (közelgő) élő feliratok, emblémák, és ig 12 résztvevő egy csoportos hívásban. A Google most a gépi tanulást alkalmazza, hogy csökkentse a rezgés okozta fő problémát a simább és megszakítás nélküli hangélmény érdekében.

A videohívás a hivatalos kommunikáció létfontosságú eszközévé vált a COVID-19 karantén időszakában, és az ideges hangzás anyagi károkat okozhat Önnek vagy cégének. A Google elismeri, hogy a Duo hívásainak 99%-a hálózati késések miatti megszakításokat szenved. Ezeknek a hívásoknak körülbelül egyötöde 3%-os hangveszteséget szenved el, míg egy tizede a hang közel 8%-át veszíti el, aminek nagy része nagyon jelentős információ lehet, amelyet végül hiányol. Ez akkor fordul elő, amikor az adatcsomagok késnek vagy elvesznek az átvitel során, és ezek hiánya a hangban hibákat okoz, és ennek nagy részét érthetetlenné teszi.

A Google új WaveNetEQ gépi tanulási algoritmusa a "csomagvesztés elrejtésének" (PLC) nevű technikán dolgozik. A WaveNet EQ egy generatív modell, amely alapján DeepMindWaveRNN és hangdarabokat hoz létre, hogy valósághű töltőanyagokkal töltse be a hiányosságokat. Az AI-modellt a beszéddel kapcsolatos adatok nagy mennyiségének betáplálásával képezték. A Google Duo végpontok közötti titkosításának köszönhetően a modell a vevőkészüléken fut. De a Google azt állítja, hogy "elég gyors ahhoz, hogy telefonon is működjön, miközben továbbra is a legmodernebb hangminőséget nyújtja."

A WaveRRN egy szöveg-beszédmodellre támaszkodik, és amellett, hogy „mit kell mondani”, a „hogyan kell mondani” dolgokra is képezte. Erős fonetikai megértéssel elemzi a bemenetet, hogy megjósolja a hangokat a közeljövőben. A hézagok kitöltése mellett a modell többlethangot is produkál a nyers hullámformában, hogy átfedje a jittert követő részt. Ez a jel átfedésben van a tényleges hanggal egy kis keresztfadinggal, és simább átmenetet eredményez.

A Google Duo WaveNetEQ modelljét 48 nyelven oktatták, amelyeket 100 személy táplált, hogy egy nyelv helyett az emberi hang általános jellemzőit is megtanulja. A modellt többnyire szótagok előállítására képezték ki, és akár 120 ms hosszúságú hézagokat is képes kitölteni.

A funkció már elérhető a Google Pixel 4-en, és most más Android-eszközökön is elérhető.

Forrás: Google AI blog