Nový model strojového učení Google Duo zlepšuje kvalitu zvuku při hovorech

Google Duo používá nový model strojového učení WaveNetEQ od Googlu ke zlepšení kvality zvuku při hovorech tím, že zaplní mezery a odstraní jitter.

Google má za sebou historii nepříjemného zabíjení aplikací pro zasílání zpráv ve prospěch novějších komunikačních aplikací, které jsou nakonec také zabity. Google Duo byl zatím výjimkou, protože byl spuštěn společně s Allo, nyní již neexistující službou pro zasílání zpráv. Duo neustále získává pozornost Google a často přidává nové funkce, jako je Podpora 1080p na 5G telefonech Samsung S20, (nadcházející) živé titulky, čmáranice, a až 12 účastníků skupinového hovoru. Nyní Google používá strojové učení, aby zmírnil hlavní problém chvění a zajistil plynulejší a nepřerušovaný zvukový zážitek.

Videohovory se staly životně důležitým způsobem oficiální komunikace během období karantény COVID-19 a nervózní zvuk vás nebo vaši společnost může finančně stát. Google uznává, že 99 % hovorů na Duo trpí přerušeními kvůli zpoždění sítě. Přibližně pětina těchto hovorů utrpí 3% ztrátu zvuku, zatímco desetina ztrácí téměř 8% zvuku, což může být velmi významná informace, která vám nakonec chybí. K tomu dochází, když jsou datové pakety při přenosu buď zpožděny, nebo ztraceny, a nepřítomnost těchto paketů má za následek závady ve zvuku, díky čemuž je většina z nich nesrozumitelná.

Nový algoritmus strojového učení WaveNetEQ od Googlu pracuje na technice zvané „zakrytí ztráty paketů“ (PLC). WaveNet EQ je generativní model založený na DeepMind'sWaveRNN a vytváří kusy zvuku pro vyplnění mezer realistickými výplněmi. Model umělé inteligence byl trénován na základě velkého množství dat souvisejících s řečí. Díky end-to-end šifrování v Google Duo běží model na zařízení příjemce. Google ale tvrdí, že je to „dostatečně rychlý pro provoz na telefonu a přitom stále poskytuje špičkovou kvalitu zvuku."

WaveRRN spoléhá na model převodu textu na řeč a kromě toho, že je trénován na to, „co říkat“, byl trénován také na to, „jak to říkat“. Analyzuje vstup se silným fonetickým porozuměním, aby předpověděl zvuky v bezprostřední budoucnosti. Kromě vyplnění mezer model také produkuje přebytečný zvuk v surovém tvaru vlny, aby překryl část, která následuje jitter. Tento signál se překrývá se skutečným zvukem s trochou prolínání a výsledkem je plynulejší přechod.

Model WaveNetEQ společnosti Google Duo byl trénován ve 48 jazycích, které krmí 100 jednotlivců, aby se mohl naučit obecné vlastnosti lidského hlasu namísto pouhého jednoho jazyka. Model je trénován tak, aby většinou produkoval slabiky a dokáže vyplnit mezery dlouhé až 120 ms.

Tato funkce je již k dispozici na Google Pixel 4 a nyní se rozšiřuje na další zařízení Android.

Zdroj: Blog Google AI