Google Duo wykorzystuje nowatorski model uczenia maszynowego WaveNetEQ firmy Google, aby poprawiać jakość dźwięku w połączeniach, wypełniając luki i eliminując drgania.
Google ma historię nieprzyjemnego zabijania aplikacji do przesyłania wiadomości na rzecz nowszych aplikacji komunikacyjnych, które również w końcu są zabijane. Google Duo stanowi jak dotąd wyjątek, odkąd został uruchomiony wraz z Allo, nieistniejącą już usługą przesyłania wiadomości. Duo stale przyciąga uwagę Google i często dodaje nowe funkcje, takie jak Obsługa rozdzielczości 1080p na telefonach Samsung S20 5G, (nadchodzące) napisy na żywo, bazgroły, i do 12 uczestników połączenia grupowego. Teraz Google stosuje uczenie maszynowe, aby zaradzić głównemu problemowi drgań i zapewnić płynniejszy i nieprzerwany dźwięk.
Rozmowy wideo stały się istotnym sposobem oficjalnej komunikacji w okresie kwarantanny związanej z pandemią COVID-19, a drżący dźwięk może kosztować Ciebie lub Twoją firmę finansowo. Google przyznaje, że 99% połączeń w Duo jest przerywanych z powodu opóźnień sieci. Około jedna piąta tych połączeń powoduje utratę dźwięku o 3%, a jedna dziesiąta – o prawie 8%, a większość z nich może zawierać bardzo istotne informacje, które w efekcie mogą zostać utracone. Dzieje się tak, gdy pakiety danych są opóźnione lub utracone podczas transmisji, a brak tych pakietów powoduje zakłócenia w dźwięku, przez co większość z nich jest niezrozumiała.
Nowy algorytm uczenia maszynowego WaveNetEQ firmy Google działa w oparciu o technikę zwaną „ukrywaniem utraty pakietów” (PLC). WaveNet EQ jest modelem generatywnym opartym na DeepMindFalaRNN i tworzy fragmenty dźwięku, aby wypełnić luki realistycznymi wypełniaczami. Model sztucznej inteligencji został przeszkolony poprzez dostarczenie dużej puli danych związanych z mową. Dzięki kompleksowemu szyfrowaniu w Google Duo model działa na urządzeniu odbiorcy. Ale Google twierdzi, że tak jest „wystarczająco szybki, aby można go było uruchomić na telefonie, a jednocześnie zapewnia najnowocześniejszą jakość dźwięku."
WaveRRN opiera się na modelu zamiany tekstu na mowę i oprócz tego, że jest przeszkolony w zakresie „co powiedzieć”, został także przeszkolony w zakresie „jak powiedzieć”. Analizuje dane wejściowe z silnym zrozumieniem fonetycznym, aby przewidzieć dźwięki w najbliższej przyszłości. Oprócz wypełniania luk, model wytwarza również nadwyżkę dźwięku w surowym przebiegu, aby nałożyć się na część podążającą za jitterem. Sygnał ten nakłada się na rzeczywisty dźwięk z niewielkim zanikaniem, co skutkuje płynniejszym przejściem.
Model WaveNetEQ Google Duo został przeszkolony w 48 językach przez 100 osób, dzięki czemu może uczyć się ogólnej charakterystyki ludzkiego głosu, a nie tylko jednego języka. Model jest wyszkolony do tworzenia głównie sylab i może wypełniać przerwy o długości do 120 ms.
Ta funkcja jest już dostępna w Google Pixel 4, a teraz jest wdrażana na innych urządzeniach z Androidem.
Źródło: Blog Google poświęcony sztucznej inteligencji