Firma Google opracowała Lyra, kodek o niskiej przepływności do kompresji mowy, którego celem jest znaczna poprawa jakości głosu w aplikacjach takich jak Google Duo.
Aktualizacja 1 (04.09.2021 o 15:45 ET): Firma Google udostępniła kod źródłowy Lyry, nowego kodeka mowy o niskiej przepływności używanego przez Google Duo. Kliknij tutaj po więcej informacji. Artykuł opublikowany 1 marca 2021 r. znajduje się poniżej.
Podczas gdy amerykańscy przewoźnicy są zajęci marketingiem swoich nowych sieci 5G, rzeczywistość jest taka, że zdecydowana większość ludzi nie doświadczy reklamowanych prędkości. Nadal w wielu częściach Stanów Zjednoczonych – i na całym świecie – prędkość transmisji danych jest niska, więc aby to zrekompensować, usługi takie jak Google Duo wykorzystują techniki kompresji, aby skutecznie dostarczać możliwie najlepszą jakość obrazu i dźwięku doświadczenie. Google testuje obecnie nowy kodek audio, którego celem jest znaczna poprawa jakości dźwięku w przypadku słabych połączeń sieciowych.
W poście na blogu, zespół Google AI szczegółowo opisuje swój nowy, wysokiej jakości kodek mowy o bardzo niskiej przepływności, który nazwał „Lyra”. Jak tradycyjny parametrycznych kodeków, podstawowa architektura Lyry polega na wyodrębnianiu charakterystycznych atrybutów mowy (znanych również jako „cechy”) w forma spektrogramy logmel które są następnie kompresowane, przesyłane przez sieć i odtwarzane na drugim końcu przy użyciu modelu generatywnego. Jednak w przeciwieństwie do bardziej tradycyjnych kodeków parametrycznych Lyra wykorzystuje nowy model generowania dźwięku wysokiej jakości, który nie jest jest w stanie jedynie wyodrębnić krytyczne parametry z mowy, ale jest także w stanie zrekonstruować mowę przy użyciu minimalnych ilości dane. Nowy model generatywny zastosowany w Lyrze opiera się na modelu Google poprzednia praca nad WaveNetEQ, oparty na modelu generatywnym system ukrywania utraty pakietów używany obecnie w Google Duo.
Google twierdzi, że dzięki takiemu podejściu Lyra dorównuje najnowocześniejszym kodekom falowym używanym obecnie na wielu platformach do przesyłania strumieniowego i komunikacji. Według Google przewaga Lyry nad najnowocześniejszymi kodekami falowymi polega na tym, że Lyra nie przesyła sygnału próbka po próbce, co wymaga wyższej przepływności (a tym samym większej ilości danych). Aby przezwyciężyć problemy związane ze złożonością obliczeniową związaną z uruchamianiem modelu generatywnego na urządzeniu, Google twierdzi, że Lyra używa „tańszego, rekurencyjnego modelu generatywnego”, który działa „w niższą częstotliwość”, ale generuje równolegle wiele sygnałów o różnych zakresach częstotliwości, które są później łączone „w jeden sygnał wyjściowy o pożądanej częstotliwości próbkowania”. Uruchomienie tego modelu generatywnego na urządzeniu średniej klasy w czasie rzeczywistym daje opóźnienie przetwarzania wynoszące 90 ms, co według Google jest „zgodne z innymi tradycyjnymi metodami mowy” kodeki.”
Sparowane z kodek AV1 dla wideoGoogle twierdzi, że czaty wideo mogą odbywać się nawet w przypadku użytkowników korzystających ze starego modemu telefonicznego o przepustowości 56 kb/s. Dzieje się tak dlatego, że Lyra została zaprojektowana do pracy w środowiskach o mocno ograniczonej przepustowości, np. 3 kb/s. Według Google Lyra z łatwością przewyższa bezpłatny kodek Opus typu open source, a także inne kodeki, takie jak Speex, MELP i AMR, przy bardzo niskich przepływnościach. Oto kilka próbek mowy dostarczonych przez Google. Z wyjątkiem dźwięku zakodowanego w Lyrze, każda z próbek mowy ma obniżoną jakość dźwięku przy bardzo niskich przepływnościach.
Czysta Mowa
Oryginalny
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Hałaśliwe środowisko
Oryginalny
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google twierdzi, że przeszkolił Lyrę „za pomocą tysięcy godzin dźwięku z głośnikami w ponad 70 językach, korzystając z bibliotek audio typu open source, a następnie weryfikując dźwięk jakość wśród ekspertów i słuchaczy korzystających z crowdsourcingu”. W związku z tym nowy kodek jest już wdrażany w Google Duo, aby poprawić jakość połączeń przy bardzo małej przepustowości znajomości. Chociaż Lyra jest obecnie ukierunkowana na przypadki użycia mowy, Google bada, jak przekształcić ją w kodek audio ogólnego przeznaczenia.
Aktualizacja 1: Kodek Lyra typu open source firmy Google używany w Google Duo
Na początku tego tygodnia Google ogłoszony że ma Lyrę, nowy kodek audio używany przez Google Duo, o otwartym kodzie źródłowym, dzięki czemu inni programiści mogą go używać we własnych aplikacjach komunikacyjnych. Wydanie zawiera narzędzia potrzebne do kodowania i dekodowania dźwięku za pomocą Lyry i jest zoptymalizowane pod kątem 64-bitowego systemu Android ARM z rozwojem dla systemu Linux. Biblioteka typu open source koncentruje się na wykorzystaniu Lyry do komunikacji głosowej w czasie rzeczywistym, ale Google to robi oczekując, że programiści zastosują kodek do innych aplikacji kodujących i dekodujących mowę audio. Kod jest napisany w języku C++, a podstawowe API, zestaw narzędzi do przetwarzania sygnałów i wersja demonstracyjna aplikacji na Androida są już dostępne GitHub jako wersja beta na licencji Apache.