Google Duo verwendet einen neuen Codec für eine bessere Anrufqualität bei schlechten Verbindungen

Google hat Lyra entwickelt, einen Codec mit niedriger Bitrate für die Sprachkomprimierung, der darauf abzielt, die Sprachqualität in Apps wie Google Duo erheblich zu verbessern.

Update 1 (04.09.2021 um 15:45 Uhr ET): Google hat den Quellcode für Lyra veröffentlicht, den neuen Sprachcodec mit niedriger Bitrate, der von Google Duo verwendet wird. Klicken Sie hier für weitere Informationen. Der am 1. März 2021 veröffentlichte Artikel ist unten aufgeführt.

Während US-Betreiber damit beschäftigt sind, ihre neuen 5G-Netze zu vermarkten, sieht die Realität so aus, dass die überwiegende Mehrheit der Menschen die angekündigten Geschwindigkeiten nicht erleben wird. Es gibt immer noch viele Teile der USA – und auf der ganzen Welt –, in denen die Datengeschwindigkeit langsam ist. Um dies auszugleichen, Dienste wie Google Duo verwenden Komprimierungstechniken, um die bestmögliche Video- und Audioqualität effizient bereitzustellen Erfahrung. Google testet derzeit einen neuen Audio-Codec, der die Audioqualität bei schlechten Netzwerkverbindungen deutlich verbessern soll.

In einem Blogbeitrag, beschreibt das Google AI-Team seinen neuen hochwertigen Sprachcodec mit sehr niedriger Bitrate, den sie „Lyra“ getauft haben. Wie traditionell Parametrische Codecs umfasst die grundlegende Architektur von Lyra das Extrahieren charakteristischer Sprachattribute (auch als „Merkmale“ bezeichnet). Eine Form von Log-Mel-Spektrogramme Diese werden dann komprimiert, über das Netzwerk übertragen und am anderen Ende mithilfe eines generativen Modells neu erstellt. Im Gegensatz zu traditionelleren parametrischen Codecs verwendet Lyra jedoch ein neues, qualitativ hochwertiges Audio-generatives Modell, das dies nicht ist Es ist nur in der Lage, kritische Parameter aus der Sprache zu extrahieren, ist aber auch in der Lage, Sprache mit minimalen Mengen an zu rekonstruieren Daten. Das in Lyra verwendete neue generative Modell baut auf dem von Google auf frühere Arbeiten zu WaveNetEQ, das generative modellbasierte System zur Verschleierung von Paketverlusten, das derzeit in Google Duo verwendet wird.

Lyras grundlegende Architektur. Quelle: Google

Google sagt, sein Ansatz habe Lyra auf eine Stufe mit den hochmodernen Wellenform-Codecs gebracht, die heute in vielen Streaming- und Kommunikationsplattformen verwendet werden. Der Vorteil von Lyra gegenüber diesen hochmodernen Wellenform-Codecs besteht laut Google darin, dass Lyra das Signal nicht Sample für Sample sendet, was eine höhere Bitrate (und damit mehr Daten) erfordert. Um die Bedenken hinsichtlich der Rechenkomplexität bei der Ausführung eines generativen Modells auf dem Gerät zu überwinden, verwendet Lyra laut Google ein „billigeres wiederkehrendes generatives Modell“, das „bei …“ funktioniert eine niedrigere Rate“, erzeugt aber parallel mehrere Signale in unterschiedlichen Frequenzbereichen, die später „zu einem einzigen Ausgangssignal mit der gewünschten Abtastrate“ kombiniert werden. Die Ausführung dieses generativen Modells auf einem Mittelklassegerät in Echtzeit führt zu einer Verarbeitungslatenz von 90 ms, was laut Google „im Einklang mit anderen traditionellen Aussagen“ steht Codecs.

Gepaart mit den AV1-Codec für VideoLaut Google können Video-Chats sogar für Benutzer eines alten 56-kbit/s-Einwahlmodems stattfinden. Das liegt daran, dass Lyra für den Betrieb in stark bandbreitenbeschränkten Umgebungen wie 3 KBit/s ausgelegt ist. Laut Google übertrifft Lyra den lizenzfreien Open-Source-Codec Opus sowie andere Codecs wie Speex, MELP und AMR bei sehr niedrigen Bitraten deutlich. Hier sind einige von Google bereitgestellte Sprachbeispiele. Mit Ausnahme der in Lyra kodierten Audiodaten weist jedes Sprachbeispiel bei sehr niedrigen Bitraten eine verschlechterte Audioqualität auf.

Saubere Sprache

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Laute Umgebung

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google sagt, es habe Lyra „mit Tausenden Stunden Audio von Sprechern in über 70 Sprachen trainiert, indem es Open-Source-Audiobibliotheken nutzte und dann das Audio verifizierte.“ Qualität mit Experten- und Crowdsourcing-Zuhörern.“ Daher wird der neue Codec bereits in Google Duo eingeführt, um die Anrufqualität bei sehr geringer Bandbreite zu verbessern Verbindungen. Während Lyra derzeit auf Sprachanwendungsfälle ausgerichtet ist, untersucht Google, wie es zu einem Allzweck-Audio-Codec werden kann.

Update 1: Der Open-Source-Lyra-Codec von Google wird in Google Duo verwendet

Anfang dieser Woche, Google angekündigt dass es Lyra, den neuen Audio-Codec, der von Google Duo verwendet wird, als Open-Source-Lösung verwendet, sodass andere Entwickler ihn in ihren eigenen Kommunikations-Apps verwenden können. Die Version enthält Tools, die zum Kodieren und Dekodieren von Audio mit Lyra erforderlich sind, und ist für 64-Bit-ARM-Android mit Entwicklung unter Linux optimiert. Die Open-Source-Bibliothek konzentriert sich auf die Verwendung von Lyra für die Sprachkommunikation in Echtzeit, Google jedoch bereits Wir erwarten von den Entwicklern, dass sie den Codec auf andere Anwendungen anwenden, die Sprache kodieren und dekodieren Audio. Der Code ist in C++ geschrieben und die Kern-API, die Signalverarbeitungs-Toolchain und eine Demo-Android-App sind jetzt verfügbar GitHub als Beta-Version unter der Apache-Lizenz.