Google Duo utilise un nouveau codec pour une meilleure qualité d'appel sur de mauvaises connexions

Google a développé Lyra, un codec à faible débit pour la compression vocale qui vise à améliorer considérablement la qualité vocale dans des applications comme Google Duo.

Mise à jour 1 (09/04/2021 à 15 h 45 HE) : Google a publié le code source de Lyra, le nouveau codec vocal à faible débit utilisé par Google Duo. Cliquez ici pour plus d'informations. L’article, tel que publié le 1er mars 2021, est conservé ci-dessous.

Alors que les opérateurs américains sont occupés à commercialiser leurs nouveaux réseaux 5G, la réalité est que la grande majorité des gens ne bénéficieront pas des vitesses annoncées. Il existe encore de nombreuses régions aux États-Unis – et dans le monde – où les vitesses de transmission des données sont lentes. Pour compenser, des services comme Google Duo utilisent des techniques de compression pour fournir efficacement la meilleure vidéo et audio possible expérience. Google teste actuellement un nouveau codec audio qui vise à améliorer considérablement la qualité audio sur les mauvaises connexions réseau.

Dans un article de blog, l'équipe Google AI détaille son nouveau codec vocal de haute qualité et à très faible débit qu'elle a nommé "Lyra". Comme traditionnel codecs paramétriques, l'architecture de base de Lyra implique l'extraction d'attributs vocaux distinctifs (également appelés « fonctionnalités ») dans le forme de spectrogrammes log mel qui sont ensuite compressés, transmis sur le réseau et recréés à l'autre extrémité à l'aide d'un modèle génératif. Cependant, contrairement aux codecs paramétriques plus traditionnels, Lyra utilise un nouveau modèle génératif audio de haute qualité qui n'est pas seulement capable d'extraire les paramètres critiques de la parole, mais est également capable de reconstruire la parole en utilisant des quantités minimales de données. Le nouveau modèle génératif utilisé dans Lyra s'appuie sur celui de Google travaux antérieurs sur WaveNetEQ, le système de dissimulation de perte de paquets basé sur un modèle génératif actuellement utilisé dans Google Duo.

L'architecture de base de Lyra. Source: Google

Google affirme que son approche a placé Lyra à égalité avec les codecs de forme d'onde de pointe utilisés aujourd'hui dans de nombreuses plates-formes de streaming et de communication. Selon Google, l'avantage de Lyra par rapport à ces codecs de forme d'onde de pointe est que Lyra n'envoie pas le signal échantillon par échantillon, ce qui nécessite un débit binaire plus élevé (et donc plus de données). Pour surmonter les problèmes de complexité informatique liés à l'exécution d'un modèle génératif sur l'appareil, Google affirme que Lyra utilise un « modèle génératif récurrent moins cher » qui fonctionne « à un taux inférieur" mais génère plusieurs signaux dans différentes plages de fréquences en parallèle qui sont ensuite combinés "en un seul signal de sortie à la fréquence d'échantillonnage souhaitée". L'exécution en temps réel de ce modèle génératif sur un appareil de milieu de gamme produit une latence de traitement de 90 ms, ce qui, selon Google, est « conforme aux autres systèmes vocaux traditionnels ». codecs."

Associé à le codec AV1 pour la vidéo, Google affirme que les chats vidéo peuvent avoir lieu même pour les utilisateurs utilisant un ancien modem commuté à 56 kbps. En effet, Lyra est conçu pour fonctionner dans des environnements fortement contraints en bande passante, tels que 3 kbps. Selon Google, Lyra surpasse facilement le codec Opus open source libre de droits ainsi que d'autres codecs comme Speex, MELP et AMR à des débits binaires très faibles. Voici quelques exemples de discours fournis par Google. À l'exception de l'audio codé dans Lyra, chacun des échantillons vocaux souffre d'une qualité audio dégradée à des débits binaires très faibles.

Discours propre

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Environnement bruyant

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google affirme avoir formé Lyra "avec des milliers d'heures d'audio avec des locuteurs dans plus de 70 langues en utilisant des bibliothèques audio open source, puis en vérifiant l'audio". qualité avec des auditeurs experts et participatifs. » Ainsi, le nouveau codec est déjà déployé dans Google Duo pour améliorer la qualité des appels sur une bande passante très faible. Connexions. Alors que Lyra est actuellement destiné aux cas d'utilisation de la parole, Google étudie comment en faire un codec audio à usage général.

Mise à jour 1: codec Lyra open source de Google utilisé dans Google Duo

Plus tôt cette semaine, Google annoncé qu'il disposait de Lyra open source, le nouveau codec audio utilisé par Google Duo, afin que d'autres développeurs puissent l'utiliser dans leurs propres applications de communication. La version est livrée avec les outils nécessaires pour encoder et décoder l'audio avec Lyra et est optimisée pour ARM Android 64 bits avec développement sur Linux. La bibliothèque open source se concentre sur l'utilisation de Lyra pour la communication vocale en temps réel, mais Google est s'attendant à ce que les développeurs appliquent le codec à d'autres applications qui codent et décodent la parole dans l'audio. Le code est écrit en C++ et l'API principale, la chaîne d'outils de traitement du signal et une application de démonstration Android sont désormais disponibles sur GitHub en version bêta sous licence Apache.