Le nouveau modèle d'apprentissage automatique de Google Duo améliore la qualité audio des appels

Google Duo utilise le nouveau modèle d'apprentissage automatique WaveNetEQ de Google pour améliorer la qualité audio des appels en comblant les lacunes et en corrigeant la gigue.

Google a l'habitude de supprimer les applications de messagerie de manière désagréable au profit de nouvelles applications de communication qui finissent également par être supprimées. Google Duo a jusqu'à présent fait exception puisqu'il a été lancé aux côtés d'Allo, le service de messagerie aujourd'hui disparu. Duo a continuellement reçu l'attention de Google et l'ajout fréquent de nouvelles fonctionnalités telles que Prise en charge 1080p sur les téléphones Samsung S20 5G, (A venir) sous-titres en direct, griffonnages, et jusqu'à 12 participants dans un appel de groupe. Désormais, Google applique l'apprentissage automatique pour réduire le problème majeur de la gigue et offrir une expérience audio plus fluide et ininterrompue.

Les appels vidéo sont devenus un moyen essentiel de communication officielle pendant la période de quarantaine du COVID-19 et un son instable peut vous coûter cher, à vous ou à votre entreprise. Google reconnaît que 99 % des appels sur Duo souffrent d'interruptions dues aux retards du réseau. Environ un cinquième de ces appels subit une perte audio de 3 %, tandis qu'un dixième perd près de 8 % de l'audio, dont une grande partie pourrait être une information très importante qui vous manquera. Cela se produit lorsque les paquets de données sont retardés ou perdus lors de la transmission et que l'absence de ces paquets entraîne des problèmes dans l'audio, ce qui rend une grande partie incompréhensible.

Le nouvel algorithme d'apprentissage automatique WaveNetEQ de Google fonctionne sur une technique appelée « masquage de perte de paquets » (PLC). WaveNet EQ est un modèle génératif basé sur DeepMindOndeRNN et crée des morceaux d'audio pour combler les lacunes avec des remplissages réalistes. Le modèle d’IA a été entraîné en alimentant un large pool de données liées à la parole. Grâce au cryptage de bout en bout dans Google Duo, le modèle fonctionne sur l'appareil du récepteur. Mais Google prétend que c'est "assez rapide pour fonctionner sur un téléphone, tout en offrant une qualité audio de pointe."

WaveRRN s'appuie sur un modèle de synthèse vocale et, en plus d'être formé pour « quoi dire », il a également été formé pour « comment dire » les choses. Il analyse l'entrée avec une solide compréhension phonétique pour prédire les sons dans un avenir immédiat. En plus de combler les lacunes, le modèle produit également un surplus audio dans la forme d'onde brute pour chevaucher la partie qui suit la gigue. Ce signal chevauche l'audio réel avec un peu de fondu enchaîné et entraîne une transition plus douce.

Le modèle WaveNetEQ de Google Duo a été formé dans 48 langues alimentées par 100 personnes afin de pouvoir apprendre les caractéristiques générales de la voix humaine au lieu d'une seule langue. Le modèle est entraîné pour produire principalement des syllabes et peut combler des lacunes allant jusqu'à 120 ms.

La fonctionnalité est déjà disponible sur le Google Pixel 4 et est désormais déployée sur d'autres appareils Android.

Source: Blog Google sur l'IA