El nuevo modelo de aprendizaje automático de Google Duo mejora la calidad del audio en las llamadas

Google Duo utiliza el novedoso modelo de aprendizaje automático WaveNetEQ de Google para mejorar la calidad del audio en las llamadas llenando los huecos y eliminando la inquietud.

Google tiene un historial de eliminar desagradablemente aplicaciones de mensajería en favor de aplicaciones de comunicación más nuevas que también mueren con el tiempo. Hasta ahora, Google Duo ha sido una excepción desde que se lanzó junto con Allo, el ahora desaparecido servicio de mensajería. Duo ha recibido continuamente la atención de Google y la frecuente incorporación de nuevas funciones como Compatibilidad con 1080p en teléfonos 5G Samsung S20, (próximo) subtítulos en vivo, garabatos, y hasta 12 participantes en una llamada grupal. Ahora, Google está aplicando el aprendizaje automático para reducir el principal problema de las fluctuaciones y lograr una experiencia de audio más fluida e ininterrumpida.

Las videollamadas se han convertido en una forma vital de comunicación oficial durante el período de cuarentena de COVID-19 y el audio entrecortado puede costarle económicamente a usted o a su empresa. Google reconoce que el 99% de las llamadas en Duo sufren interrupciones por retrasos en la red. Aproximadamente una quinta parte de estas llamadas sufre una pérdida de audio del 3%, mientras que una décima parte pierde casi el 8% del audio, gran parte de la cual podría ser información muy importante que terminaría perdiéndose. Esto sucede cuando los paquetes de datos se retrasan o se pierden en la transmisión y la ausencia de estos paquetes provoca fallas en el audio, lo que hace que gran parte del mismo sea incomprensible.

El nuevo algoritmo de aprendizaje automático WaveNetEQ de Google funciona con una técnica llamada "ocultación de pérdida de paquetes" (PLC). WaveNet EQ es un modelo generativo basado en de mente profundaondaRNN y crea fragmentos de audio para tapar los huecos con rellenos realistas. El modelo de IA se entrenó alimentando una gran cantidad de datos relacionados con el habla. Gracias al cifrado de extremo a extremo en Google Duo, el modelo se ejecuta en el dispositivo del receptor. Pero Google afirma que es "lo suficientemente rápido como para ejecutarse en un teléfono y al mismo tiempo ofrecer una calidad de audio de última generación."

WaveRRN se basa en un modelo de texto a voz y, además de estar entrenado para "qué decir", también ha sido entrenado para "cómo decir" cosas. Analiza la entrada con una sólida comprensión fonética para predecir sonidos en el futuro inmediato. Además de llenar los huecos, el modelo también produce audio sobrante en la forma de onda sin procesar para superponer la parte que sigue a la fluctuación. Esta señal se superpone con el audio real con un poco de desvanecimiento cruzado y da como resultado una transición más suave.

El modelo WaveNetEQ de Google Duo ha sido entrenado en 48 idiomas alimentados por 100 personas para que pueda aprender las características generales de la voz humana en lugar de un solo idioma. El modelo está entrenado para producir principalmente sílabas y puede llenar espacios de hasta 120 ms de largo.

La función ya está disponible en Google Pixel 4 y ahora se está implementando en otros dispositivos Android.

Fuente: Blog de IA de Google