Google ha desarrollado Lyra, un códec de baja tasa de bits para compresión de voz que tiene como objetivo mejorar enormemente la calidad de la voz en aplicaciones como Google Duo.
Actualización 1 (09/04/2021 a las 03:45 p.m. ET): Google ha publicado el código fuente de Lyra, el nuevo códec de voz de baja tasa de bits utilizado por Google Duo. Haga clic aquí para más información. El artículo, publicado el 1 de marzo de 2021, se conserva a continuación.
Si bien los operadores estadounidenses están ocupados comercializando sus nuevas redes 5G, la realidad es que la gran mayoría de las personas no experimentarán las velocidades anunciadas. Todavía hay muchas partes de EE. UU. (y de todo el mundo) donde las velocidades de datos son lentas, por lo que, para compensar, Servicios como Google Duo utilizan técnicas de compresión para ofrecer de manera eficiente el mejor video y audio posible. experiencia. Google ahora está probando un nuevo códec de audio que tiene como objetivo mejorar sustancialmente la calidad del audio en conexiones de red deficientes.
En una publicación de blog, el equipo de IA de Google detalla su nuevo códec de voz de alta calidad y muy baja tasa de bits al que llamaron "Lyra". Como tradicional códecs paramétricos, la arquitectura básica de Lyra implica extraer atributos de voz distintivos (también conocidos como "características") en el forma de espectrogramas log mel que luego se comprimen, se transmiten a través de la red y se recrean en el otro extremo utilizando un modelo generativo. Sin embargo, a diferencia de los códecs paramétricos más tradicionales, Lyra utiliza un nuevo modelo generativo de audio de alta calidad que no es sólo es capaz de extraer parámetros críticos del habla, sino que también es capaz de reconstruir el habla utilizando cantidades mínimas de datos. El nuevo modelo generativo utilizado en Lyra se basa en el de Google trabajo previo en WaveNetEQ, el sistema de ocultación de pérdida de paquetes basado en modelos generativos que se utiliza actualmente en Google Duo.
Google dice que su enfoque ha puesto a Lyra a la par de los códecs de forma de onda de última generación utilizados en muchas plataformas de transmisión y comunicación en la actualidad. La ventaja de Lyra sobre estos códecs de forma de onda de última generación, según Google, es que Lyra no envía la señal muestra por muestra, lo que requiere una tasa de bits más alta (y por lo tanto más datos). Para superar las preocupaciones de complejidad computacional de ejecutar un modelo generativo en el dispositivo, Google dice que Lyra utiliza un "modelo generativo recurrente más barato" que funciona "a una frecuencia más baja" pero genera múltiples señales en diferentes rangos de frecuencia en paralelo que luego se combinan "en una única señal de salida a la frecuencia de muestreo deseada". La ejecución de este modelo generativo en un dispositivo de gama media en tiempo real produce una latencia de procesamiento de 90 ms, que según Google está "en línea con otros sistemas de voz tradicionales". códecs."
Emparejado con el códec AV1 para vídeo, Google dice que los chats de vídeo pueden tener lugar incluso para usuarios con un antiguo módem de acceso telefónico de 56 kbps. Esto se debe a que Lyra está diseñado para funcionar en entornos con un ancho de banda muy limitado, como 3 kbps. Según Google, Lyra supera fácilmente al códec Opus de código abierto libre de regalías, así como a otros códecs como Speex, MELP y AMR a velocidades de bits muy bajas. A continuación se muestran algunos ejemplos de voz proporcionados por Google. A excepción del audio codificado en Lyra, cada una de las muestras de voz sufre una calidad de audio degradada a velocidades de bits muy bajas.
discurso limpio
Original
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
lira@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Velocidad@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Ambiente ruidoso
Original
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
lira@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Velocidad@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google dice que entrenó a Lyra "con miles de horas de audio con hablantes en más de 70 idiomas usando bibliotecas de audio de código abierto y luego verificando el audio". calidad con oyentes expertos y colaborativos". Como tal, el nuevo códec ya se está implementando en Google Duo para mejorar la calidad de las llamadas en un ancho de banda muy bajo. conexiones. Si bien Lyra actualmente está dirigido a casos de uso de voz, Google está explorando cómo convertirlo en un códec de audio de uso general.
Actualización 1: códec Lyra de código abierto de Google utilizado en Google Duo
A principios de esta semana, Google Anunciado que tenía Lyra de código abierto, el nuevo códec de audio utilizado por Google Duo, para que otros desarrolladores puedan usarlo en sus propias aplicaciones de comunicación. El lanzamiento viene con las herramientas necesarias para codificar y decodificar audio con Lyra y está optimizado para Android ARM de 64 bits con desarrollo en Linux. La biblioteca de código abierto se centra en el uso de Lyra para la comunicación de voz en tiempo real, pero Google es esperando que los desarrolladores apliquen el códec a otras aplicaciones que codifican y decodifican la voz en audio. El código está escrito en C++ y la API principal, la cadena de herramientas de procesamiento de señales y una aplicación de demostración para Android ya están disponibles en GitHub como versión beta bajo la licencia Apache.