O Google Duo usa um novo codec para melhor qualidade de chamadas em conexões ruins

O Google desenvolveu o Lyra, um codec de baixa taxa de bits para compressão de voz que visa melhorar enormemente a qualidade da voz em aplicativos como o Google Duo.

Atualização 1 (09/04/2021 às 15h45 horário do leste dos EUA): O Google lançou o código-fonte do Lyra, o novo codec de voz de baixa taxa de bits usado pelo Google Duo. Clique aqui para obter mais informações. O artigo, publicado em 1º de março de 2021, está preservado abaixo.

Embora as operadoras dos EUA estejam ocupadas comercializando suas novas redes 5G, a realidade é que a grande maioria das pessoas não experimentará as velocidades anunciadas. Ainda existem muitas partes dos EUA — e ao redor do mundo — onde as velocidades dos dados são lentas, então, para compensar, serviços como o Google Duo usam técnicas de compactação para fornecer com eficiência o melhor vídeo e áudio possível experiência. O Google está testando agora um novo codec de áudio que visa melhorar substancialmente a qualidade do áudio em conexões de rede ruins.

Em uma postagem de blog, a equipe de IA do Google detalha seu novo codec de voz de alta qualidade e taxa de bits muito baixa, chamado de “Lyra”. Como tradicional codecs paramétricos, a arquitetura básica do Lyra envolve a extração de atributos de fala distintos (também conhecidos como "recursos") no forma de log mel espectrogramas que são então compactados, transmitidos pela rede e recriados na outra extremidade usando um modelo generativo. Ao contrário dos codecs paramétricos mais tradicionais, no entanto, o Lyra usa um novo modelo gerador de áudio de alta qualidade que não é só é capaz de extrair parâmetros críticos da fala, mas também é capaz de reconstruir a fala usando quantidades mínimas de dados. O novo modelo generativo usado no Lyra baseia-se no modelo do Google trabalho anterior no WaveNetEQ, o sistema generativo de ocultação de perda de pacotes baseado em modelo usado atualmente no Google Duo.

Arquitetura básica de Lyra. Fonte: Google

O Google afirma que sua abordagem colocou o Lyra no mesmo nível dos codecs de forma de onda de última geração usados hoje em muitas plataformas de streaming e comunicação. A vantagem do Lyra em relação a esses codecs de forma de onda de última geração, de acordo com o Google, é que o Lyra não envia o sinal amostra por amostra, o que requer uma taxa de bits mais alta (e, portanto, mais dados). Para superar as preocupações de complexidade computacional de executar um modelo generativo no dispositivo, o Google diz que Lyra usa um “modelo generativo recorrente mais barato” que funciona “em uma taxa mais baixa", mas gera vários sinais em diferentes faixas de frequência em paralelo que são posteriormente combinados "em um único sinal de saída na taxa de amostragem desejada". A execução deste modelo generativo em um dispositivo de médio porte em tempo real produz uma latência de processamento de 90 ms, que o Google afirma estar "alinhada com outras tecnologias de fala tradicionais". codecs."

Emparelhado com o codec AV1 para vídeo, o Google afirma que os chats de vídeo podem ocorrer até mesmo para usuários de um antigo modem dial-in de 56 kbps. Isso ocorre porque o Lyra foi projetado para operar em ambientes com grande restrição de largura de banda, como 3kbps. De acordo com o Google, Lyra supera facilmente o codec Opus de código aberto e livre de royalties, bem como outros codecs como Speex, MELP e AMR em taxas de bits muito baixas. Aqui estão alguns exemplos de fala fornecidos pelo Google. Exceto o áudio codificado em Lyra, cada uma das amostras de fala apresenta qualidade de áudio degradada em taxas de bits muito baixas.

Fala Limpa

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Ambiente barulhento

Original

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

O Google diz que treinou Lyra “com milhares de horas de áudio com alto-falantes em mais de 70 idiomas, usando bibliotecas de áudio de código aberto e depois verificando o áudio qualidade com ouvintes especializados e de crowdsourcing." Dessa forma, o novo codec já está sendo implementado no Google Duo para melhorar a qualidade das chamadas em largura de banda muito baixa conexões. Embora o Lyra esteja atualmente voltado para casos de uso de fala, o Google está explorando como transformá-lo em um codec de áudio de uso geral.

Atualização 1: codec Lyra de código aberto do Google usado no Google Duo

No início desta semana, o Google anunciado que tinha o Lyra de código aberto, o novo codec de áudio usado pelo Google Duo, para que outros desenvolvedores possam usá-lo em seus próprios aplicativos de comunicação. A versão vem com ferramentas necessárias para codificar e decodificar áudio com Lyra e é otimizada para ARM Android de 64 bits com desenvolvimento em Linux. A biblioteca de código aberto concentra-se no uso do Lyra para comunicação de voz em tempo real, mas o Google está esperando que os desenvolvedores apliquem o codec a outros aplicativos que codificam e decodificam a fala em áudio. O código é escrito em C++ e a API principal, o conjunto de ferramentas de processamento de sinal e um aplicativo de demonstração para Android estão agora disponíveis em GitHub como uma versão beta sob a licença Apache.