O novo modelo de aprendizado de máquina do Google Duo melhora a qualidade do áudio nas chamadas

O Google Duo usa o novo modelo de aprendizado de máquina WaveNetEQ do Google para melhorar a qualidade do áudio nas chamadas, preenchendo lacunas e eliminando o tremor.

O Google tem um histórico de eliminar aplicativos de mensagens de forma desagradável em favor de aplicativos de comunicação mais recentes, que também acabam sendo eliminados. O Google Duo tem sido, até agora, uma exceção desde que foi lançado junto com o Allo, o serviço de mensagens extinto. O Duo tem recebido continuamente a atenção do Google e a adição frequente de novos recursos, como Suporte 1080p em telefones Samsung S20 5G, (por vir) legendas ao vivo, rabiscos, e até 12 participantes em uma chamada em grupo. Agora, o Google está aplicando aprendizado de máquina para reduzir o principal problema de nervosismo e proporcionar uma experiência de áudio mais suave e ininterrupta.

As videochamadas tornaram-se uma forma vital de comunicação oficial durante o período de quarentena do COVID-19 e o áudio instável pode custar caro a você ou à sua empresa financeiramente. O Google reconhece que 99% das chamadas no Duo sofrem interrupções devido a atrasos na rede. Cerca de um quinto dessas chamadas sofre uma perda de áudio de 3%, enquanto um décimo perde quase 8% do áudio, muitas das quais podem ser informações muito significativas que você acaba perdendo. Isso acontece porque os pacotes de dados são atrasados ou perdidos na transmissão e a ausência desses pacotes resulta em falhas no áudio, tornando grande parte dele incompreensível.

O novo algoritmo de aprendizado de máquina WaveNetEQ do Google funciona em uma técnica chamada “ocultação de perda de pacotes” (PLC). WaveNet EQ é um modelo generativo baseado em DeepMindOndaRNN e cria pedaços de áudio para preencher lacunas com preenchimentos realistas. O modelo de IA foi treinado alimentando um grande conjunto de dados relacionados à fala. Devido à criptografia ponta a ponta do Google Duo, o modelo roda no dispositivo do receptor. Mas o Google afirma que é "rápido o suficiente para ser executado em um telefone, ao mesmo tempo que oferece qualidade de áudio de última geração."

WaveRRN depende de um modelo de conversão de texto em fala e além de ser treinado para “o que dizer”, também foi treinado para “como dizer” coisas. Ele analisa a entrada com um forte entendimento fonético para prever sons no futuro imediato. Além de preencher lacunas, o modelo também produz áudio excedente na forma de onda bruta para sobrepor a parte que segue o jitter. Este sinal se sobrepõe ao áudio real com um pouco de cross-fading e resulta em uma transição mais suave.

O modelo WaveNetEQ do Google Duo foi treinado em 48 idiomas alimentados por 100 indivíduos para que possa aprender as características gerais da voz humana em vez de apenas um idioma. O modelo é treinado para produzir principalmente sílabas e pode preencher espaços de até 120 ms.

O recurso já está disponível no Google Pixel 4 e agora está sendo implementado em outros dispositivos Android.

Fonte: Blog de IA do Google