Il nuovo modello di machine learning di Google Duo migliora la qualità audio nelle chiamate

Google Duo utilizza il nuovo modello di machine learning WaveNetEQ di Google per migliorare la qualità audio nelle chiamate colmando le lacune e risolvendo il jitter.

Google ha una storia di sgradevoli uccisioni delle app di messaggistica a favore di nuove app di comunicazione che alla fine vengono anch'esse uccise. Google Duo è stato finora un'eccezione da quando è stato lanciato insieme ad Allo, l'ormai defunto servizio di messaggistica. Duo ha ricevuto continuamente l'attenzione di Google e la frequente aggiunta di nuove funzionalità come Supporto 1080p sui telefoni Samsung S20 5G, (imminente) didascalie dal vivo, scarabocchie fino a 12 partecipanti in una chiamata di gruppo. Ora, Google sta applicando l’apprendimento automatico per ridurre il principale problema del nervosismo e garantire un’esperienza audio più fluida e ininterrotta.

Le videochiamate sono diventate un mezzo vitale di comunicazione ufficiale durante il periodo di quarantena del COVID-19 e l'audio nervoso può costare finanziariamente a te o alla tua azienda. Google riconosce che il 99% delle chiamate su Duo subiscono interruzioni dovute a ritardi della rete. Circa un quinto di queste chiamate subisce una perdita di audio del 3%, mentre un decimo perde quasi l'8% dell'audio, molte delle quali potrebbero essere informazioni molto significative che potresti perdere. Ciò accade perché i pacchetti di dati vengono ritardati o persi durante la trasmissione e l'assenza di questi pacchetti provoca problemi nell'audio, rendendolo in gran parte incomprensibile.

Il nuovo algoritmo di apprendimento automatico WaveNetEQ di Google funziona su una tecnica chiamata "occultamento della perdita di pacchetti" (PLC). WaveNet EQ è un modello generativo basato su DeepMindWaveRNN e crea blocchi di audio per colmare le lacune con riempitivi realistici. Il modello di intelligenza artificiale è stato addestrato alimentando un ampio pool di dati relativi al parlato. Grazie alla crittografia end-to-end in Google Duo, il modello viene eseguito sul dispositivo del destinatario. Ma Google sostiene che sia così"abbastanza veloce da poter essere eseguito su un telefono, pur fornendo una qualità audio all'avanguardia."

WaveRRN si basa su un modello di sintesi vocale e oltre ad essere addestrato per "cosa dire", è stato addestrato anche per "come dire" le cose. Analizza l'input con una forte comprensione fonetica per prevedere i suoni nell'immediato futuro. Oltre a colmare le lacune, il modello produce anche audio in eccesso nella forma d'onda grezza per sovrapporsi alla parte che segue il jitter. Questo segnale si sovrappone all'audio reale con un po' di dissolvenza incrociata e determina una transizione più fluida.

Il modello WaveNetEQ di Google Duo è stato addestrato in 48 lingue alimentate da 100 persone in modo che possa apprendere le caratteristiche generali della voce umana invece di una sola lingua. Il modello è addestrato a produrre principalmente sillabe e può riempire intervalli lunghi fino a 120 ms.

La funzione è già disponibile su Google Pixel 4 e ora è in fase di implementazione anche su altri dispositivi Android.


Fonte: Blog sull'intelligenza artificiale di Google