Google ha sviluppato Lyra, un codec a basso bitrate per la compressione vocale che mira a migliorare notevolmente la qualità della voce in app come Google Duo.
Aggiornamento 1 (09/04/2021 alle 15:45 ET): Google ha rilasciato il codice sorgente per Lyra, il nuovo codec vocale a basso bitrate utilizzato da Google Duo. Clicca qui per maggiori informazioni. L'articolo, così come pubblicato il 1 marzo 2021, è conservato di seguito.
Mentre gli operatori statunitensi sono impegnati a commercializzare le loro nuove reti 5G, la realtà è che la stragrande maggioranza delle persone non sperimenterà le velocità pubblicizzate. Ci sono ancora molte parti degli Stati Uniti e del mondo in cui la velocità dei dati è lenta, quindi per compensare servizi come Google Duo utilizzano tecniche di compressione per fornire in modo efficiente il miglior video e audio possibile esperienza. Google sta ora testando un nuovo codec audio che mira a migliorare sostanzialmente la qualità audio su connessioni di rete scadenti.
In un post sul blog, il team AI di Google descrive in dettaglio il suo nuovo codec vocale di alta qualità e a bitrate molto basso che ha chiamato "Lyra". Come tradizionale codec parametrici, l'architettura di base di Lyra prevede l'estrazione di attributi vocali distintivi (noti anche come "caratteristiche") nel forma di spettrogrammi log-mel che vengono poi compressi, trasmessi in rete e ricreati dall'altra parte utilizzando un modello generativo. A differenza dei codec parametrici più tradizionali, tuttavia, Lyra utilizza un nuovo modello generativo audio di alta qualità che non lo è è in grado solo di estrarre parametri critici dal parlato ma è anche in grado di ricostruire il parlato utilizzando quantità minime di dati. Il nuovo modello generativo utilizzato in Lyra si basa su quello di Google lavoro precedente su WaveNetEQ, il sistema di occultamento della perdita di pacchetti basato su modello generativo attualmente utilizzato in Google Duo.
Google afferma che il suo approccio ha reso Lyra alla pari con i codec di forme d'onda all'avanguardia utilizzati oggi in molte piattaforme di streaming e comunicazione. Il vantaggio di Lyra rispetto a questi codec di forme d'onda all'avanguardia, secondo Google, è che Lyra non invia il segnale campione per campione, il che richiede un bitrate più elevato (e quindi più dati). Per superare i problemi di complessità computazionale legati all'esecuzione di un modello generativo sul dispositivo, Google afferma che Lyra utilizza un "modello generativo ricorrente più economico" che funziona "a una frequenza inferiore" ma genera più segnali a diverse gamme di frequenza in parallelo che vengono successivamente combinati "in un unico segnale di uscita alla frequenza di campionamento desiderata". L'esecuzione di questo modello generativo su un dispositivo di fascia media in tempo reale produce una latenza di elaborazione di 90 ms, che secondo Google è "in linea con altri metodi vocali tradizionali". codec."
Accoppiato con il codec AV1 per il video, Google afferma che le chat video possono avvenire anche per gli utenti che utilizzano un vecchio modem dial-in a 56 kbps. Questo perché Lyra è progettata per funzionare in ambienti con forti vincoli di larghezza di banda come 3kbps. Secondo Google, Lyra supera facilmente il codec Opus open source esente da royalty e altri codec come Speex, MELP e AMR a bitrate molto bassi. Ecco alcuni esempi di parlato forniti da Google. Ad eccezione dell'audio codificato in Lyra, ciascuno dei campioni vocali soffre di una qualità audio degradata a bitrate molto bassi.
Discorso pulito
Originale
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opera@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Ambiente rumoroso
Originale
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opera@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google afferma di aver addestrato Lyra "con migliaia di ore di audio con relatori in oltre 70 lingue utilizzando librerie audio open source e poi verificando l'audio qualità con ascoltatori esperti e in crowdsourcing." Pertanto, il nuovo codec è già in fase di implementazione in Google Duo per migliorare la qualità delle chiamate su una larghezza di banda molto ridotta connessioni. Mentre Lyra è attualmente rivolto a casi d'uso vocali, Google sta esplorando come trasformarlo in un codec audio generico.
Aggiornamento 1: codec Lyra open source di Google utilizzato in Google Duo
All'inizio di questa settimana, Google annunciato che aveva Lyra open source, il nuovo codec audio utilizzato da Google Duo, in modo che altri sviluppatori possano utilizzarlo nelle proprie app di comunicazione. La versione include gli strumenti necessari per codificare e decodificare l'audio con Lyra ed è ottimizzata per Android ARM a 64 bit con sviluppo su Linux. La libreria open source si concentra sull'uso di Lyra per la comunicazione vocale in tempo reale, ma Google lo è aspettandosi che gli sviluppatori applichino il codec ad altre applicazioni che codificano e decodificano il parlato Audio. Il codice è scritto in C++ e sono ora disponibili l'API principale, la toolchain di elaborazione del segnale e un'app Android demo GitHub come versione beta sotto la licenza Apache.