Model pembelajaran mesin baru Google Duo meningkatkan kualitas audio dalam panggilan

Google Duo menggunakan model pembelajaran mesin WaveNetEQ baru dari Google untuk meningkatkan kualitas audio dalam panggilan dengan mengisi celah dan menghilangkan jitter.

Google memiliki sejarah mematikan aplikasi perpesanan secara tidak menyenangkan demi mendukung aplikasi komunikasi baru yang pada akhirnya juga akan dimatikan. Google Duo, sejauh ini, menjadi pengecualian sejak diluncurkan bersama Allo, layanan perpesanan yang sekarang sudah tidak ada lagi. Duo terus mendapat perhatian Google dan sering menambahkan fitur-fitur baru seperti Dukungan 1080p pada ponsel 5G Samsung S20, (akan datang) teks langsung, coretan, dan hingga 12 peserta dalam panggilan grup. Kini, Google menerapkan pembelajaran mesin untuk mengatasi masalah utama kegelisahan demi pengalaman audio yang lebih lancar dan tanpa gangguan.

Panggilan video telah menjadi cara komunikasi resmi yang penting selama masa karantina COVID-19 dan audio yang tidak stabil dapat merugikan Anda atau perusahaan Anda secara finansial. Google mengakui bahwa 99% panggilan di Duo mengalami gangguan karena penundaan jaringan. Sekitar seperlima dari panggilan ini mengalami kehilangan audio sebesar 3% sementara sepersepuluhnya kehilangan hampir 8% audio, yang sebagian besar mungkin merupakan informasi yang sangat penting yang akhirnya Anda lewatkan. Hal ini terjadi karena paket data tertunda atau hilang dalam transmisi dan tidak adanya paket ini mengakibatkan gangguan pada audio, sehingga sebagian besar tidak dapat dipahami.

Algoritma pembelajaran mesin WaveNetEQ Google yang baru bekerja pada teknik yang disebut "penyembunyian paket loss" (PLC). WaveNet EQ adalah model generatif berdasarkan DeepMind'sGelombangRNN dan membuat potongan audio untuk mengisi celah dengan pengisi yang realistis. Model AI telah dilatih dengan memasukkan sejumlah besar data terkait ucapan. Karena enkripsi ujung ke ujung di Google Duo, model ini berjalan di perangkat penerima. Namun Google mengklaim bahwa itu adalah "cukup cepat untuk dijalankan di ponsel, namun tetap memberikan kualitas audio tercanggih."

WaveRRN mengandalkan model text-to-speech dan selain dilatih untuk "apa yang harus dikatakan", WaveRRN juga telah dilatih untuk "bagaimana mengatakan" sesuatu. Ini menganalisis masukan dengan pemahaman fonetik yang kuat untuk memprediksi suara dalam waktu dekat. Selain mengisi celah, model ini juga menghasilkan kelebihan audio dalam bentuk gelombang mentah untuk tumpang tindih dengan bagian yang mengikuti jitter. Sinyal ini tumpang tindih dengan audio sebenarnya dengan sedikit cross-fading dan menghasilkan transisi yang lebih mulus.

Model WaveNetEQ Google Duo telah dilatih dalam 48 bahasa yang diberikan oleh 100 orang sehingga dapat mempelajari karakteristik umum suara manusia, bukan hanya satu bahasa. Model ini dilatih untuk menghasilkan sebagian besar suku kata dan dapat mengisi celah sepanjang 120 ms.

Fitur tersebut sudah tersedia di Google Pixel 4 dan kini diluncurkan ke perangkat Android lainnya.


Sumber: Blog AI Google