Google telah mengembangkan Lyra, codec dengan kecepatan bit rendah untuk kompresi ucapan yang bertujuan untuk meningkatkan kualitas suara secara signifikan di aplikasi seperti Google Duo.
Pembaruan 1 (04/09/2021 @ 15:45 ET): Google telah merilis kode sumber untuk Lyra, codec ucapan dengan kecepatan bit rendah baru yang digunakan oleh Google Duo. Klik disini untuk informasi lebih lanjut. Artikel yang diterbitkan pada 1 Maret 2021 disimpan di bawah.
Sementara operator-operator di AS sibuk memasarkan jaringan 5G baru mereka, kenyataannya sebagian besar orang tidak akan merasakan kecepatan yang diiklankan. Masih banyak wilayah di AS — dan di seluruh dunia — yang kecepatan datanya lambat, sehingga sebagai kompensasinya, layanan seperti Google Duo menggunakan teknik kompresi untuk menghasilkan video dan audio terbaik secara efisien pengalaman. Google kini sedang menguji codec audio baru yang bertujuan untuk meningkatkan kualitas audio secara signifikan pada koneksi jaringan yang buruk.
Dalam postingan blog
, tim AI Google merinci codec ucapan baru berkualitas tinggi dengan kecepatan bit sangat rendah yang mereka beri nama "Lyra". Seperti tradisional codec parametrik, arsitektur dasar Lyra melibatkan ekstraksi atribut ucapan yang berbeda (juga dikenal sebagai "fitur") di bentuk dari spektogram log mel yang kemudian dikompresi, ditransmisikan melalui jaringan, dan dibuat ulang di ujung lain menggunakan model generatif. Namun, tidak seperti codec parametrik tradisional, Lyra menggunakan model generatif audio berkualitas tinggi baru yang tidak ada hanya mampu mengekstrak parameter penting dari ucapan tetapi juga mampu merekonstruksi ucapan dengan menggunakan jumlah minimal data. Model generatif baru yang digunakan di Lyra dibuat berdasarkan model Google pekerjaan sebelumnya di WaveNetEQ, sistem penyembunyian paket-kehilangan berbasis model generatif yang saat ini digunakan di Google Duo.Google mengatakan pendekatannya telah membuat Lyra setara dengan codec gelombang canggih yang digunakan di banyak platform streaming dan komunikasi saat ini. Keuntungan Lyra dibandingkan codec bentuk gelombang canggih ini, menurut Google, adalah Lyra tidak mengirimkan sinyal sampel demi sampel, yang memerlukan bitrate lebih tinggi (dan dengan demikian lebih banyak data). Untuk mengatasi masalah kompleksitas komputasi dalam menjalankan model generatif pada perangkat, Google mengatakan Lyra menggunakan "model generatif berulang yang lebih murah" yang berfungsi "di laju yang lebih rendah" tetapi menghasilkan banyak sinyal pada rentang frekuensi berbeda secara paralel yang kemudian digabungkan "menjadi sinyal keluaran tunggal pada laju sampel yang diinginkan". Menjalankan model generatif ini pada perangkat kelas menengah secara real-time menghasilkan latensi pemrosesan sebesar 90 ms, yang menurut Google "sejalan dengan ucapan tradisional lainnya." codec."
Dipasangkan dengan codec AV1 untuk video, Google mengatakan bahwa obrolan video dapat dilakukan bahkan untuk pengguna yang menggunakan modem dial-in kuno 56kbps. Itu karena Lyra dirancang untuk beroperasi di lingkungan dengan bandwidth terbatas seperti 3kbps. Menurut Google, Lyra dengan mudah mengungguli codec Opus sumber terbuka bebas royalti serta codec lain seperti Speex, MELP, dan AMR pada bitrate yang sangat rendah. Berikut beberapa contoh pidato yang disediakan oleh Google. Kecuali untuk audio yang dikodekan dalam Lyra, setiap sampel ucapan mengalami penurunan kualitas audio pada bitrate yang sangat rendah.
Ucapan Bersih
Asli
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
Lingkungan Bising
Asli
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google mengatakan mereka melatih Lyra "dengan ribuan jam audio dengan pembicara dalam lebih dari 70 bahasa menggunakan perpustakaan audio sumber terbuka dan kemudian memverifikasi audio tersebut kualitas dengan pendengar ahli dan crowdsourcing." Oleh karena itu, codec baru telah diluncurkan di Google Duo untuk meningkatkan kualitas panggilan pada bandwidth yang sangat rendah koneksi. Meskipun Lyra saat ini ditujukan untuk kasus penggunaan ucapan, Google sedang menjajaki cara menjadikannya codec audio tujuan umum.
Pembaruan 1: Codec Lyra sumber terbuka Google yang digunakan di Google Duo
Awal pekan ini, Google diumumkan bahwa mereka memiliki Lyra bersumber terbuka, codec audio baru yang digunakan oleh Google Duo, sehingga pengembang lain dapat menggunakannya di aplikasi komunikasi mereka sendiri. Rilis ini dilengkapi dengan alat yang diperlukan untuk menyandikan dan mendekode audio dengan Lyra dan dioptimalkan untuk Android ARM 64-bit dengan pengembangan di Linux. Perpustakaan sumber terbuka berfokus pada penggunaan Lyra untuk komunikasi suara waktu nyata, namun Google melakukannya mengharapkan pengembang untuk menerapkan codec ke aplikasi lain yang menyandikan dan mendekode ucapan audio. Kode ini ditulis dalam C++ dan API inti, rantai alat pemrosesan sinyal, dan aplikasi demo Android kini tersedia GitHub sebagai rilis beta di bawah lisensi Apache.