Google Duo, zayıf bağlantılarda daha iyi çağrı kalitesi sağlamak için yeni bir codec kullanıyor

click fraud protection

Google, Google Duo gibi uygulamalarda ses kalitesini büyük ölçüde iyileştirmeyi amaçlayan, konuşma sıkıştırmaya yönelik düşük bit hızlı bir codec bileşeni olan Lyra'yı geliştirdi.

Güncelleme 1 (04/09/2021 @ 15:45 ET): Google, Google Duo tarafından kullanılan yeni düşük bit hızlı konuşma codec'i Lyra'nın kaynak kodunu yayınladı. Daha fazla bilgi için buraya tıklayın. Yazı 1 Mart 2021 tarihinde yayınlandığı şekliyle aşağıda muhafaza edilmektedir.

ABD'li operatörler yeni 5G ağlarını pazarlamakla meşgulken gerçek şu ki insanların büyük çoğunluğu reklamı yapılan hızları deneyimlemeyecek. ABD'nin ve dünyanın dört bir yanında hala veri hızlarının yavaş olduğu pek çok yer var, bu durumu telafi etmek için, Google Duo gibi hizmetler, mümkün olan en iyi video ve sesi verimli bir şekilde sunmak için sıkıştırma tekniklerini kullanır deneyim. Google şu anda zayıf ağ bağlantılarında ses kalitesini önemli ölçüde iyileştirmeyi amaçlayan yeni bir ses codec bileşenini test ediyor.

Bir blog yazısındaGoogle AI ekibi, "Lyra" adını verdikleri yeni yüksek kaliteli, çok düşük bit hızlı konuşma codec bileşenini ayrıntılarıyla anlatıyor. Geleneksel gibi Lyra'nın temel mimarisi, parametrik codec'lerden farklı konuşma niteliklerinin ("özellikler" olarak da bilinir) çıkarılmasını içerir. formu

log mel spektrogramları bunlar daha sonra sıkıştırılır, ağ üzerinden iletilir ve diğer uçta üretken bir model kullanılarak yeniden oluşturulur. Ancak daha geleneksel parametrik codec'lerin aksine Lyra, yeni, yüksek kaliteli ses üretme modeli kullanır. konuşmadan yalnızca kritik parametreleri çıkarabiliyor ancak aynı zamanda minimum miktarda veri kullanarak konuşmayı yeniden yapılandırabiliyor. veri. Lyra'da kullanılan yeni üretken model Google'ın temellerini temel alıyor WaveNetEQ ile ilgili önceki çalışmalar, şu anda Google Duo'da kullanılan üretken model tabanlı paket kaybı gizleme sistemi.

Lyra'nın temel mimarisi. Kaynak: Google

Google, yaklaşımının Lyra'yı günümüzün birçok yayın ve iletişim platformunda kullanılan son teknoloji dalga biçimi codec bileşenleriyle eşit hale getirdiğini söylüyor. Google'a göre Lyra'nın bu son teknoloji dalga biçimi codec'lerine göre avantajı, Lyra'nın sinyali örnek bazında göndermemesidir, bu da daha yüksek bir bit hızı (ve dolayısıyla daha fazla veri) gerektirir. Cihazda üretken bir model çalıştırmanın hesaplama karmaşıklığı endişelerinin üstesinden gelmek için Google, Lyra'nın "daha ucuz, yinelenen üretken bir model" kullandığını söylüyor. daha düşük bir oran" ancak farklı frekans aralıklarında paralel olarak birden fazla sinyal üretir ve bunlar daha sonra "istenen örnekleme hızında tek bir çıkış sinyali halinde" birleştirilir. Bu üretken modelin orta sınıf bir cihazda gerçek zamanlı olarak çalıştırılması, 90 ms'lik bir işlem gecikmesi sağlıyor ve Google bunun "diğer geleneksel konuşmayla uyumlu" olduğunu söylüyor codec'ler."

Şununla eşleştirildi: video için AV1 codec bileşeniGoogle, eski bir 56kbps çevirmeli modem kullanan kullanıcılar için bile görüntülü sohbetlerin yapılabileceğini söylüyor. Bunun nedeni Lyra'nın 3kbps gibi bant genişliğinin oldukça kısıtlı olduğu ortamlarda çalışacak şekilde tasarlanmış olmasıdır. Google'a göre Lyra, çok düşük bit hızlarında telifsiz açık kaynaklı Opus codec'inin yanı sıra Speex, MELP ve AMR gibi diğer codec bileşenlerinden kolayca daha iyi performans gösteriyor. İşte Google tarafından sağlanan bazı konuşma örnekleri. Lyra'da kodlanan ses haricinde, konuşma örneklerinin her biri, çok düşük bit hızlarında düşük ses kalitesine sahiptir.

Temiz Konuşma

Orijinal

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Konuşma@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

Gürültülü Ortam

Orijinal

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Konuşma@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google, Lyra'yı "açık kaynaklı ses kitaplıklarını kullanarak 70'den fazla dilde hoparlörlerle binlerce saat ses eğitimi vererek ve ardından sesi doğrulayarak eğittiğini" söylüyor uzman ve kitle kaynaklı dinleyicilerle kalite." Bu nedenle, çok düşük bant genişliğinde çağrı kalitesini iyileştirmek için yeni codec bileşeni Google Duo'da zaten kullanıma sunuluyor. bağlantılar. Lyra şu anda konuşma kullanım örneklerini hedeflerken, Google bunu nasıl genel amaçlı bir ses codec bileşenine dönüştüreceğini araştırıyor.


Güncelleme 1: Google Duo'da kullanılan Google açık kaynaklı Lyra codec bileşeni

Bu haftanın başında Google duyuruldu Google Duo tarafından kullanılan yeni ses codec bileşeni olan açık kaynaklı Lyra'ya sahip olduğunu, böylece diğer geliştiricilerin bunu kendi iletişim uygulamalarında kullanabileceğini söyledi. Sürüm, Lyra ile sesi kodlamak ve kodunu çözmek için gereken araçlarla birlikte gelir ve Linux üzerinde geliştirilerek 64 bit ARM Android için optimize edilmiştir. Açık kaynak kitaplık, Lyra'nın gerçek zamanlı sesli iletişim için kullanımına odaklanıyor ancak Google, geliştiricilerin codec bileşenini, konuşmayı kodlayan ve kodunu çözen diğer uygulamalara uygulamasını bekliyoruz. ses. Kod C++ dilinde yazılmıştır ve çekirdek API, sinyal işleme araç zinciri ve demo Android uygulaması artık şu adreste mevcuttur: GitHub Apache lisansı altında beta sürümü olarak.