Google Duo'nun yeni makine öğrenimi modeli, aramalarda ses kalitesini artırıyor

Google Duo, boşlukları doldurarak ve titreşimi iyileştirerek çağrılardaki ses kalitesini artırmak için Google'ın yeni WaveNetEQ makine öğrenimi modelini kullanıyor.

Google'ın, sonunda öldürülen daha yeni iletişim uygulamaları lehine mesajlaşma uygulamalarını hoş olmayan bir şekilde sonlandırdığı bir geçmişi var. Google Duo, artık kullanılmayan mesajlaşma hizmeti Allo ile birlikte piyasaya sürülmesinden bu yana bir istisna oldu. Duo sürekli olarak Google'ın dikkatini çekmiş ve sık sık aşağıdaki gibi yeni özellikler eklenmiştir: 5G Samsung S20 telefonlarda 1080p desteği, (yaklaşan) canlı altyazı, karalamalar, ve kadar Grup görüşmesinde 12 katılımcı. Artık Google, daha akıcı ve kesintisiz bir ses deneyimi için temel titreşim sorununu ortadan kaldırmak amacıyla makine öğrenimini uyguluyor.

Görüntülü görüşme, COVID-19 karantina döneminde resmi iletişimin hayati bir yolu haline geldi ve titrek ses size veya şirketinize mali açıdan zarar verebilir. Google, Duo'daki aramaların %99'unun ağ gecikmeleri nedeniyle kesintiye uğradığını kabul ediyor. Bu aramaların yaklaşık beşte birinde seste %3'lük bir kayıp yaşanırken, onda birinde sesin yaklaşık %8'i kaybedilir; bunların çoğu, sonunda kaçırdığınız çok önemli bilgiler olabilir. Bu, veri paketlerinin iletim sırasında gecikmesi veya kaybolması nedeniyle meydana gelir ve bu paketlerin yokluğu seste aksaklıklara yol açarak çoğunu anlaşılmaz hale getirir.

Google'ın yeni WaveNetEQ makine öğrenimi algoritması, "paket kaybı gizleme" (PLC) adı verilen bir teknik üzerinde çalışıyor. WaveNet EQ, aşağıdakileri temel alan üretken bir modeldir: DeepMind'ınDalgaRNN ve boşlukları gerçekçi dolgularla doldurmak için ses parçaları oluşturur. Yapay zeka modeli, konuşmayla ilgili geniş bir veri havuzunu besleyerek eğitildi. Google Duo'daki uçtan uca şifreleme nedeniyle model, alıcının cihazında çalışır. Ancak Google bunun böyle olduğunu iddia ediyor "Bir telefonda çalışacak kadar hızlıdır ve aynı zamanda en son teknolojiye sahip ses kalitesini sağlar."

WaveRRN, metinden konuşmaya modeline dayanır ve "ne söyleneceği" konusunda eğitilmiş olmanın yanı sıra, "nasıl söyleneceği" konusunda da eğitilmiştir. Yakın gelecekteki sesleri tahmin etmek için girdiyi güçlü bir fonetik anlayışla analiz eder. Model, boşlukları doldurmanın yanı sıra, titreşimi takip eden kısmın üzerine binmek için ham dalga biçiminde fazla ses de üretiyor. Bu sinyal, bir miktar çapraz sönümlemeyle gerçek sesle örtüşür ve daha yumuşak bir geçişle sonuçlanır.

Google Duo'nun WaveNetEQ modeli, tek bir dil yerine insan sesinin genel özelliklerini öğrenebilmesi için 100 kişi tarafından beslenen 48 dilde eğitilmiştir. Model çoğunlukla hece üretecek şekilde eğitilmiştir ve 120 ms'ye kadar uzun boşlukları doldurabilir.

Bu özellik Google Pixel 4'te zaten mevcut ve şimdi diğer Android cihazlara da yayılıyor.

Kaynak: Google Yapay Zeka Blogu