Google Duo の新しい機械学習モデルにより通話の音質が向上

Google Duo は、Google の新しい WaveNetEQ 機械学習モデルを使用して、ギャップを埋めてジッターを解決することで通話の音質を向上させます。

Googleには、新しいコミュニケーションアプリを優先して、メッセージングアプリを不愉快にも廃止してきた歴史があるが、これも最終的には廃止される。 Google Duo は、現在は廃止されているメッセージングサービスである Allo と一緒に開始されたため、これまでのところ例外となっています。 Duo は継続的に Google の注目を集めており、次のような新機能が頻繁に追加されています。 5G Samsung S20 携帯電話での 1080p のサポート、（近日公開予定）ライブキャプション, 落書き、そして最大グループ通話の参加者 12 人. 現在、Google は機械学習を適用してジッターという大きな問題を軽減し、よりスムーズで途切れのないオーディオ体験を実現しています。

ビデオ通話は、新型コロナウイルス感染症による隔離期間中の公式コミュニケーションに不可欠な手段となっており、ぎこちない音声があなたやあなたの会社に経済的損害を与える可能性があります。 Google は、Duo での通話の 99% がネットワーク遅延による中断に見舞われていることを認めています。これらの通話の約 5 分の 1 では音声が 3% 失われ、10 分の 1 では音声が 8% 近く失われ、その多くは非常に重要な情報を見逃してしまう可能性があります。これは、データのパケットが送信中に遅延または損失するために発生し、これらのパケットが存在しないと音声に不具合が生じ、音声の大部分が理解できなくなります。

Google の新しい WaveNetEQ 機械学習アルゴリズムは、「パケット損失隠蔽」(PLC) と呼ばれる技術に基づいて動作します。 WaveNet EQ は、以下に基づく生成モデルです。ディープマインドのウェーブRNN オーディオのチャンクを作成して、現実的なフィラーでギャップを埋めます。 AI モデルは、音声関連データの大規模なプールをフィードすることによってトレーニングされています。 Google Duo のエンドツーエンド暗号化により、モデルは受信者のデバイス上で実行されます。しかし、Googleはそれが「」であると主張しています。携帯電話で実行できるほど高速でありながら、最先端のオーディオ品質を提供します。"

WaveRRN はテキスト読み上げモデルに依存しており、「何を言うか」についてトレーニングされるだけでなく、「どのように言うか」についてもトレーニングされています。強力な音声理解に基づいて入力を分析し、近い将来の音を予測します。このモデルは、ギャップを埋めるだけでなく、生の波形に余剰オーディオを生成して、ジッターに続く部分をオーバーラップします。この信号は実際のオーディオと若干のクロスフェードを伴ってオーバーラップし、よりスムーズなトランジションが得られます。

Google Duo の WaveNetEQ モデルは、1 つの言語だけでなく人間の声の一般的な特徴を学習できるように、100 人の個人によって提供された 48 の言語でトレーニングされています。モデルは主に音節を生成するようにトレーニングされており、最大 120 ミリ秒の長さのギャップを埋めることができます。

この機能はすでに Google Pixel 4 で利用可能であり、現在他の Android デバイスにも展開されています。

ソース： Google AI ブログ