Google Duo は新しいコーデックを使用して、接続状態が悪い場合でも通話品質を向上させます

Google は、Google Duo などのアプリの音声品質を大幅に向上させることを目的とした音声圧縮用の低ビットレートコーデックである Lyra を開発しました。

アップデート 1 (2021 年 4 月 9 日 @ 東部標準時午後 3 時 45 分): Google は、Google Duo で使用される新しい低ビットレート音声コーデックである Lyra のソースコードをリリースしました。詳細については、ここをクリックしてください。 2021 年 3 月 1 日に公開された記事を以下に保存します。

米国の通信事業者は新しい 5G ネットワークのマーケティングに余念がありませんが、現実には大多数の人は宣伝されている速度を体験できません。米国、そして世界中には依然としてデータ速度が遅い地域が多くあります。そのため、それを補うために、 Google Duo のようなサービスは、圧縮技術を使用して、可能な限り最高のビデオとオーディオを効率的に配信します。経験。 Google は現在、ネットワーク接続が不十分な場合のオーディオ品質を大幅に向上させることを目的とした新しいオーディオコーデックをテストしています。

ブログ投稿で、Google AIチームは、「Lyra」と名付けた新しい高品質で非常に低ビットレートの音声コーデックについて詳しく説明しています。伝統的なもののようにパラメトリックコーデック、Lyra の基本アーキテクチャには、特徴的な音声属性 (「特徴」とも呼ばれる) を抽出することが含まれます。の形ログメルスペクトログラムその後、圧縮され、ネットワーク経由で送信され、生成モデルを使用して相手側で再作成されます。ただし、従来のパラメトリックコーデックとは異なり、Lyra は新しい高品質オーディオ生成モデルを使用します。音声から重要なパラメータを抽出することしかできませんが、最小限の量を使用して音声を再構築することもできます。データ。 Lyra で使用される新しい生成モデルは、Google のモデルに基づいて構築されています。 WaveNetEQ に関する以前の作業、現在 Google Duo で使用されている生成モデルベースのパケット損失隠蔽システム。

Lyra の基本アーキテクチャ。出典: Google

Googleは、そのアプローチにより、Lyraは現在多くのストリーミングや通信プラットフォームで使用されている最先端の波形コーデックと同等になったと述べている。 Google によれば、これらの最先端の波形コーデックに対する Lyra の利点は、Lyra が信号をサンプルごとに送信しないため、より高いビットレート (したがってより多くのデータ) が必要になることです。デバイス上で生成モデルを実行する際の計算の複雑さの懸念を克服するために、Google は Lyra が「より安価な反復生成モデル」を使用していると述べています。レートは低くなりますが、異なる周波数範囲で複数の信号を並列に生成し、後で「希望のサンプルレートで単一の出力信号に」結合されます。この生成モデルをミッドレンジのデバイス上でリアルタイムで実行すると、処理遅延は 90 ミリ秒となり、Google によれば、これは「他の従来の音声と一致する」コーデック。」

とペアリングビデオ用の AV1 コーデック, Googleによれば、古い56kbpsのダイヤルインモデムを使用しているユーザーでもビデオチャットが可能だという。これは、Lyra が 3kbps などの帯域幅に非常に制約のある環境で動作するように設計されているためです。 Google によると、Lyra はロイヤリティフリーのオープンソース Opus コーデックや、Speex、MELP、AMR などの他のコーデックを非常に低いビットレートで簡単に上回ります。 Google が提供する音声サンプルをいくつか紹介します。 Lyra でエンコードされた音声を除き、各音声サンプルは非常に低いビットレートでは音声品質が低下します。

きれいなスピーチ

オリジナル

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

オーパス@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

ライラ@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

騒がしい環境

オリジナル

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

オーパス@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

ライラ@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Googleは、Lyraを「オープンソースのオーディオライブラリを使用して70以上の言語のスピーカーによる数千時間の音声でトレーニングし、音声を検証した」と述べた専門家やクラウドソーシングのリスナーに高品質を提供します。」そのため、非常に低い帯域幅での通話品質を向上させるために、新しいコーデックがすでに Google Duo で展開されています。接続。 Lyra は現在、音声の使用例を対象としていますが、Google はこれを汎用オーディオコーデックにする方法を模索しています。

アップデート 1: Google が Google Duo で使用される Lyra コーデックをオープンソース化

今週初め、Google 発表された Google Duoが使用する新しいオーディオコーデックであるLyraをオープンソース化し、他の開発者が独自の通信アプリで使用できるようにしたことを明らかにした。このリリースには、Lyra でオーディオをエンコードおよびデコードするために必要なツールが付属しており、Linux で開発される 64 ビット ARM Android 用に最適化されています。オープンソースライブラリは、リアルタイム音声通信のための Lyra の使用に重点を置いていますが、Google は開発者は、音声をエンコードおよびデコードする他のアプリケーションにコーデックを適用することを期待しています。オーディオ。コードは C++ で書かれており、コア API、信号処理ツールチェーン、デモ Android アプリは現在、以下から入手できます。 GitHub Apache ライセンスに基づくベータリリースとして。