AlphabetのTacotron 2テキスト読み上げエンジンの音声は人間の音声とほとんど区別できない

click fraud protection

Alphabet の AI 研究研究所は、人間の音声と区別できない音声を生成するテキスト読み上げシステムである Tacotron 2 を開発しました。

Alphabetの子会社DeepMindが開発した ウェーブネット、Google アシスタントの音声合成を強化するニューラル ネットワークが 10 月に発表されました。 検索大手の以前の製品よりも優れた、よりリアルなオーディオ サンプルを作成できます。 テキスト読み上げシステム、そしてさらに、音声をつなぎ合わせたものではなく、生の音声を生成します。 声優たち。 現在、アルファベットの研究者らは、複数のニューラル ネットワークを使用して人間とほとんど区別できない音声を生成する新しいバージョンであるタコトロン 2 を開発しました。

これがサンプルです。 1 つ目は Tacotron 2 を使用して生成され、2 つ目は声優です。

[オーディオwav= https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[オーディオwav= https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 は 2 つのディープ ニューラル ネットワークで構成されています。 今月発表された研究論文で説明されているように、最初はテキストをスペクトログラム、つまり可聴周波数のスペクトルの視覚的表現に変換します。 2 つ目 -- DeepMind の WaveNet -- はチャートを解釈し、対応するオーディオ要素を生成します。 その結果、単語を強調し、名前を正しく発音し、構文を認識できるエンドツーエンドのエンジンが誕生しました。 手がかり(つまり、斜体または大文字で強調された単語)を利用し、それに基づいて発音方法を変更します。 句読点。

Tacotron 2 が Google アシスタントのようなユーザー向けサービスに採用されるかどうかは不明ですが、当然のことでしょう。 DeepMind の WaveNet 研究の発表直後、Google はマシンを公開しました アシスタント搭載のスマートフォン、スピーカー、 そしてタブレット。

問題は 1 つだけあります。現在、Tacotron 2 システムは 1 人の女性の声を模倣するようにトレーニングされています。 新しい音声や発話パターンを生成するには、Google がシステムを再度トレーニングする必要があります。


タコトロン2