Mesin Text-to-Speech Tacotron 2 Alphabet Kedengarannya Hampir Tidak Dapat Dibedakan Dari Manusia

Laboratorium penelitian AI Alphabet mengembangkan Tacotron 2, sistem text-to-speech yang menghasilkan audio yang tidak dapat dibedakan dengan suara manusia.

Anak perusahaan Alphabet, DeepMind, berkembang GelombangNet, jaringan saraf yang mendukung sintesis ucapan Asisten Google, pada bulan Oktober. Ini mampu menghasilkan sampel audio yang lebih baik dan lebih realistis daripada raksasa pencarian sebelumnya sistem text-to-speech, dan terlebih lagi, ini menghasilkan audio mentah -- bukan suara yang disambung dari aktor suara. Kini, para peneliti di Alphabet telah mengembangkan versi baru, Tacotron 2, yang menggunakan beberapa jaringan saraf untuk menghasilkan ucapan yang hampir tidak dapat dibedakan dari manusia.

Ini contohnya. Yang pertama dibuat menggunakan Tacotron 2, dan yang kedua adalah pengisi suara:

[suara audio=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[suara audio=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 terdiri dari dua jaringan saraf dalam. Seperti yang dijelaskan dalam makalah penelitian yang diterbitkan bulan ini, yang pertama menerjemahkan teks menjadi spektogram, representasi visual dari spektrum frekuensi audio. Yang kedua -- WaveNet DeepMind -- menafsirkan bagan dan menghasilkan elemen audio yang sesuai. Hasilnya adalah mesin end-to-end yang dapat menekankan kata-kata, mengucapkan nama dengan benar, memahami sintaksis petunjuk (yaitu, menekankan kata-kata yang dicetak miring atau menggunakan huruf kapital), dan mengubah cara pengucapannya berdasarkan tanda baca.

Tidak jelas apakah Tacotron 2 akan hadir di layanan yang dapat diakses oleh pengguna seperti Google Assistant, namun hal tersebut setara dengan hal tersebut. Tak lama setelah publikasi penelitian WaveNet DeepMind, Google meluncurkan mesin pengenalan ucapan yang didukung pembelajaran dalam berbagai bahasa di ponsel pintar yang didukung Asisten, speaker, dan tablet.

Hanya ada satu masalah: Saat ini, sistem Tacotron 2 dilatih untuk meniru satu suara wanita. Untuk menghasilkan suara dan pola bicara baru, Google perlu melatih sistemnya lagi.

Tacotron 2