เครื่องมือแปลงข้อความเป็นคำพูด Tacotron 2 ของตัวอักษรฟังดูแทบจะแยกไม่ออกจากมนุษย์

ห้องทดลอง AI ของ Alphabet ได้พัฒนา Tacotron 2 ซึ่งเป็นระบบอ่านออกเสียงข้อความที่สร้างเสียงที่แยกไม่ออกจากมนุษย์

DeepMind ซึ่งเป็นบริษัทในเครือของ Alphabet ได้รับการพัฒนาแล้ว เวฟเน็ตซึ่งเป็นโครงข่ายประสาทเทียมที่ขับเคลื่อนการสังเคราะห์คำพูดของ Google Assistant ในเดือนตุลาคม สามารถเก็บตัวอย่างเสียงได้ดีและสมจริงมากกว่าบริษัทยักษ์ใหญ่ด้านการค้นหาก่อนหน้านี้ ระบบแปลงข้อความเป็นคำพูด และยิ่งไปกว่านั้น ยังสร้างเสียงดิบ -- ไม่ใช่เสียงที่ต่อกันจาก นักแสดงเสียง ขณะนี้ นักวิจัยจาก Alphabet ได้พัฒนา Tacotron 2 เวอร์ชันใหม่ ซึ่งใช้โครงข่ายประสาทเทียมหลายเครือข่ายเพื่อสร้างเสียงพูดที่แทบจะแยกไม่ออกจากมนุษย์

นี่คือตัวอย่าง อันแรกสร้างโดยใช้ Tacotron 2 และอันที่สองคือนักพากย์:

[เสียง wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[เสียง wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Tacotron 2 ประกอบด้วยโครงข่ายประสาทเทียมระดับลึกสองเครือข่าย ตามที่รายงานการวิจัยที่ตีพิมพ์ในเดือนนี้อธิบายไว้ ฉบับแรกแปลข้อความเป็นสเปกโตรแกรม ซึ่งเป็นการแสดงสเปกตรัมของความถี่เสียงด้วยภาพ ประการที่สอง - WaveNet ของ DeepMind - ตีความแผนภูมิและสร้างองค์ประกอบเสียงที่เกี่ยวข้อง ผลลัพธ์ที่ได้คือเอ็นจิ้นจากต้นทางถึงปลายทางที่สามารถเน้นคำ การออกเสียงชื่อได้อย่างถูกต้อง เลือกใช้วากยสัมพันธ์ เบาะแส (เช่น เน้นคำที่เป็นตัวเอียงหรือตัวพิมพ์ใหญ่) และเปลี่ยนวิธีการออกเสียงตาม เครื่องหมายวรรคตอน

ยังไม่ชัดเจนว่า Tacotron 2 จะเข้าถึงบริการแบบเผชิญหน้าผู้ใช้เช่น Google Assistant หรือไม่ แต่ก็ถือว่าเท่าเทียมกันสำหรับหลักสูตรนี้ ไม่นานหลังจากการตีพิมพ์งานวิจัย WaveNet ของ DeepMind Google ก็ได้เปิดตัวเครื่องดังกล่าว การรู้จำคำพูดที่ขับเคลื่อนด้วยการเรียนรู้ในหลายภาษาบนสมาร์ทโฟน ลำโพง และแท็บเล็ต

มีเพียงปัญหาเดียวคือ ขณะนี้ระบบ Tacotron 2 ได้รับการฝึกฝนให้เลียนแบบเสียงผู้หญิงเพียงคนเดียว ในการสร้างเสียงและรูปแบบคำพูดใหม่ๆ Google จะต้องฝึกระบบอีกครั้ง

ทาโคตรอน 2