محرك ألفابت Tacotron 2 لتحويل النص إلى كلام يبدو أنه لا يمكن تمييزه تقريبًا عن البشر

قام مختبر أبحاث الذكاء الاصطناعي التابع لشركة Alphabet بتطوير Tacotron 2، وهو نظام لتحويل النص إلى كلام ينتج صوتًا لا يمكن تمييزه عن الإنسان.

تم تطوير شركة DeepMind التابعة لشركة Alphabet WaveNet، وهي شبكة عصبية تعمل على تشغيل تركيب الكلام لمساعد Google، في أكتوبر. إنه قادر على الحصول على عينات صوتية أفضل وأكثر واقعية من عينات البحث العملاقة السابقة نظام تحويل النص إلى كلام، والأكثر من ذلك، أنه يولد صوتًا خامًا - وليس أصواتًا مجمعة معًا صوت الجهات الفاعلة. الآن، طور الباحثون في Alphabet إصدارًا جديدًا، Tacotron 2، يستخدم شبكات عصبية متعددة لإنتاج كلام لا يمكن تمييزه تقريبًا عن الإنسان.

وهنا عينة. الأول تم إنشاؤه باستخدام Tacotron 2، والثاني ممثل صوتي:

[موجات الصوت =" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[موجات الصوت =" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

يتكون Tacotron 2 من شبكتين عصبيتين عميقتين. وكما تصفه الورقة البحثية المنشورة هذا الشهر، فإن الأول يترجم النص إلى مخطط طيفي، وهو تمثيل مرئي لمجموعة من الترددات الصوتية. والثاني - WaveNet الخاص بـ DeepMind - يفسر المخطط ويولد العناصر الصوتية المقابلة. والنتيجة هي محرك متكامل يمكنه التركيز على الكلمات، ونطق الأسماء بشكل صحيح، والتقاط القواعد النحوية القرائن (أي التأكيد على الكلمات المكتوبة بخط مائل أو كبير)، وتغيير طريقة نطقها بناءً على علامات ترقيم.

ليس من الواضح ما إذا كان Tacotron 2 سيشق طريقه إلى الخدمات التي تواجه المستخدم مثل Google Assistant، ولكنه سيكون على قدم المساواة مع الدورة التدريبية. بعد فترة وجيزة من نشر بحث WaveNet الخاص بـ DeepMind، طرحت Google الآلة التعرف على الكلام المدعوم بالتعلم بلغات متعددة على الهواتف الذكية ومكبرات الصوت التي تعمل بالمساعد، وأقراص.

هناك مشكلة واحدة فقط: في الوقت الحالي، تم تدريب نظام Tacotron 2 لتقليد صوت أنثى واحدة. ولتوليد أصوات وأنماط كلام جديدة، ستحتاج جوجل إلى تدريب النظام مرة أخرى.

تاكوترون 2