अल्फाबेट का टैकोट्रॉन 2 टेक्स्ट-टू-स्पीच इंजन इंसानों से लगभग अप्रभेद्य लगता है

अल्फाबेट की एआई अनुसंधान प्रयोगशाला ने टैकोट्रॉन 2 विकसित किया है, जो एक टेक्स्ट-टू-स्पीच प्रणाली है जो मानव से अप्रभेद्य ऑडियो उत्पन्न करती है।

अल्फाबेट की सहायक कंपनी डीपमाइंड ने विकसित किया वेवनेट, एक तंत्रिका नेटवर्क जो अक्टूबर में Google Assistant के वाक् संश्लेषण को शक्ति प्रदान करता है। यह पिछले खोज दिग्गज की तुलना में बेहतर और अधिक यथार्थवादी ऑडियो नमूने देने में सक्षम है टेक्स्ट-टू-स्पीच प्रणाली, और इससे भी अधिक, यह कच्चा ऑडियो उत्पन्न करता है - न कि एक साथ जोड़ी गई ध्वनियाँ आवाज अभिनेता. अब, अल्फाबेट के शोधकर्ताओं ने एक नया संस्करण, टैकोट्रॉन 2 विकसित किया है, जो मानव से लगभग अप्रभेद्य भाषण उत्पन्न करने के लिए कई तंत्रिका नेटवर्क का उपयोग करता है।

यहाँ एक नमूना है. पहला टैकोट्रॉन 2 का उपयोग करके तैयार किया गया था, और दूसरा एक आवाज अभिनेता है:

[ऑडियो wav='' https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[ऑडियो wav='' https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

टैकोट्रॉन 2 में दो गहरे तंत्रिका नेटवर्क शामिल हैं। जैसा कि इस महीने प्रकाशित शोध पत्र में इसका वर्णन किया गया है, पहला पाठ को स्पेक्ट्रोग्राम में अनुवादित करता है, जो ऑडियो आवृत्तियों के स्पेक्ट्रम का एक दृश्य प्रतिनिधित्व है। दूसरा - डीपमाइंड का वेवनेट - चार्ट की व्याख्या करता है और संबंधित ऑडियो तत्व उत्पन्न करता है। परिणाम एक एंड-टू-एंड इंजन है जो शब्दों पर जोर दे सकता है, नामों का सही उच्चारण कर सकता है, वाक्यविन्यास सीख सकता है सुराग (यानी, तनाव वाले शब्द जो इटैलिकाइज़्ड या बड़े अक्षरों में लिखे गए हैं), और इसके आधार पर इसके उच्चारण के तरीके को बदल देते हैं विराम चिह्न.

यह स्पष्ट नहीं है कि टैकोट्रॉन 2 Google Assistant जैसी उपयोगकर्ता-सामना वाली सेवाओं के लिए अपना रास्ता बनाएगा या नहीं, लेकिन यह पाठ्यक्रम के बराबर होगा। डीपमाइंड के वेवनेट शोध के प्रकाशन के तुरंत बाद, Google ने मशीन लॉन्च की सहायक-संचालित स्मार्टफोन, स्पीकर पर कई भाषाओं में सीखने-संचालित वाक् पहचान, और गोलियाँ.

केवल एक ही समस्या है: अभी, टैकोट्रॉन 2 प्रणाली को एक महिला की आवाज़ की नकल करने के लिए प्रशिक्षित किया गया है। नई आवाज़ें और भाषण पैटर्न उत्पन्न करने के लिए, Google को सिस्टम को फिर से प्रशिक्षित करने की आवश्यकता होगी।


टैकोट्रॉन 2