अल्फाबेट का टैकोट्रॉन 2 टेक्स्ट-टू-स्पीच इंजन इंसानों से लगभग अप्रभेद्य लगता है

click fraud protection

अल्फाबेट की एआई अनुसंधान प्रयोगशाला ने टैकोट्रॉन 2 विकसित किया है, जो एक टेक्स्ट-टू-स्पीच प्रणाली है जो मानव से अप्रभेद्य ऑडियो उत्पन्न करती है।

अल्फाबेट की सहायक कंपनी डीपमाइंड ने विकसित किया वेवनेट, एक तंत्रिका नेटवर्क जो अक्टूबर में Google Assistant के वाक् संश्लेषण को शक्ति प्रदान करता है। यह पिछले खोज दिग्गज की तुलना में बेहतर और अधिक यथार्थवादी ऑडियो नमूने देने में सक्षम है टेक्स्ट-टू-स्पीच प्रणाली, और इससे भी अधिक, यह कच्चा ऑडियो उत्पन्न करता है - न कि एक साथ जोड़ी गई ध्वनियाँ आवाज अभिनेता. अब, अल्फाबेट के शोधकर्ताओं ने एक नया संस्करण, टैकोट्रॉन 2 विकसित किया है, जो मानव से लगभग अप्रभेद्य भाषण उत्पन्न करने के लिए कई तंत्रिका नेटवर्क का उपयोग करता है।

यहाँ एक नमूना है. पहला टैकोट्रॉन 2 का उपयोग करके तैयार किया गया था, और दूसरा एक आवाज अभिनेता है:

[ऑडियो wav='' https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[ऑडियो wav='' https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

टैकोट्रॉन 2 में दो गहरे तंत्रिका नेटवर्क शामिल हैं। जैसा कि इस महीने प्रकाशित शोध पत्र में इसका वर्णन किया गया है, पहला पाठ को स्पेक्ट्रोग्राम में अनुवादित करता है, जो ऑडियो आवृत्तियों के स्पेक्ट्रम का एक दृश्य प्रतिनिधित्व है। दूसरा - डीपमाइंड का वेवनेट - चार्ट की व्याख्या करता है और संबंधित ऑडियो तत्व उत्पन्न करता है। परिणाम एक एंड-टू-एंड इंजन है जो शब्दों पर जोर दे सकता है, नामों का सही उच्चारण कर सकता है, वाक्यविन्यास सीख सकता है सुराग (यानी, तनाव वाले शब्द जो इटैलिकाइज़्ड या बड़े अक्षरों में लिखे गए हैं), और इसके आधार पर इसके उच्चारण के तरीके को बदल देते हैं विराम चिह्न.

यह स्पष्ट नहीं है कि टैकोट्रॉन 2 Google Assistant जैसी उपयोगकर्ता-सामना वाली सेवाओं के लिए अपना रास्ता बनाएगा या नहीं, लेकिन यह पाठ्यक्रम के बराबर होगा। डीपमाइंड के वेवनेट शोध के प्रकाशन के तुरंत बाद, Google ने मशीन लॉन्च की सहायक-संचालित स्मार्टफोन, स्पीकर पर कई भाषाओं में सीखने-संचालित वाक् पहचान, और गोलियाँ.

केवल एक ही समस्या है: अभी, टैकोट्रॉन 2 प्रणाली को एक महिला की आवाज़ की नकल करने के लिए प्रशिक्षित किया गया है। नई आवाज़ें और भाषण पैटर्न उत्पन्न करने के लिए, Google को सिस्टम को फिर से प्रशिक्षित करने की आवश्यकता होगी।


टैकोट्रॉन 2