Google ने वाक् संपीड़न के लिए एक कम-बिटरेट कोडेक Lyra विकसित किया है, जिसका उद्देश्य Google Duo जैसे ऐप्स में ध्वनि की गुणवत्ता में व्यापक सुधार करना है।
अपडेट 1 (04/09/2021 @ 03:45 अपराह्न ईटी): Google ने Google Duo द्वारा उपयोग किए जाने वाले नए कम-बिटरेट स्पीच कोडेक, Lyra के लिए स्रोत कोड जारी किया है। अधिक जानकारी के लिए यहां क्लिक करें. 1 मार्च, 2021 को प्रकाशित लेख नीचे संरक्षित है।
जबकि अमेरिकी वाहक अपने नए 5G नेटवर्क के विपणन में व्यस्त हैं, वास्तविकता यह है कि अधिकांश लोगों को विज्ञापित गति का अनुभव नहीं होगा। अभी भी यू.एस. के कई हिस्से हैं - और दुनिया भर में - जहां डेटा गति धीमी है, इसलिए क्षतिपूर्ति करने के लिए, Google Duo जैसी सेवाएँ सर्वोत्तम संभव वीडियो और ऑडियो को कुशलतापूर्वक वितरित करने के लिए संपीड़न तकनीकों का उपयोग करती हैं अनुभव। Google अब एक नए ऑडियो कोडेक का परीक्षण कर रहा है जिसका उद्देश्य खराब नेटवर्क कनेक्शन पर ऑडियो गुणवत्ता में काफी सुधार करना है।
एक ब्लॉग पोस्ट में, Google AI टीम ने अपने नए उच्च गुणवत्ता वाले, बहुत कम बिटरेट वाले स्पीच कोडेक का विवरण दिया है जिसे उन्होंने "लायरा" नाम दिया है। पारंपरिक की तरह पैरामीट्रिक कोडेक्स, लायरा की मूल वास्तुकला में विशिष्ट भाषण विशेषताओं (जिन्हें "फीचर्स" के रूप में भी जाना जाता है) को निकालना शामिल है के प्रपत्र
लॉग मेल स्पेक्ट्रोग्राम फिर उन्हें संपीड़ित किया जाता है, नेटवर्क पर प्रसारित किया जाता है, और एक जेनरेटिव मॉडल का उपयोग करके दूसरे छोर पर पुनः बनाया जाता है। हालाँकि, अधिक पारंपरिक पैरामीट्रिक कोडेक्स के विपरीत, लाइरा एक नए उच्च-गुणवत्ता वाले ऑडियो जेनरेटर मॉडल का उपयोग करता है जो कि नहीं है केवल भाषण से महत्वपूर्ण पैरामीटर निकालने में सक्षम है, बल्कि न्यूनतम मात्रा का उपयोग करके भाषण का पुनर्निर्माण करने में भी सक्षम है डेटा। लायरा में प्रयुक्त नया जेनरेटिव मॉडल Google पर आधारित है WaveNetEQ पर पिछला कार्य, जेनरेटिव मॉडल-आधारित पैकेट-हानि-छिपाव प्रणाली वर्तमान में Google Duo में उपयोग की जाती है।Google का कहना है कि उसके दृष्टिकोण ने लायरा को आज कई स्ट्रीमिंग और संचार प्लेटफार्मों में उपयोग किए जाने वाले अत्याधुनिक वेवफॉर्म कोडेक्स के बराबर बना दिया है। Google के अनुसार, इन अत्याधुनिक वेवफॉर्म कोडेक्स पर लाइरा का लाभ यह है कि लाइरा सिग्नल नमूना-दर-नमूना नहीं भेजता है, जिसके लिए उच्च बिटरेट (और इस प्रकार अधिक डेटा) की आवश्यकता होती है। डिवाइस पर जेनरेटिव मॉडल चलाने की कम्प्यूटेशनल जटिलता संबंधी चिंताओं को दूर करने के लिए, Google का कहना है कि लायरा एक "सस्ते आवर्ती जेनरेटर मॉडल" का उपयोग करता है जो "पर काम करता है" कम दर" लेकिन समानांतर में विभिन्न आवृत्ति रेंजों पर कई सिग्नल उत्पन्न करता है जिन्हें बाद में "वांछित नमूना दर पर एकल आउटपुट सिग्नल में संयोजित किया जाता है।" वास्तविक समय में एक मध्य-श्रेणी डिवाइस पर इस जेनरेटिव मॉडल को चलाने से 90 एमएस की प्रोसेसिंग विलंबता उत्पन्न होती है, जिसे Google का कहना है कि "अन्य पारंपरिक भाषण के अनुरूप है कोडेक्स।"
के साथ रखा वीडियो के लिए AV1 कोडेक, Google का कहना है कि प्राचीन 56kbps डायल-इन मॉडेम पर भी उपयोगकर्ताओं के लिए वीडियो चैट हो सकती है। ऐसा इसलिए है क्योंकि लायरा को 3kbps जैसे भारी बैंडविड्थ-बाधित वातावरण में संचालित करने के लिए डिज़ाइन किया गया है। Google के अनुसार, लाइरा बहुत कम बिटरेट पर रॉयल्टी-मुक्त ओपन-सोर्स ओपस कोडेक के साथ-साथ स्पीक्स, एमईएलपी और एएमआर जैसे अन्य कोडेक्स से आसानी से बेहतर प्रदर्शन करती है। यहां Google द्वारा उपलब्ध कराए गए कुछ भाषण नमूने दिए गए हैं। लायरा में एन्कोड किए गए ऑडियो को छोड़कर, प्रत्येक भाषण नमूने बहुत कम बिटरेट पर खराब ऑडियो गुणवत्ता से ग्रस्त हैं।
शुद्ध वाणी
मूल
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav
शोरगुल वाला वातावरण
मूल
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav
Opus@6kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav
Lyra@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav
Speex@3kbps
https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav
Google का कहना है कि उसने लायरा को "ओपन-सोर्स ऑडियो लाइब्रेरी का उपयोग करके 70 से अधिक भाषाओं में बोलने वालों के साथ हजारों घंटे के ऑडियो के साथ प्रशिक्षित किया और फिर ऑडियो का सत्यापन किया।" विशेषज्ञ और क्राउडसोर्स्ड श्रोताओं के साथ गुणवत्ता।" जैसे, बहुत कम बैंडविड्थ पर कॉल की गुणवत्ता में सुधार के लिए नया कोडेक पहले से ही Google Duo में चल रहा है। सम्बन्ध। जबकि लायरा वर्तमान में भाषण उपयोग के मामलों पर केंद्रित है, Google यह पता लगा रहा है कि इसे सामान्य-उद्देश्य वाले ऑडियो कोडेक में कैसे बनाया जाए।
अद्यतन 1: Google ओपन-सोर्स Lyra कोडेक का उपयोग Google Duo में किया गया है
इस सप्ताह की शुरुआत में, Google की घोषणा की इसमें Google Duo द्वारा उपयोग किया जाने वाला नया ऑडियो कोडेक Lyra ओपन-सोर्स था, ताकि अन्य डेवलपर्स इसे अपने स्वयं के संचार ऐप्स में उपयोग कर सकें। रिलीज़ लाइरा के साथ ऑडियो को एनकोड और डीकोड करने के लिए आवश्यक टूल के साथ आता है और लिनक्स पर विकास के साथ 64-बिट एआरएम एंड्रॉइड के लिए अनुकूलित है। ओपन-सोर्स लाइब्रेरी वास्तविक समय में ध्वनि संचार के लिए लायरा के उपयोग पर केंद्रित है, लेकिन Google है डेवलपर्स से अपेक्षा की जाती है कि वे कोडेक को अन्य अनुप्रयोगों पर लागू करें जो भाषण को एन्कोड और डीकोड करते हैं ऑडियो. कोड C++ में लिखा गया है और कोर एपीआई, सिग्नल प्रोसेसिंग टूलचेन और एक डेमो एंड्रॉइड ऐप अब उपलब्ध है GitHub अपाचे लाइसेंस के तहत बीटा रिलीज़ के रूप में।