खराब कनेक्शन पर बेहतर कॉल गुणवत्ता के लिए Google Duo एक नए कोडेक का उपयोग करता है

Google ने वाक् संपीड़न के लिए एक कम-बिटरेट कोडेक Lyra विकसित किया है, जिसका उद्देश्य Google Duo जैसे ऐप्स में ध्वनि की गुणवत्ता में व्यापक सुधार करना है।

अपडेट 1 (04/09/2021 @ 03:45 अपराह्न ईटी): Google ने Google Duo द्वारा उपयोग किए जाने वाले नए कम-बिटरेट स्पीच कोडेक, Lyra के लिए स्रोत कोड जारी किया है। अधिक जानकारी के लिए यहां क्लिक करें. 1 मार्च, 2021 को प्रकाशित लेख नीचे संरक्षित है।

जबकि अमेरिकी वाहक अपने नए 5G नेटवर्क के विपणन में व्यस्त हैं, वास्तविकता यह है कि अधिकांश लोगों को विज्ञापित गति का अनुभव नहीं होगा। अभी भी यू.एस. के कई हिस्से हैं - और दुनिया भर में - जहां डेटा गति धीमी है, इसलिए क्षतिपूर्ति करने के लिए, Google Duo जैसी सेवाएँ सर्वोत्तम संभव वीडियो और ऑडियो को कुशलतापूर्वक वितरित करने के लिए संपीड़न तकनीकों का उपयोग करती हैं अनुभव। Google अब एक नए ऑडियो कोडेक का परीक्षण कर रहा है जिसका उद्देश्य खराब नेटवर्क कनेक्शन पर ऑडियो गुणवत्ता में काफी सुधार करना है।

एक ब्लॉग पोस्ट में, Google AI टीम ने अपने नए उच्च गुणवत्ता वाले, बहुत कम बिटरेट वाले स्पीच कोडेक का विवरण दिया है जिसे उन्होंने "लायरा" नाम दिया है। पारंपरिक की तरह पैरामीट्रिक कोडेक्स, लायरा की मूल वास्तुकला में विशिष्ट भाषण विशेषताओं (जिन्हें "फीचर्स" के रूप में भी जाना जाता है) को निकालना शामिल है के प्रपत्र

लॉग मेल स्पेक्ट्रोग्राम फिर उन्हें संपीड़ित किया जाता है, नेटवर्क पर प्रसारित किया जाता है, और एक जेनरेटिव मॉडल का उपयोग करके दूसरे छोर पर पुनः बनाया जाता है। हालाँकि, अधिक पारंपरिक पैरामीट्रिक कोडेक्स के विपरीत, लाइरा एक नए उच्च-गुणवत्ता वाले ऑडियो जेनरेटर मॉडल का उपयोग करता है जो कि नहीं है केवल भाषण से महत्वपूर्ण पैरामीटर निकालने में सक्षम है, बल्कि न्यूनतम मात्रा का उपयोग करके भाषण का पुनर्निर्माण करने में भी सक्षम है डेटा। लायरा में प्रयुक्त नया जेनरेटिव मॉडल Google पर आधारित है WaveNetEQ पर पिछला कार्य, जेनरेटिव मॉडल-आधारित पैकेट-हानि-छिपाव प्रणाली वर्तमान में Google Duo में उपयोग की जाती है।

लायरा की मूल वास्तुकला। स्रोत: गूगल

Google का कहना है कि उसके दृष्टिकोण ने लायरा को आज कई स्ट्रीमिंग और संचार प्लेटफार्मों में उपयोग किए जाने वाले अत्याधुनिक वेवफॉर्म कोडेक्स के बराबर बना दिया है। Google के अनुसार, इन अत्याधुनिक वेवफॉर्म कोडेक्स पर लाइरा का लाभ यह है कि लाइरा सिग्नल नमूना-दर-नमूना नहीं भेजता है, जिसके लिए उच्च बिटरेट (और इस प्रकार अधिक डेटा) की आवश्यकता होती है। डिवाइस पर जेनरेटिव मॉडल चलाने की कम्प्यूटेशनल जटिलता संबंधी चिंताओं को दूर करने के लिए, Google का कहना है कि लायरा एक "सस्ते आवर्ती जेनरेटर मॉडल" का उपयोग करता है जो "पर काम करता है" कम दर" लेकिन समानांतर में विभिन्न आवृत्ति रेंजों पर कई सिग्नल उत्पन्न करता है जिन्हें बाद में "वांछित नमूना दर पर एकल आउटपुट सिग्नल में संयोजित किया जाता है।" वास्तविक समय में एक मध्य-श्रेणी डिवाइस पर इस जेनरेटिव मॉडल को चलाने से 90 एमएस की प्रोसेसिंग विलंबता उत्पन्न होती है, जिसे Google का कहना है कि "अन्य पारंपरिक भाषण के अनुरूप है कोडेक्स।"

के साथ रखा वीडियो के लिए AV1 कोडेक, Google का कहना है कि प्राचीन 56kbps डायल-इन मॉडेम पर भी उपयोगकर्ताओं के लिए वीडियो चैट हो सकती है। ऐसा इसलिए है क्योंकि लायरा को 3kbps जैसे भारी बैंडविड्थ-बाधित वातावरण में संचालित करने के लिए डिज़ाइन किया गया है। Google के अनुसार, लाइरा बहुत कम बिटरेट पर रॉयल्टी-मुक्त ओपन-सोर्स ओपस कोडेक के साथ-साथ स्पीक्स, एमईएलपी और एएमआर जैसे अन्य कोडेक्स से आसानी से बेहतर प्रदर्शन करती है। यहां Google द्वारा उपलब्ध कराए गए कुछ भाषण नमूने दिए गए हैं। लायरा में एन्कोड किए गए ऑडियो को छोड़कर, प्रत्येक भाषण नमूने बहुत कम बिटरेट पर खराब ऑडियो गुणवत्ता से ग्रस्त हैं।

शुद्ध वाणी

मूल

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/clean_p257_011_speex.wav

शोरगुल वाला वातावरण

मूल

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_reference.wav

Opus@6kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_opus.wav

Lyra@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_lyra.wav

Speex@3kbps

https://www.gstatic.com/cmaudio/lyra/ai_blog/noisy_p232_013_speex.wav

Google का कहना है कि उसने लायरा को "ओपन-सोर्स ऑडियो लाइब्रेरी का उपयोग करके 70 से अधिक भाषाओं में बोलने वालों के साथ हजारों घंटे के ऑडियो के साथ प्रशिक्षित किया और फिर ऑडियो का सत्यापन किया।" विशेषज्ञ और क्राउडसोर्स्ड श्रोताओं के साथ गुणवत्ता।" जैसे, बहुत कम बैंडविड्थ पर कॉल की गुणवत्ता में सुधार के लिए नया कोडेक पहले से ही Google Duo में चल रहा है। सम्बन्ध। जबकि लायरा वर्तमान में भाषण उपयोग के मामलों पर केंद्रित है, Google यह पता लगा रहा है कि इसे सामान्य-उद्देश्य वाले ऑडियो कोडेक में कैसे बनाया जाए।

अद्यतन 1: Google ओपन-सोर्स Lyra कोडेक का उपयोग Google Duo में किया गया है

इस सप्ताह की शुरुआत में, Google की घोषणा की इसमें Google Duo द्वारा उपयोग किया जाने वाला नया ऑडियो कोडेक Lyra ओपन-सोर्स था, ताकि अन्य डेवलपर्स इसे अपने स्वयं के संचार ऐप्स में उपयोग कर सकें। रिलीज़ लाइरा के साथ ऑडियो को एनकोड और डीकोड करने के लिए आवश्यक टूल के साथ आता है और लिनक्स पर विकास के साथ 64-बिट एआरएम एंड्रॉइड के लिए अनुकूलित है। ओपन-सोर्स लाइब्रेरी वास्तविक समय में ध्वनि संचार के लिए लायरा के उपयोग पर केंद्रित है, लेकिन Google है डेवलपर्स से अपेक्षा की जाती है कि वे कोडेक को अन्य अनुप्रयोगों पर लागू करें जो भाषण को एन्कोड और डीकोड करते हैं ऑडियो. कोड C++ में लिखा गया है और कोर एपीआई, सिग्नल प्रोसेसिंग टूलचेन और एक डेमो एंड्रॉइड ऐप अब उपलब्ध है GitHub अपाचे लाइसेंस के तहत बीटा रिलीज़ के रूप में।