Google Duo का नया मशीन लर्निंग मॉडल कॉल में ऑडियो गुणवत्ता में सुधार करता है

Google डुओ अंतराल को भरने और घबराहट को ठीक करके कॉल में ऑडियो गुणवत्ता में सुधार करने के लिए Google के उपन्यास WaveNetEQ मशीन लर्निंग मॉडल का उपयोग करता है।

Google का नए संचार ऐप्स के पक्ष में मैसेजिंग ऐप्स को अप्रिय तरीके से ख़त्म करने का इतिहास रहा है, जो अंततः ख़त्म हो जाते हैं। Google Duo, अब तक एक अपवाद रहा है, क्योंकि इसे अब बंद हो चुकी मैसेजिंग सेवा Allo के साथ लॉन्च किया गया था। डुओ ने लगातार Google का ध्यान आकर्षित किया है और लगातार नई सुविधाएँ जोड़ी हैं 5G सैमसंग S20 फोन पर 1080p सपोर्ट, (आगामी) लाइव कैप्शन, डूडल, और तक एक समूह कॉल में 12 प्रतिभागी. अब, Google एक सहज और निर्बाध ऑडियो अनुभव के लिए घबराहट की प्रमुख समस्या को दूर करने के लिए मशीन लर्निंग का उपयोग कर रहा है।

COVID-19 संगरोध अवधि के दौरान वीडियो कॉलिंग आधिकारिक संचार का एक महत्वपूर्ण तरीका बन गया है और चिड़चिड़ा ऑडियो आपको या आपकी कंपनी को आर्थिक रूप से नुकसान पहुंचा सकता है। Google स्वीकार करता है कि डुओ पर 99% कॉल नेटवर्क विलंब के कारण बाधित होती हैं। इनमें से लगभग पांचवें कॉल में ऑडियो में 3% की हानि होती है जबकि दसवें में लगभग 8% ऑडियो की हानि होती है, जिनमें से अधिकांश बहुत महत्वपूर्ण जानकारी हो सकती है जिसे आप खो देते हैं। ऐसा इसलिए होता है क्योंकि डेटा के पैकेट या तो विलंबित हो जाते हैं या ट्रांसमिशन में खो जाते हैं और इन पैकेटों की अनुपस्थिति के परिणामस्वरूप ऑडियो में गड़बड़ियां हो जाती हैं, जिससे इसका अधिकांश भाग समझ से बाहर हो जाता है।

Google की नई WaveNetEQ मशीन लर्निंग एल्गोरिदम "पैकेट लॉस कंसीलमेंट" (PLC) नामक तकनीक पर काम करती है। वेवनेट EQ एक जनरेटिव मॉडल पर आधारित है डीपमाइंड कावेवआरएनएन और यथार्थवादी फिलर्स के साथ कमियों को पाटने के लिए ऑडियो के टुकड़े बनाता है। एआई मॉडल को भाषण-संबंधी डेटा के एक बड़े पूल को फीड करके प्रशिक्षित किया गया है। Google Duo में एंड-टू-एंड एन्क्रिप्शन के कारण, मॉडल रिसीवर के डिवाइस पर चलता है। लेकिन गूगल का दावा है कि यह "फ़ोन पर चलने के लिए पर्याप्त तेज़, साथ ही अत्याधुनिक ऑडियो गुणवत्ता भी प्रदान करता है।"

वेवआरआरएन टेक्स्ट-टू-स्पीच मॉडल पर निर्भर करता है और "क्या कहना है" के लिए प्रशिक्षित होने के अलावा, इसे "कैसे कहें" चीजों के लिए भी प्रशिक्षित किया गया है। यह तत्काल भविष्य में ध्वनियों की भविष्यवाणी करने के लिए मजबूत ध्वन्यात्मक समझ के साथ इनपुट का विश्लेषण करता है। अंतराल को भरने के अलावा, मॉडल जिटर का अनुसरण करने वाले हिस्से को ओवरलैप करने के लिए कच्चे तरंग रूप में अधिशेष ऑडियो भी उत्पन्न करता है। यह सिग्नल वास्तविक ऑडियो के साथ थोड़ा-सा क्रॉस-फ़ेडिंग के साथ ओवरलैप होता है और परिणामस्वरूप एक सहज संक्रमण होता है।

Google Duo के WaveNetEQ मॉडल को 100 व्यक्तियों द्वारा खिलाई गई 48 भाषाओं में प्रशिक्षित किया गया है ताकि यह केवल एक भाषा के बजाय मानव आवाज की सामान्य विशेषताओं को सीख सके। मॉडल को अधिकतर शब्दांश उत्पन्न करने के लिए प्रशिक्षित किया गया है और यह 120ms लंबे अंतराल को भर सकता है।

यह सुविधा Google Pixel 4 पर पहले से ही उपलब्ध है और अब इसे अन्य Android डिवाइसों पर भी उपलब्ध कराया जा रहा है।


स्रोत: गूगल एआई ब्लॉग