OpenAI का व्हिस्पर हमारे द्वारा अब तक आज़माया गया सबसे सटीक AI वाक् पहचान उपकरण है

OpenAI का व्हिस्पर आपके लिए कुछ भी आसानी से ट्रांसक्रिप्ट कर देगा, और यह सबसे अच्छा ट्रांसक्रिप्शन टूल है जो मैंने अब तक देखा है।

किसी साक्षात्कार या वीडियो को प्रसारित करने के कुछ तरीके हैं। आप इसे केवल सुनकर हाथ से कर सकते हैं, जो आपको सबसे अच्छी सटीकता देगा लेकिन इसमें सबसे अधिक समय लगेगा, या आप किसी सेवा या उपकरण का उपयोग कर सकते हैं। उदाहरण के लिए, मैं YouTube का उपयोग करता था, इसे स्वचालित रूप से उपशीर्षक उत्पन्न करने देता था, उन उपशीर्षकों को सहेजता था, और सभी समस्याओं को ठीक करने के लिए उन्हें संपादित करता था। अब, ऐसे कई AI उपकरण हैं जो उत्कृष्ट कार्य कर सकते हैं, और ऐसा ही एक उपकरण OpenAI का व्हिस्पर है।

यह प्रदर्शित करने के लिए कि उपकरण कितनी अच्छी तरह काम करता है, मैंने इसे प्रतिलेखित किया सबसे हालिया XDA TV वीडियो. जैसा कि आप नीचे देख सकते हैं, यह अनुभागों को प्रतिलेखित और टाइमस्टैम्प करेगा, जिन्हें आसानी से YouTube जैसे प्लेटफ़ॉर्म पर उपशीर्षक के रूप में उपयोग किया जा सकता है। यह तेजी से भी काम करता है; मैंने इसे अपने एम1 मैकबुक प्रो पर 10 मिनट के वीडियो को केवल साढ़े पांच मिनट में ट्रांसक्राइब करने के लिए उपयोग किया।

यह टूल उन सामग्री निर्माताओं के लिए एक गेम-चेंजर है, जिन्हें उपशीर्षक उत्पन्न करने की आवश्यकता होती है, जिन लोगों को साक्षात्कारों को ट्रांसक्रिप्ट करने की आवश्यकता होती है, या जो किसी भी प्रकार के ऑडियो को टेक्स्ट में बदलना चाहते हैं। मुझे इसकी सटीकता अविश्वसनीय लगी है, और हाल ही में, मैंने 25 मिनट के एक साक्षात्कार को प्रतिलेखित किया, जिसमें एक भी चीज़ गलत तरीके से प्रतिलेखित नहीं की गई थी। व्हिस्पर लिखित ऑडियो में भाषाओं का अनुवाद भी कर सकता है।

व्हिस्पर क्या है?

व्हिस्पर एक स्वचालित वाक् पहचान प्रणाली है जो बोले गए शब्दों को समझने में अविश्वसनीय सटीकता प्रदर्शित करती है। इसे OpenAI द्वारा संभवतः सिस्टम में उपयोग के लिए बनाया गया था चैटजीपीटी, अब आप कहां कर सकते हैं एआई के साथ बातचीत करें, लेकिन कंपनी ने व्हिस्पर को भी ओपन-सोर्स किया ताकि समुदाय भी इसका उपयोग कर सके।

यह कैसे काम करता है यह काफी उन्नत है, और इसमें इंटरनेट से एकत्र किए गए 680,000 घंटों के पर्यवेक्षित डेटा पर प्रशिक्षण शामिल है, जिसमें से एक तिहाई अंग्रेजी में नहीं था। ऑडियो को 30-सेकंड के टुकड़ों में विभाजित किया जाता है, परिवर्तित किया जाता है, और फिर एक एनकोडर में भेज दिया जाता है, और एक डिकोडर जिसे प्रशिक्षित किया गया है वह संबंधित टेक्स्ट कैप्शन की भविष्यवाणी करने का प्रयास करेगा। यहां अन्य चरण भी होते हैं, लेकिन वे काफी तकनीकी हैं और उनमें बोली जाने वाली भाषा की पहचान करना, बहुभाषी भाषण प्रतिलेखन और अंग्रेजी में अनुवाद शामिल है।

जहां तक इसकी तुलना अन्य उपकरणों से करने की बात है, तो ओपनएआई का कहना है कि व्हिस्पर अन्य भाषा मॉडलों की तुलना में 50% कम त्रुटियां करता है, और मैं इस पर विश्वास करता हूं। पिछले कुछ वर्षों में मैंने ऑडियो को ट्रांसक्राइब करने के लिए बहुत सारे टूल का उपयोग किया है, और मेरे लिए व्हिस्पर जितना सटीक कुछ भी नहीं है। जैसा कि मैंने उल्लेख किया है, मैंने 25 मिनट का एक साक्षात्कार लिखा जो त्रुटिहीन रूप से सामने आया, जिससे लगभग हर उपकरण जूझता है।

व्हिस्पर के बारे में विशेष रूप से दिलचस्प बात यह है कि यह अंतिम उपयोगकर्ताओं के लिए नहीं बल्कि डेवलपर्स और शोधकर्ताओं के लिए लक्षित उपकरण है। ओपनएआई ने कहा कि मॉडल और कोड को ओपन-सोर्स करने का कारण "उपयोगी अनुप्रयोगों के निर्माण के लिए एक आधार के रूप में काम करना" था मजबूत वाक् प्रसंस्करण पर आगे के शोध के लिए।" आप इसे अभी भी सेट कर सकते हैं और इसका उपयोग कर सकते हैं, लेकिन यह वास्तव में एक उपभोक्ता उत्पाद नहीं है अभी तक।

ऐसे कई मॉडल हैं जिनका उपयोग आप ऑडियो ट्रांसक्रिप्ट करते समय कर सकते हैं, और प्रत्येक के लिए अलग-अलग वीआरएएम आवश्यकताएं हैं। सबसे बड़े मॉडल के लिए 10GB vRAM की आवश्यकता होती है, हालाँकि यह सबसे सटीक भी है। सबसे बड़े मॉडल को छोड़कर, प्रत्येक के केवल अंग्रेजी मॉडल भी हैं, जिससे वीआरएएम आवश्यकताओं को कम करना चाहिए यदि आप जानते हैं कि आप जिस सामग्री को ट्रांसक्राइब कर रहे हैं वह केवल अंग्रेजी में है। किसी भी तरह, आपको एक की आवश्यकता होगी अच्छा जीपीयू इसे चालू करने और चलाने के लिए पर्याप्त वीआरएएम के साथ।

OpenAI के व्हिस्पर का उपयोग कैसे करें

OpenAI का व्हिस्पर एक ओपन-सोर्स टूल है जिसे आप कुछ ट्यूटोरियल्स का पालन करके स्थानीय रूप से बहुत आसानी से चला सकते हैं। यदि आपके पास मैकबुक है, तो इसे काम करने के लिए कुछ और जटिल चरण हैं, लेकिन यह बहुत बुरा नहीं है, क्योंकि आपको मूल रूप से केवल एक संकलन करने की आवश्यकता होगी व्हिस्पर का C++ संस्करण स्वयं स्रोत से. यह कोई आधिकारिक पोर्ट नहीं है, लेकिन इसे Apple सिलिकॉन पर मूल रूप से चलाने का यही एकमात्र तरीका है। तुम कर सकते हो इस ट्यूटोरियल का अनुसरण करें यह कैसे करना है इसके लिए मीडियम पर।

आप इसे केवल Google Collab में भी चला सकते हैं, हालाँकि यह धीमा है, या यदि आपके पास है तो आप इसे स्थानीय रूप से चला सकते हैं x86 मशीन. आपको बस यह सुनिश्चित करना होगा कि आपने ffmpeg इंस्टॉल कर लिया है, और आप व्हिस्पर में मौजूद Git रिपॉजिटरी को क्लोन कर सकते हैं और उसे चला सकते हैं। बस इसमें दिए गए निर्देशों का पालन करें व्हिस्पर गिट भंडार, और आप कुछ ही समय में व्हिस्पर सेट अप करने में सक्षम होंगे। आपका हार्डवेयर जितना अधिक शक्तिशाली होगा, निश्चित रूप से उतना ही बेहतर होगा, लेकिन यह मूल रूप से पर्याप्त वीआरएएम के साथ किसी भी चीज़ पर चलेगा, अगर आपका पीसी धीमा है तो इसमें अधिक समय लगेगा।