سوف تقوم أداة Whisper من OpenAI بنسخ أي شيء لك بسهولة، وهي أفضل أداة نسخ صادفتها حتى الآن.
هناك عدة طرق لنسخ مقابلة أو مقطع فيديو. يمكنك القيام بذلك يدويًا من خلال الاستماع فقط، مما يمنحك أفضل دقة ولكنه يستغرق وقتًا أطول بكثير، أو يمكنك استخدام خدمة أو أداة. على سبيل المثال، كنت أستخدم موقع YouTube، وأسمح له بإنشاء ترجمات تلقائيًا وحفظ تلك الترجمات وتحريرها لإصلاح جميع المشكلات. الآن، هناك العديد من أدوات الذكاء الاصطناعي التي يمكنها القيام بعمل ممتاز، وإحدى هذه الأدوات هي Whisper من OpenAI.
لتوضيح مدى جودة عمل الأداة، قمت بنسخ ملف أحدث فيديو تلفزيون XDA. كما ترون أدناه، فإنه سيقوم بنسخ المقاطع وختمها بالوقت، والتي يمكن استخدامها بسهولة كترجمات على منصات مثل YouTube. إنه يعمل بسرعة أيضًا؛ لقد استخدمته على جهاز M1 MacBook Pro الخاص بي لنسخ مقطع فيديو مدته 10 دقائق في ما يزيد قليلاً عن خمس دقائق ونصف.
ستغير هذه الأداة قواعد اللعبة بالنسبة لمنشئي المحتوى الذين يحتاجون إلى إنشاء ترجمات، أو الأشخاص الذين يحتاجون إلى نسخ المقابلات، أو الذين يريدون فقط تحويل أي نوع من الصوت إلى نص. لقد وجدت دقتها مذهلة، ومؤخرًا، قمت بنسخ مقابلة مدتها 25 دقيقة حيث لم يتم نسخ أي شيء بشكل غير صحيح. يمكن لـ Whisper أيضًا ترجمة اللغات بالصوت المكتوب.
ما هو الهمس؟
Whisper هو نظام تلقائي للتعرف على الكلام يُظهر دقة مذهلة في فهم الكلمات المنطوقة. تم بناؤه بواسطة OpenAI، ومن المفترض أن يستخدم في أنظمة مثل ChatGPT، حيث يمكنك الآن التحدث مع الذكاء الاصطناعي، لكن الشركة أيضًا قامت بفتح برنامج Whisper مفتوح المصدر حتى يتمكن المجتمع من استخدامه أيضًا.
إن آلية العمل متقدمة إلى حد ما، وتتضمن التدريب على 680 ألف ساعة من البيانات الخاضعة للإشراف والتي تم جمعها من الإنترنت، ثلثها لم يكن باللغة الإنجليزية. يتم تقسيم الصوت إلى أجزاء مدتها 30 ثانية، ويتم تحويلها، ثم تمريرها إلى برنامج تشفير، وسيحاول جهاز فك التشفير الذي تم تدريبه التنبؤ بالتسمية التوضيحية للنص المقابل. يتم تنفيذ خطوات أخرى هنا أيضًا، ولكنها تقنية جدًا وتتضمن تحديد اللغة التي يتم التحدث بها، ونسخ الكلام متعدد اللغات، والترجمة إلى الإنجليزية.
أما بالنسبة لكيفية مقارنتها بالأدوات الأخرى، تقول OpenAI أن Whisper يرتكب أخطاء أقل بنسبة تصل إلى 50% مقارنة بنماذج اللغات الأخرى، وأنا أصدق ذلك. لقد استخدمت الكثير من الأدوات على مر السنين لمحاولة نسخ الصوت، ولم يكن هناك شيء دقيق مثل Whisper بالنسبة لي. كما ذكرت، قمت بنسخ مقابلة مدتها 25 دقيقة خرجت بشكل لا تشوبه شائبة، والتي تعاني منها كل الأدوات تقريبًا.
الشيء الوحيد المثير للاهتمام بشكل خاص في Whisper هو أنها ليست أداة تستهدف المستخدمين النهائيين بل تستهدف المطورين والباحثين. وقالت OpenAI إن السبب وراء إتاحة النماذج والأكواد مفتوحة المصدر هو "أن تكون بمثابة أساس لبناء تطبيقات مفيدة و لمزيد من الأبحاث حول المعالجة القوية للكلام." لا يزال بإمكانك إعداده واستخدامه، ولكنه ليس منتجًا استهلاكيًا حقًا حتى الآن.
هناك العديد من النماذج التي يمكنك استخدامها عند نسخ الصوت، وهناك متطلبات vRAM مختلفة لكل منها. يتطلب الطراز الأكبر 10 جيجابايت من ذاكرة vRAM، على الرغم من أنه أيضًا الأكثر دقة. هناك أيضًا نماذج باللغة الإنجليزية فقط لكل منها، باستثناء الطراز الأكبر، والذي من شأنه أن يقلل متطلبات vRAM إذا كنت تعلم أن المحتوى الذي تقوم بنسخه هو باللغة الإنجليزية فقط. وفي كلتا الحالتين، سوف تحتاج إلى GPU جيد مع ما يكفي من vRAM لتشغيله.
كيفية استخدام برنامج Whisper الخاص بـ OpenAI
Whisper من OpenAI هي أداة مفتوحة المصدر يمكنك تشغيلها محليًا بسهولة تامة من خلال اتباع بعض البرامج التعليمية. إذا كان لديك جهاز MacBook، فهناك بعض الخطوات المعقدة لتشغيله، ولكنها ليست سيئة للغاية، حيث ستحتاج فقط إلى تجميع ملف إصدار C++ من Whisper من المصدر بنفسك إنه ليس منفذًا رسميًا، ولكنه الطريقة الوحيدة لتشغيله محليًا على Apple silicon. أنت تستطيع اتبع هذا البرنامج التعليمي على المتوسط لكيفية القيام بذلك.
يمكنك أيضًا تشغيله في Google Collab، على الرغم من أنه أبطأ، أو يمكنك تشغيله محليًا إذا كان لديك آلة x86. تحتاج فقط إلى التأكد من تثبيت ffmpeg، ويمكنك استنساخ مستودع Git الموجود فيه Whisper وتشغيله. ما عليك سوى اتباع التعليمات الموجودة في مستودع Whisper Git، وستكون قادرًا على إعداد Whisper في أي وقت من الأوقات. كلما كانت أجهزتك أكثر قوة، كلما كان ذلك أفضل، بالطبع، ولكنها ستعمل بشكل أساسي على أي شيء به ذاكرة vRAM كافية، وتستغرق وقتًا أطول إذا كان جهاز الكمبيوتر الخاص بك أبطأ.