OpenAI's Whisper მარტივად გადმოწერს ნებისმიერ რამეს და ეს არის საუკეთესო ტრანსკრიფციის ინსტრუმენტი, რომელსაც აქამდე შევხვედრივარ.
ინტერვიუს ან ვიდეოს გადაწერის რამდენიმე გზა არსებობს. თქვენ შეგიძლიათ ამის გაკეთება ხელით, უბრალოდ მოსმენით, რაც მოგცემთ საუკეთესო სიზუსტეს, მაგრამ გაცილებით დიდ დროს მოითხოვს, ან შეგიძლიათ გამოიყენოთ სერვისი ან ინსტრუმენტი. მაგალითად, მე ვიყენებდი YouTube-ს, ნებას ვაძლევდი ავტომატურად გენერირებას სუბტიტრები, შეინახოს ეს სუბტიტრები და რედაქტირება მათ ყველა პრობლემის გადასაჭრელად. ახლა, არსებობს სხვადასხვა AI ინსტრუმენტები, რომლებსაც შეუძლიათ შესანიშნავი სამუშაოს შესრულება და ერთ-ერთი ასეთი ინსტრუმენტი არის OpenAI's Whisper.
იმის დემონსტრირებისთვის, თუ რამდენად კარგად მუშაობს ინსტრუმენტი, მე გადავწერე უახლესი XDA TV ვიდეო. როგორც ქვემოთ ხედავთ, ის ახდენს სექციების ტრანსკრიფციას და დროის ნიშანს, რომლებიც ადვილად შეიძლება გამოყენებულ იქნას როგორც სუბტიტრები პლატფორმებზე, როგორიცაა YouTube. ის ასევე სწრაფად მუშაობს; მე ის გამოვიყენე ჩემს M1 MacBook Pro-ზე 10 წუთიანი ვიდეოს გადასაწერად სულ რაღაც ხუთნახევარ წუთში.
ეს ინსტრუმენტი არის თამაშის შემცვლელი კონტენტის შემქმნელებისთვის, რომლებსაც სჭირდებათ სუბტიტრების გენერირება, მათთვის, ვისაც ინტერვიუების ტრანსკრიბცია სჭირდება, ან ვისაც უბრალოდ სურს ნებისმიერი სახის აუდიოს ტექსტად გადაქცევა. მე აღმოვაჩინე მისი სიზუსტე წარმოუდგენელი და ახლახან გადავწერე 25 წუთიანი ინტერვიუ, სადაც არც ერთი რამ არ იყო გადაწერილი არასწორად. Whisper-ს ასევე შეუძლია ენების თარგმნა ტრანსკრიბირებული აუდიოში.
რა არის უისპერი?
Whisper არის მეტყველების ამოცნობის ავტომატური სისტემა, რომელიც წარმოაჩენს წარმოუდგენელ სიზუსტეს სალაპარაკო სიტყვების გაგებაში. იგი აშენდა OpenAI-ს მიერ, სავარაუდოდ ისეთ სისტემებში გამოსაყენებლად ChatGPT, სადაც ახლა შეგიძლია ისაუბრეთ AI-სთან, მაგრამ კომპანიამ ასევე გახსნა Whisper, რათა საზოგადოებამ ასევე შეძლოს მისი გამოყენება.
როგორ მუშაობს ის საკმაოდ მოწინავეა და მოიცავს ტრენინგს ინტერნეტიდან შეგროვებული ზედამხედველობის ქვეშ მყოფი მონაცემების 680,000 საათზე, რომელთა მესამედი არ იყო ინგლისურ ენაზე. აუდიო დაყოფილია 30 წამიან ნაწილებად, გარდაიქმნება და შემდეგ გადაეცემა ენკოდერში, ხოლო გაწვრთნილი დეკოდერი შეეცდება იწინასწარმეტყველოს შესაბამისი ტექსტის წარწერა. აქ სხვა ნაბიჯებიც ხდება, მაგრამ ისინი საკმაოდ ტექნიკურია და მოიცავს სალაპარაკო ენის იდენტიფიკაციას, მრავალენოვანი მეტყველების ტრანსკრიფციას და ინგლისურ ენაზე თარგმნას.
რაც შეეხება იმას, თუ როგორ ადარებს მას სხვა ინსტრუმენტებთან, OpenAI ამბობს, რომ Whisper უშვებს 50%-მდე ნაკლებ შეცდომებს, ვიდრე სხვა ენობრივ მოდელებს და მე ამის მჯერა. მე გამოვიყენე მრავალი ინსტრუმენტი წლების განმავლობაში აუდიოს გადასაწერად და არაფერი იყო ისეთი ზუსტი, როგორც Whisper ჩემთვის. როგორც აღვნიშნე, მე გადმოვწერე 25 წუთიანი ინტერვიუ, რომელიც უნაკლოდ გამოვიდა, რომელსაც თითქმის ყველა ინსტრუმენტი ებრძვის.
ერთი რამ განსაკუთრებით საინტერესო Whisper-ის შესახებ არის ის, რომ ის არ არის ინსტრუმენტი, რომელიც მიმართულია საბოლოო მომხმარებლებზე, არამედ დეველოპერებსა და მკვლევარებზე. OpenAI-მ თქვა, რომ მოდელებისა და კოდების ღია წყაროს მიღების მიზეზი იყო ის, რომ „საფუძველს ემსახურებოდეს სასარგებლო აპლიკაციებისა და აპლიკაციების შესაქმნელად. მეტყველების ძლიერი დამუშავების შემდგომი კვლევისთვის." თქვენ მაინც შეგიძლიათ დააყენოთ და გამოიყენოთ იგი, მაგრამ ეს ნამდვილად არ არის სამომხმარებლო პროდუქტი ჯერ კიდევ.
არსებობს მრავალი მოდელი, რომელიც შეგიძლიათ გამოიყენოთ აუდიოს გადაწერისას და თითოეულისთვის არის განსხვავებული vRAM მოთხოვნები. უდიდეს მოდელს სჭირდება 10 GB vRAM, თუმცა ის ასევე ყველაზე ზუსტია. ასევე არსებობს თითოეულის მხოლოდ ინგლისური მოდელები, გარდა ყველაზე დიდი მოდელისა, რამაც უნდა შეამციროს vRAM მოთხოვნები, თუ იცით, რომ კონტენტი, რომელსაც აწერთ მხოლოდ ინგლისურ ენაზეა. ნებისმიერ შემთხვევაში, დაგჭირდებათ ა კარგი GPU საკმარისი vRAM-ით, რომ ამოქმედდეს.
როგორ გამოვიყენოთ OpenAI's Whisper
Whisper OpenAI-დან არის ღია კოდის ხელსაწყო, რომელიც შეგიძლიათ მარტივად აწარმოოთ ადგილობრივად რამდენიმე გაკვეთილის შემდეგ. თუ თქვენ გაქვთ MacBook, არსებობს უფრო რთული ნაბიჯები მის გასააქტიურებლად, მაგრამ ეს არც ისე ცუდია, რადგან თქვენ, ძირითადად, უბრალოდ უნდა შეადგინოთ Whisper-ის C++ ვერსია თავად წყაროდან. ეს არ არის ოფიციალური პორტი, მაგრამ ეს არის ერთადერთი გზა, რათა ის გაუშვათ Apple-ის სილიკონზე. Შენ შეგიძლია მიჰყევით ამ გაკვეთილს საშუალოზე, თუ როგორ უნდა გავაკეთოთ ეს.
თქვენ ასევე შეგიძლიათ უბრალოდ გაუშვათ ის Google Collab-ში, თუმცა ის უფრო ნელია, ან შეგიძლიათ ადგილობრივად გაუშვათ, თუ გაქვთ x86 მანქანა. თქვენ უბრალოდ უნდა დარწმუნდეთ, რომ დაინსტალირებული გაქვთ ffmpeg და შეგიძლიათ კლონიროთ Git საცავი, რომელშიც არის Whisper და გაუშვათ იგი. უბრალოდ მიჰყევით ინსტრუქციას Whisper Git საცავი, და თქვენ შეძლებთ Whisper-ის დაყენებას უმოკლეს დროში. რაც უფრო ძლიერია თქვენი აპარატურა, მით უკეთესი, რა თქმა უნდა, მაგრამ ის იმუშავებს ძირითადად ყველაფერზე საკმარისი vRAM-ით, უბრალოდ უფრო მეტი დრო სჭირდება, თუ თქვენი კომპიუტერი ნელია.