Whisper на OpenAI е най-точният инструмент за AI разпознаване на реч, който сме опитвали досега

Whisper на OpenAI ще транскрибира всичко за вас с лекота и това е най-добрият инструмент за транскрипция, който съм срещал досега.

Има няколко начина да транскрибирате интервю или видеоклип. Бихте могли да го направите на ръка, просто като слушате, което ще ви даде най-добрата точност, но отнема много повече време, или можете да използвате услуга или инструмент. Например използвах YouTube, оставих го автоматично да генерира субтитри, запазих тези субтитри и ги редактирах, за да коригирам всички проблеми. Сега има различни AI инструменти, които могат да свършат отлична работа и един такъв инструмент е Whisper на OpenAI.

За да демонстрирам колко добре работи инструментът, преписах най-новото XDA TV видео. Както можете да видите по-долу, той ще транскрибира секции и времеви клейма, които могат лесно да се използват като субтитри на платформи като YouTube. Работи и бързо; Използвах го на моя M1 MacBook Pro, за да транскрибирам 10-минутен видеоклип за малко повече от пет минути и половина.

Този инструмент променя играта за създатели на съдържание, които трябва да генерират субтитри, хора, които трябва да транскрибират интервюта или които просто искат да превърнат всякакъв вид аудио в текст. Намерих неговата точност за невероятна и наскоро преписах 25-минутно интервю, в което нито едно нещо не беше преписано неправилно. Whisper може също да превежда езици в транскрибирано аудио.

Какво е Whisper?

Whisper е автоматична система за разпознаване на реч, която демонстрира невероятна точност при разбирането на изговорените думи. Създаден е от OpenAI, вероятно за използване в системи като ChatGPT, където можете сега разговаряйте с AI, но компанията също така отвори Whisper, така че общността също да може да го използва.

Начинът, по който работи, е доста напреднал и включва обучение върху 680 000 часа контролирани данни, събрани от интернет, една трета от които не е на английски. Аудиото се разделя на 30-секундни части, преобразува се и след това се предава на енкодер, а декодер, който е обучен, ще се опита да предвиди съответния текстов надпис. Тук се извършват и други стъпки, но те са доста технически и включват идентифициране на езика, на който се говори, многоезична транскрипция на реч и превод на английски.

Що се отнася до това как се сравнява с други инструменти, OpenAI казва, че Whisper прави до 50% по-малко грешки от други езикови модели и аз вярвам в това. Използвах много инструменти през годините, за да се опитам да транскрибирам аудио и нищо не беше толкова точно като Whisper за мен. Както споменах, транскрибирах 25-минутно интервю, което излезе безупречно, с което почти всеки инструмент се бори.

Единственото особено интересно нещо за Whisper е, че той не е инструмент, насочен към крайните потребители, а по-скоро към разработчиците и изследователите. OpenAI каза, че причината за отворения код на моделите и кода е да „служи като основа за изграждане на полезни приложения и за по-нататъшни изследвания на стабилна обработка на реч." Все още можете да го настроите и използвате, но всъщност не е потребителски продукт още.

Има множество модели, които можете да използвате, когато транскрибирате аудио, и има различни изисквания за vRAM за всеки. Най-големият модел изисква 10 GB vRAM, въпреки че е и най-точният. Има и модели само на английски за всеки, с изключение на най-големия модел, който трябва да намали изискванията за vRAM, ако знаете, че съдържанието, което транскрибирате, е само на английски. Така или иначе ще ви трябва a добър GPU с достатъчно vRAM, за да може да работи.

Как да използвате Whisper на OpenAI

Whisper от OpenAI е инструмент с отворен код, който можете да стартирате локално доста лесно, като следвате няколко урока. Ако имате MacBook, има някои по-сложни стъпки, за да го накарате да работи, но не е много лошо, тъй като основно ще трябва просто да компилирате C++ версия на Whisper от самия източник. Това не е официален порт, но е единственият начин да го накарате да работи естествено на Apple силикон. Можеш следвайте този урок на Medium за това как да направите това.

Можете също така просто да го стартирате в Google Collab, въпреки че е по-бавно, или можете да го стартирате локално, ако имате x86 машина. Просто трябва да се уверите, че имате инсталиран ffmpeg и можете да клонирате Git хранилището, в което се намира Whisper, и да го стартирате. Просто следвайте инструкциите в Whisper Git хранилищеи ще можете да настроите Whisper за нула време. Колкото по-мощен е вашият хардуер, толкова по-добре, разбира се, но той ще работи на основно всичко с достатъчно vRAM, просто отнема повече време, ако компютърът ви е по-бавен.