Whisper від OpenAI є найточнішим інструментом штучного інтелекту для розпізнавання мовлення, який ми випробували

Whisper від OpenAI з легкістю транскрибує будь-що для вас, і це найкращий інструмент для транскрипції, який я зустрічав.

Є кілька способів транскрибувати інтерв’ю чи відео. Ви можете зробити це вручну, просто прислухаючись, що дасть вам найкращу точність, але займе набагато більше часу, або ви можете скористатися послугою чи інструментом. Наприклад, я використовував YouTube, дозволяв йому автоматично генерувати субтитри, зберігав ці субтитри та редагував їх, щоб вирішити всі проблеми. Зараз існують різні інструменти ШІ, які можуть виконувати чудову роботу, і одним із таких інструментів є Whisper від OpenAI.

Щоб продемонструвати, наскільки добре працює інструмент, я транскрибував останнє відео XDA TV. Як ви можете бачити нижче, він транскрибує розділи та мітки часу, які можна легко використовувати як субтитри на таких платформах, як YouTube. Він також працює швидко; Я використовував його на своєму M1 MacBook Pro, щоб транскрибувати 10-хвилинне відео трохи більше ніж за п’ять з половиною хвилин.

Цей інструмент кардинально змінює правила гри для творців контенту, яким потрібно генерувати субтитри, людей, яким потрібно транскрибувати інтерв’ю, або хто просто хоче перетворити будь-яке аудіо на текст. Я знайшов його точність неймовірною, і нещодавно я переписав 25-хвилинне інтерв’ю, у якому жодна річ не була переписана неправильно. Whisper також може перекладати мови в транскрибованих звуках.

Що таке Whisper?

Whisper — це система автоматичного розпізнавання мови, яка демонструє неймовірну точність розуміння вимовлених слів. Він був створений OpenAI, імовірно, для використання в таких системах, як ChatGPT, де можна зараз спілкуватися з ШІ, але компанія також відкрила Whisper, щоб спільнота також могла ним користуватися.

Те, як це працює, є досить просунутим і передбачає навчання на 680 000 годинах контрольованих даних, зібраних з Інтернету, третина з яких була не англійською мовою. Аудіо розбивається на 30-секундні фрагменти, перетворюється, а потім передається в кодер, а навчений декодер намагатиметься передбачити відповідний текстовий підпис. Тут також виконуються інші кроки, але вони досить технічні та включають визначення мови, якою розмовляють, багатомовну транскрипцію мовлення та переклад англійською мовою.

Що стосується порівняння з іншими інструментами, OpenAI каже, що Whisper робить на 50% менше помилок, ніж інші мовні моделі, і я в це вірю. Протягом багатьох років я використовував багато інструментів, щоб спробувати транскрибувати аудіо, і ніщо не було для мене таким точним, як Whisper. Як я вже згадував, я переписав 25-хвилинне інтерв’ю, яке вийшло бездоганно, з чим майже всі інструменти стикаються.

Єдине, що особливо цікаво у Whisper, це те, що він не призначений для кінцевих користувачів, а радше для розробників і дослідників. OpenAI сказав, що причиною відкритого коду моделей і коду було «служити основою для створення корисних програм і для подальших досліджень надійної обробки мовлення". Ви все ще можете налаштувати його та використовувати, але це не дуже споживчий продукт ще.

Існує кілька моделей, які можна використовувати під час транскрибування аудіо, і для кожної існують різні вимоги до vRAM. Для найбільшої моделі потрібно 10 ГБ vRAM, але вона також є найточнішою. Існують також моделі лише англійською мовою, за винятком найбільшої моделі, яка має зменшити вимоги до vRAM, якщо ви знаєте, що вміст, який ви транскрибуєте, лише англійською. У будь-якому випадку вам знадобиться a хороший GPU з достатньою кількістю відеопам’яті для запуску та роботи.

Як користуватися Whisper від OpenAI

Whisper від OpenAI — це інструмент із відкритим вихідним кодом, який можна досить легко запустити локально, дотримуючись кількох посібників. Якщо у вас є MacBook, є кілька заплутаніших кроків, щоб змусити його працювати, але це не так вже й погано, оскільки вам просто потрібно скомпілювати C++ версія Whisper з самого джерела. Це не офіційний порт, але це єдиний спосіб змусити його працювати на основі кремнію Apple. Ти можеш дотримуйтеся цього посібника на Medium, щоб дізнатися, як це зробити.

Ви також можете просто запустити його в Google Collab, хоча це повільніше, або ви можете запустити його локально, якщо у вас є машина x86. Вам просто потрібно переконатися, що у вас встановлено ffmpeg, і ви можете клонувати репозиторій Git, у якому знаходиться Whisper, і запустити його. Просто дотримуйтесь інструкцій у Репозиторій Whisper Git, і ви зможете миттєво налаштувати Whisper. Чим потужнішим є ваше обладнання, тим, звичайно, краще, але воно працюватиме практично на будь-якому пристрої з достатньою кількістю відеопам’яті, але це займе більше часу, якщо ваш ПК повільніший.