Whisper от OpenAI — самый точный инструмент распознавания речи с искусственным интеллектом, который мы когда-либо пробовали.

Whisper от OpenAI с легкостью расшифровывает для вас все, и это лучший инструмент транскрипции, с которым я когда-либо сталкивался.

Есть несколько способов расшифровать интервью или видео. Вы можете сделать это вручную, просто слушая, что даст вам максимальную точность, но займет больше всего времени, или вы можете использовать услугу или инструмент. Например, раньше я использовал YouTube, позволявший ему автоматически генерировать субтитры, сохранять эти субтитры и редактировать их, чтобы устранить все проблемы. Сейчас существуют различные инструменты искусственного интеллекта, которые отлично справляются со своей задачей, и одним из таких инструментов является Whisper от OpenAI.

Чтобы продемонстрировать, насколько хорошо работает этот инструмент, я расшифровал последнее видео XDA TV. Как вы можете видеть ниже, он будет расшифровывать разделы и отмечать их временем, которые можно легко использовать в качестве субтитров на таких платформах, как YouTube. Это тоже работает быстро; Я использовал его на своем MacBook Pro M1, чтобы расшифровать 10-минутное видео всего за пять с половиной минут.

Этот инструмент меняет правила игры для создателей контента, которым необходимо создавать субтитры, людей, которым необходимо расшифровывать интервью, или тех, кто просто хочет превратить любой аудиофайл в текст. Я нашел его точность невероятной, и недавно я записал 25-минутное интервью, в котором ни одна вещь не была расшифрована неправильно. Whisper также может переводить языки в расшифрованном аудио.

Что такое Шепот?

Whisper — это система автоматического распознавания речи, демонстрирующая невероятную точность понимания произносимых слов. Он был создан OpenAI, предположительно для использования в таких системах, как ЧатGPT, где вы можете сейчас общаться с ИИ, но компания также открыла исходный код Whisper, чтобы сообщество могло его использовать.

Принцип его работы достаточно продвинутый и включает в себя обучение на 680 000 часов контролируемых данных, собранных из Интернета, треть из которых была не на английском языке. Аудио разбивается на 30-секундные фрагменты, преобразуется и затем передается в кодер, а обученный декодер пытается предсказать соответствующий текстовый заголовок. Здесь также происходят и другие шаги, но они довольно технические и включают в себя определение языка, на котором говорят, многоязычную транскрипцию речи и перевод на английский.

Что касается сравнения его с другими инструментами, OpenAI утверждает, что Whisper допускает на 50% меньше ошибок, чем другие языковые модели, и я этому верю. На протяжении многих лет я использовал множество инструментов, чтобы попытаться расшифровать аудио, и ничто не было для меня столь же точным, как Whisper. Как я уже упоминал, я записал 25-минутное интервью, которое получилось безупречно, с чем сталкивается практически каждый инструмент.

Что особенно интересно в Whisper, так это то, что это инструмент, предназначенный не для конечных пользователей, а скорее для разработчиков и исследователей. В OpenAI заявили, что причина открытия исходного кода моделей и кода заключалась в том, чтобы «служить основой для создания полезных приложений и для дальнейших исследований в области надежной обработки речи». Вы все еще можете настроить его и использовать, но на самом деле это не потребительский продукт. еще.

Существует несколько моделей, которые можно использовать при расшифровке звука, и для каждой из них существуют разные требования к vRAM. Самая большая модель требует 10 ГБ видеопамяти, но она также и самая точная. Также есть модели, поддерживающие только английский язык, за исключением самой большой модели, которая должна снизить требования к vRAM, если вы знаете, что расшифровываемый вами контент написан только на английском языке. В любом случае вам понадобится хороший графический процессор с достаточным количеством vRAM для его запуска.

Как использовать Whisper OpenAI

Whisper от OpenAI — это инструмент с открытым исходным кодом, который вы можете легко запустить локально, следуя нескольким руководствам. Если у вас MacBook, есть несколько более запутанных шагов, чтобы заставить его работать, но это не так уж и плохо, поскольку вам просто нужно скомпилировать C++ версия Whisper из источника самостоятельно. Это не официальный порт, но это единственный способ заставить его работать на процессоре Apple. Ты можешь следуйте этому руководству на Medium о том, как это сделать.

Вы также можете просто запустить его в Google Collab, хотя это медленнее, или запустить локально, если у вас есть машина x86. Вам просто нужно убедиться, что у вас установлен ffmpeg, и вы можете клонировать репозиторий Git, в котором находится Whisper, и запустить его. Просто следуйте инструкциям в Репозиторий Whisper Git, и вы сможете быстро настроить Whisper. Чем мощнее ваше оборудование, тем лучше, конечно, но оно будет работать практически на чем угодно, если у вас достаточно vRAM, просто это займет больше времени, если ваш компьютер медленнее.