OpenAI の Whisper は、これまで試した中で最も正確な AI 音声認識ツールです

OpenAI の Whisper は何でも簡単に文字に起こしてくれます。これは私が今まで出会った中で最高の文字起こしツールです。

インタビューやビデオを文字に起こす方法はいくつかあります。 聞くだけで手動で行うこともできます。これにより最高の精度が得られますが、はるかに時間がかかります。あるいは、サービスやツールを使用することもできます。 たとえば、私は以前 YouTube を使用していて、自動的に字幕を生成し、その字幕を保存し、編集してすべての問題を解決していました。 現在、優れた仕事を行うさまざまな AI ツールがあり、そのようなツールの 1 つが OpenAI の Whisper です。

このツールがいかにうまく機能するかを示すために、次の内容を転写しました。 最新の XDA TV ビデオ. 以下に示すように、セクションの文字起こしとタイムスタンプが行われ、YouTube などのプラットフォームで字幕として簡単に使用できます。 動作も迅速です。 M1 MacBook Pro でこれを使用して、10 分のビデオを 5 分半強で書き起こしました。

このツールは、字幕を生成する必要があるコンテンツ クリエイター、インタビューを文字に起こす必要がある人、またはあらゆる種類の音声をテキストに変換したい人にとって、革新的なツールです。 その正確さは信じられないほど高いと感じました。最近、25 分間のインタビューを書き起こしましたが、間違って書き起こされたものは 1 つもありませんでした。 Whisper は、文字起こしされた音声内の言語を翻訳することもできます。

ウィスパーとは何ですか?

Whisper は、話された言葉を驚くほど正確に理解する自動音声認識システムです。 これは OpenAI によって構築され、おそらく次のようなシステムで使用することを目的としています。 チャットGPT、今できるところは AIと会話する、しかし同社はWhisperをオープンソース化し、コミュニティも同様に使用できるようにしました。

その仕組みはかなり高度で、インターネットから収集された 680,000 時間の教師付きデータに関するトレーニングが必要ですが、その 3 分の 1 は英語ではありませんでした。 音声は 30 秒のチャンクに分割され、変換されてエンコーダーに渡され、トレーニングされたデコーダーが対応するテキスト キャプションの予測を試みます。 ここでは他の手順も行われますが、かなり技術的なもので、話されている言語の特定、多言語音声の文字起こし、英語への翻訳が含まれます。

他のツールとの比較については、OpenAI は Whisper が他の言語モデルよりもエラーが最大 50% 少ないと言っており、私もそれを信じています。 私は長年にわたり多くのツールを使って音声を文字に起こしてきましたが、私にとって Whisper ほど正確なものはありませんでした。 前述したように、私は 25 分間のインタビューを文字に起こし、完璧に出力されましたが、これにはほとんどすべてのツールが苦労しています。

Whisper で特に興味深い点は、これがエンド ユーザーを対象としたツールではなく、開発者や研究者を対象としたツールであることです。 OpenAIは、モデルとコードをオープンソース化する理由は「有用なアプリケーションとコードを構築するための基盤として機能するため」であると述べた。 堅牢な音声処理に関するさらなる研究のために。」 まだセットアップして使用することはできますが、実際には消費者向け製品ではありません。 まだ。

音声の転写時に使用できるモデルは複数あり、それぞれに異なる vRAM 要件があります。 最大のモデルは 10 GB の vRAM を必要としますが、最も正確でもあります。 最大のモデルを除き、それぞれ英語専用のモデルもあります。転記するコンテンツが英語のみであることがわかっている場合は、vRAM 要件が軽減されます。 いずれにせよ、次のものが必要になります。 良いGPU 起動して実行するのに十分な vRAM が必要です。

OpenAIのWhisperの使い方

OpenAI の Whisper は、いくつかのチュートリアルに従うことでローカルで非常に簡単に実行できるオープンソース ツールです。 MacBook をお持ちの場合、それを動作させるにはさらに複雑な手順が必要になりますが、基本的には C++ バージョンの Whisper 自分自身のソースから。 これは公式の移植ではありませんが、Apple シリコン上でネイティブに実行できるようにする唯一の方法です。 あなたはできる このチュートリアルに従ってください その方法については、Medium をご覧ください。

Google Collab で実行することもできますが、速度は遅くなります。または、ローカルで実行することもできます。 x86マシン. ffmpeg がインストールされていることを確認するだけで、Whisper が含まれる Git リポジトリのクローンを作成して実行できます。 の指示に従ってください。 Whisper Git リポジトリ, そうすれば、すぐに Whisper をセットアップできるようになります。 もちろん、ハードウェアが強力であればあるほど優れていますが、基本的には十分な vRAM を備えたあらゆる環境で動作しますが、PC が遅い場合は時間がかかります。