光学式文字認識とは何ですか？

コンピューターでドキュメントを取得し、プリンターで物理的なコピーを取得するのは簡単ですが、一般的に、その逆を行うのは困難です。スキャナーが存在し、スキャンしたドキュメントを画像として保存できますが、ドキュメントを編集する場合、これは特に役立ちません。ドキュメントを編集できるようにするには、光学式文字認識またはOCRと呼ばれるテクノロジを使用します。

光学式文字認識はどのように機能しますか？

OCRは、さまざまな手法を使用してドキュメントを正確に読み取ります。 OCRソフトウェアは、ドキュメントを調整し、場合によっては個々の単語を調整して、正しく配置されるようにします。画像は、グレーの色合いを区別するよりも簡単なため、純粋な白黒形式に変換されます。テキスト以外のアイテムを識別して削除するための分析も実行されます。

OCRアルゴリズムには、マトリックスマッチングと特徴抽出の2つの主要なタイプが使用されます。マトリックスマッチングは、単一の文字の画像を取得し、それをピクセルごとにアルゴリズムで構成されたフォントと比較します。この手法では、文字を他のすべてのコンテンツから正しく分離し、フォントをOCRソフトウェアに含める必要があります。このタイプのOCRは、手書きの認識にも機能しません。

特徴抽出アルゴリズムは、各文字を線、曲線、線の交点などの特徴に分解します。この手法により、既知のフォントでトレーニングされているアルゴリズムへの依存度が大幅に低下します。特徴抽出では、新しいフォントを認識して文字に変換したり、一部の手書き文字を使用したりできますが、精度は既知のフォントほど良くありません。

一部のより高度なソフトウェアは、周囲の文字のコンテキストを使用して、それほど明確ではない文字を識別します。たとえば、「犬」という単語が印刷されていて、OCRアルゴリズムで「o」が「a」または「o」は、辞書を使用して、潜在的な文字の任意の組み合わせが既知であるかどうかを確認できます。言葉。この場合、「dag」は単語ではなく「dog」は単語であるため、OCRアルゴリズムは「a」の可能性を無視します。

OCRはどこで使用されますか？

OCRの主な用途の1つは、郵便システムです。 OCRは、手紙や小包の住所を自動的に識別するために使用されます。これは、人々よりもはるかに高速に実行できるタスクです。 OCRシステムがラベルのアドレスを読み取ることができない場合、代わりに人間が手動で処理するためにラベルが分離されます。

OCRは、テキスト読み上げツールと組み合わせると、視覚障害を持つ人々のアクセシビリティツールとして役立ちます。 Google翻訳は、画像内のテキストを翻訳するプロセスの一部としてOCRも実装しています。