Что такое оптическое распознавание символов?

Хотя легко взять документ на компьютере и получить физическую копию на принтере, обычно труднее пойти другим путем. Хотя сканеры существуют и могут сохранять отсканированные документы в виде изображений, это не особенно полезно, если вы хотите отредактировать документ. Чтобы иметь возможность редактировать документ, вы хотите использовать технологию, называемую оптическим распознаванием символов или OCR.

Как работает оптическое распознавание символов?

OCR использует ряд методов для точного чтения документов. Программное обеспечение OCR корректирует документ и, возможно, даже отдельные слова, чтобы они были правильно выровнены. Изображение преобразуется в чисто черно-белый формат, поскольку это проще, чем различать оттенки серого. Также выполняется анализ для выявления и удаления любых нетекстовых элементов.

Используются два основных типа алгоритмов OCR: сопоставление матриц и выделение признаков. Матричное сопоставление берет изображение одного символа, а затем сравнивает его с алгоритмами, настроенными шрифтами, по пикселям. Этот метод требует, чтобы символ был правильно изолирован от всего остального содержимого, а шрифт был включен в программу распознавания текста. Этот тип OCR также не работает для распознавания почерка.

Алгоритмы извлечения признаков разбивают каждый символ на объекты, такие как линии, кривые и пересечения линий. Этот метод значительно снижает зависимость от алгоритма, обучаемого с использованием известных шрифтов. Функция извлечения функций способна распознавать новые шрифты и расшифровывать их, а также некоторый почерк, хотя точность не так хороша, как для известных шрифтов.

Некоторые более продвинутые программы используют контекст окружающих букв, чтобы помочь идентифицировать буквы, которые не так понятны. Например, если напечатано слово «собака» и алгоритм распознавания текста не может точно сказать, является ли буква «о» «A» или «o», он может использовать словарь, чтобы узнать, делает ли какая-либо комбинация потенциальных символов известным слово. В этом случае алгоритм OCR не учитывает возможность появления буквы «а», поскольку «даг» - это не слово, а «собака».

Где используется OCR?

Одно из основных применений OCR - почтовая система. OCR используется для автоматического определения адресов писем и посылок, и с этой задачей оно справляется значительно быстрее, чем люди. В тех случаях, когда система OCR не может прочитать адрес этикетки, он будет выделен, чтобы человек мог обработать его вручную.

OCR полезно в качестве инструмента доступности для людей с нарушениями зрения в сочетании с инструментом преобразования текста в речь. Google translate также реализует OCR как часть процесса перевода текста в изображениях.