Co to jest optyczne rozpoznawanie znaków?

Chociaż łatwo jest zabrać dokument na komputer i uzyskać fizyczną kopię za pomocą drukarki, ogólnie trudniej jest przejść w drugą stronę. Chociaż skanery istnieją i mogą zapisywać zeskanowane dokumenty jako obraz, nie jest to szczególnie przydatne, jeśli chcesz edytować dokument. Aby móc edytować dokument, chcesz skorzystać z technologii zwanej optycznym rozpoznawaniem znaków lub OCR.

Jak działa optyczne rozpoznawanie znaków?

OCR wykorzystuje szereg technik do dokładnego odczytywania dokumentów. Oprogramowanie OCR dopasowuje dokument, a potencjalnie nawet pojedyncze słowa, tak aby były odpowiednio wyrównane. Obraz jest konwertowany do czystego czarno-białego formatu, ponieważ jest to łatwiejsze niż rozróżnianie odcieni szarości. Przeprowadzana jest również analiza w celu zidentyfikowania i usunięcia wszelkich elementów nietekstowych.

Stosowane są dwa główne typy algorytmów OCR: dopasowanie macierzy i ekstrakcja cech. Dopasowanie matrycy pobiera obraz pojedynczego znaku, a następnie porównuje go z czcionkami skonfigurowanymi przez algorytmy piksel po pikselu. Ta technika wymaga prawidłowego oddzielenia znaku od wszelkiej innej zawartości oraz włączenia czcionki do oprogramowania OCR. Ten rodzaj OCR nie działa również w przypadku rozpoznawania pisma ręcznego.

Algorytmy wyodrębniania cech dzielą każdy znak na cechy, takie jak linie, krzywe i przecięcia linii. Ta technika znacznie zmniejsza zależność od algorytmu uczącego przy użyciu znanych czcionek. Ekstrakcja funkcji jest w stanie rozpoznać nowe czcionki i dokonać ich transkrypcji, a także niektóre pismo odręczne, chociaż dokładność nie jest tak dobra, jak w przypadku znanych czcionek.

Niektóre bardziej zaawansowane programy wykorzystują kontekst otaczających liter, aby pomóc w identyfikacji liter, które nie są tak wyraźne. Na przykład, jeśli drukowane jest słowo „pies”, a algorytm OCR nie może stwierdzić na pewno, czy „o” jest „a” lub „o”, może użyć słownika, aby sprawdzić, czy jakakolwiek kombinacja potencjalnych znaków daje wiadomo słowo. W takim przypadku algorytm OCR zdyskontowałby możliwość wystąpienia „a”, ponieważ „dag” nie jest słowem, a „pies” tak.

Gdzie jest używany OCR?

Jednym z głównych zastosowań OCR jest system pocztowy. OCR służy do automatycznej identyfikacji adresu listów i paczek, co może wykonać znacznie szybciej niż ludzie. W przypadkach, gdy system OCR nie jest w stanie odczytać adresu etykiety, zostanie on oddzielony, aby człowiek mógł go przetworzyć ręcznie.

OCR jest przydatny jako narzędzie ułatwień dostępu dla osób z wadami wzroku w połączeniu z narzędziem do zamiany tekstu na mowę. Google translate wdraża również OCR w ramach procesu tłumaczenia tekstu w obrazach.