Co je optické rozpoznávání znaků?

I když je snadné vzít dokument do počítače a získat fyzickou kopii na tiskárně, je obecně těžší jít jinou cestou. Přestože skenery existují a mohou ukládat naskenované dokumenty jako obrázek, není to příliš užitečné, pokud chcete dokument upravit. Chcete-li dokument upravit, použijte technologii nazývanou optické rozpoznávání znaků nebo OCR.

Jak funguje optické rozpoznávání znaků?

OCR využívá řadu technik k přesnému čtení dokumentů. Software OCR upraví dokument a případně i jednotlivá slova tak, aby byla správně zarovnána. Obraz je převeden do čistě černobílého formátu, protože je to jednodušší než rozlišovat mezi odstíny šedé. Provádí se také analýza k identifikaci a odstranění jakýchkoli netextových položek.

Používají se dva hlavní typy algoritmů OCR, maticové párování a extrakce vlastností. Maticové porovnávání pořídí obrázek jednoho znaku a poté jej porovná s algoritmy nakonfigurovanými fonty pixel po pixelu. Tato technika vyžaduje, aby byl znak správně izolován od veškerého ostatního obsahu a aby bylo písmo zahrnuto do softwaru OCR. Tento typ OCR také nefunguje pro rozpoznávání rukopisu.

Algoritmy extrakce prvků rozdělují každý znak na prvky, jako jsou čáry, křivky a průsečíky čar. Tato technika výrazně snižuje závislost na algoritmu trénovaném se známými fonty. Extrakce funkcí je schopna rozpoznat nová písma a přepsat je, stejně jako některé rukopisy, ačkoli přesnost není tak dobrá jako u známých písem.

Některý pokročilejší software používá kontext okolních písmen, aby pomohl identifikovat písmena, která nejsou tak jasná. Pokud je například vytištěno slovo „pes“ a algoritmus OCR nedokáže s jistotou zjistit, zda je „o“ „a“ nebo „o“, může použít slovník, aby zjistil, zda nějaká kombinace potenciálních znaků dává vědět slovo. V tomto případě by algoritmus OCR vyloučil možnost „a“, protože „dag“ není slovo, zatímco „pes“ ano.

Kde se používá OCR?

Jedno z hlavních použití OCR je v poštovním systému. OCR se používá k automatické identifikaci adres dopisů a balíků, což je úkol, který zvládne podstatně rychleji než lidé. V případech, kdy systém OCR není schopen přečíst adresu štítku, bude štítek oddělen, aby jej mohl zpracovat ručně.

OCR je užitečný jako nástroj usnadnění pro lidi se zrakovým postižením v kombinaci s nástrojem pro převod textu na řeč. Google Translate také implementuje OCR jako součást procesu překladu textu v obrázcích.