Hva er optisk tegngjenkjenning?

Selv om det er enkelt å ta et dokument på datamaskinen og få en fysisk kopi med en skriver, er det generelt vanskeligere å gå den andre veien. Selv om skannere eksisterer og kan lagre skannede dokumenter som et bilde, er dette ikke spesielt nyttig hvis du ønsker å redigere dokumentet. For å kunne redigere et dokument vil du bruke en teknologi som heter Optical Character Recognition eller OCR.

Hvordan fungerer optisk tegngjenkjenning?

OCR bruker en rekke teknikker for å lese dokumenter nøyaktig. OCR-programvare justerer dokumentet, og potensielt til og med individuelle ord slik at de er riktig justert. Bildet konverteres til et rent svart-hvitt-format, da det er lettere enn å skille mellom gråtoner. Analyse utføres også for å identifisere og fjerne eventuelle ikke-tekstelementer.

To hovedtyper OCR-algoritmer brukes, matrisematching og funksjonsekstraksjon. Matrisematching tar et bilde av et enkelt tegn og sammenligner det deretter med algoritmene konfigurerte fonter piksel for piksel. Denne teknikken krever at tegnet er korrekt isolert fra alt annet innhold, og at skriften er inkludert i OCR-programvaren. Denne typen OCR fungerer heller ikke for å gjenkjenne håndskrift.

Funksjonsutvinningsalgoritmer deler hvert tegn ned i funksjoner, for eksempel linjer, kurver og linjeskjæringspunkter. Denne teknikken reduserer avhengigheten av at algoritmen trenes med kjente fonter betydelig. Funksjonsutvinning er i stand til å gjenkjenne nye fonter og transkribere dem, samt noe håndskrift, selv om nøyaktigheten ikke er like god som for kjente fonter.

Noe mer avansert programvare bruker konteksten til de omkringliggende bokstavene for å identifisere bokstaver som ikke er like klare. For eksempel, hvis ordet "hund" er skrevet ut og OCR-algoritmen ikke kan si sikkert om "o" er en "a" eller en "o", den kan bruke en ordbok for å se om en kombinasjon av potensielle tegn gjør en kjent ord. I dette tilfellet vil OCR-algoritmen utelukke muligheten for "a", ettersom "dag" ikke er et ord, mens "hund" er det.

Hvor brukes OCR?

En av hovedbrukene til OCR er i postsystemet. OCR brukes til automatisk å identifisere adressen til brev og pakker, en oppgave den kan gjøre betydelig raskere enn folk kunne. I tilfeller der OCR-systemet ikke er i stand til å lese adressen til etiketten, vil den bli skilt ut for et menneske å behandle manuelt i stedet.

OCR er nyttig som et tilgjengelighetsverktøy for personer med synshemninger når det kombineres med et tekst-til-tale-verktøy. Google translate implementerer også OCR som en del av prosessen med å oversette teksten i bilder.