Vad är optisk teckenigenkänning?

Även om det är lätt att ta ett dokument på din dator och få en fysisk kopia med en skrivare, är det i allmänhet svårare att gå åt andra hållet. Även om skannrar finns och kan spara skannade dokument som en bild, är detta inte särskilt användbart om du vill redigera dokumentet. För att kunna redigera ett dokument vill du använda en teknik som kallas Optical Character Recognition eller OCR.

Hur fungerar optisk teckenigenkänning?

OCR använder en rad olika tekniker för att korrekt läsa dokument. OCR-programvaran justerar dokumentet, och eventuellt även enskilda ord så att de justeras korrekt. Bilden konverteras till ett rent svartvitt format eftersom det är lättare än att skilja mellan gråtoner. Analyser utförs också för att identifiera och ta bort eventuella icke-textföremål.

Två huvudtyper av OCR-algoritmer används, matrismatchning och funktionsextraktion. Matrismatchning tar en bild av ett enstaka tecken och jämför den sedan med algoritmens konfigurerade teckensnitt pixel för pixel. Denna teknik kräver att tecknet är korrekt isolerat från allt annat innehåll och att teckensnittet ska inkluderas i OCR-programvaran. Denna typ av OCR fungerar inte heller för att känna igen handstil.

Funktionsextraktionsalgoritmer delar upp varje karaktär i funktioner, såsom linjer, kurvor och linjeskärningar. Denna teknik minskar avsevärt beroendet av att algoritmen tränas med kända typsnitt. Funktionsextraktion kan känna igen nya typsnitt och transkribera dem, såväl som viss handskrift, även om noggrannheten inte är lika bra som för kända typsnitt.

En del mer avancerad programvara använder sammanhanget för de omgivande bokstäverna för att hjälpa till att identifiera bokstäver som inte är lika tydliga. Till exempel, om ordet "hund" skrivs ut och OCR-algoritmen inte kan säga säkert om "o" är en "a" eller ett "o", det kan använda en ordbok för att se om någon kombination av potentiella tecken gör en känd ord. I det här fallet skulle OCR-algoritmen utesluta möjligheten för "a", eftersom "dag" inte är ett ord, medan "hund" är det.

Var används OCR?

En av de viktigaste användningsområdena för OCR är i postsystemet. OCR används för att automatiskt identifiera adressen till brev och paket, en uppgift den kan göra betydligt snabbare än vad människor kunde. I de fall där OCR-systemet inte kan läsa adressen till etiketten, kommer den att separeras ut för en människa att bearbeta manuellt istället.

OCR är användbart som ett tillgänglighetsverktyg för personer med synnedsättning i kombination med ett text-till-tal-verktyg. Google translate implementerar också OCR som en del av processen att översätta texten i bilder.