Hoewel het gemakkelijk is om een document op uw computer te nemen en een fysieke kopie te krijgen met een printer, is het over het algemeen moeilijker om de andere kant op te gaan. Hoewel er scanners bestaan en gescande documenten als afbeelding kunnen opslaan, is dit niet erg handig als u het document wilt bewerken. Om een document te kunnen bewerken, wilt u een technologie gebruiken die Optical Character Recognition of OCR wordt genoemd.
Hoe werkt optische tekenherkenning?
OCR gebruikt een reeks technieken om documenten nauwkeurig te lezen. OCR-software past het document aan, en mogelijk zelfs afzonderlijke woorden, zodat ze correct worden uitgelijnd. De afbeelding wordt omgezet in een puur zwart-witformaat, omdat dat gemakkelijker is dan onderscheid te maken tussen grijstinten. Er wordt ook een analyse uitgevoerd om niet-tekstuele items te identificeren en te verwijderen.
Er worden twee hoofdtypen OCR-algoritmen gebruikt, matrixmatching en feature-extractie. Matrix-matching neemt een afbeelding van een enkel teken en vergelijkt deze vervolgens pixel voor pixel met de door algoritmen geconfigureerde lettertypen. Deze techniek vereist dat het teken correct wordt geïsoleerd van alle andere inhoud en dat het lettertype wordt opgenomen in de OCR-software. Dit type OCR werkt ook niet voor het herkennen van handschrift.
Algoritmen voor kenmerkextractie splitsen elk teken op in kenmerken, zoals lijnen, bochten en lijnkruisingen. Deze techniek vermindert aanzienlijk de afhankelijkheid van het algoritme dat wordt getraind met bekende lettertypen. Functie-extractie is in staat om nieuwe lettertypen te herkennen en ze te transcriberen, evenals wat handschrift, hoewel de nauwkeurigheid niet zo goed is als voor bekende lettertypen.
Sommige meer geavanceerde software gebruikt de context van de omringende letters om letters te identificeren die niet zo duidelijk zijn. Als bijvoorbeeld het woord "hond" is afgedrukt en het OCR-algoritme niet zeker kan zeggen of de "o" een "a" of een "o", het kan een woordenboek gebruiken om te zien of een combinatie van mogelijke tekens een bekend maakt woord. In dit geval zou het OCR-algoritme de mogelijkheid van de "a" buiten beschouwing laten, aangezien "dag" geen woord is, terwijl "hond" dat wel is.
Waar wordt OCR gebruikt?
Een van de belangrijkste toepassingen van OCR is in het postsysteem. OCR wordt gebruikt om automatisch het adres van brieven en pakketten te identificeren, een taak die het aanzienlijk sneller kan dan mensen zouden kunnen. In gevallen waarin het OCR-systeem het adres van het label niet kan lezen, wordt het apart gezet zodat een mens het handmatig kan verwerken.
OCR is handig als toegankelijkheidstool voor mensen met een visuele beperking in combinatie met een tekst-naar-spraaktool. Google translate implementeert ook OCR als onderdeel van het proces van het vertalen van de tekst in afbeeldingen.