Mis on optiline märgituvastus?

Kuigi dokumenti on lihtne arvutisse võtta ja selle füüsiline koopia printeriga hankida, on üldiselt raskem minna teist teed. Kuigi skannerid on olemas ja suudavad skannitud dokumente pildina salvestada, pole see eriti kasulik, kui soovite dokumenti redigeerida. Dokumendi redigeerimiseks peate kasutama tehnoloogiat nimega Optical Character Recognition või OCR.

Kuidas optiline märgituvastus töötab?

OCR kasutab dokumentide täpseks lugemiseks mitmesuguseid tehnikaid. OCR-tarkvara kohandab dokumenti ja potentsiaalselt isegi üksikuid sõnu nii, et need oleksid õigesti joondatud. Pilt teisendatakse puhtalt mustvalgeks vorminguks, kuna see on lihtsam kui hallide varjundite eristamine. Analüüsi tehakse ka mittetekstiüksuste tuvastamiseks ja eemaldamiseks.

Kasutatakse kahte peamist tüüpi OCR-algoritme, maatriksi sobitamist ja funktsioonide eraldamist. Maatriksi sobitamine võtab pildi ühest märgist ja võrdleb seda algoritmide konfigureeritud fontidega pikslite kaupa. See meetod nõuab tähemärgi korrektset eraldamist muust sisust ja fondi kaasamist OCR-tarkvarasse. Seda tüüpi OCR ei tööta ka käekirja tuvastamiseks.

Funktsioonide eraldamise algoritmid jagavad iga märgi objektideks, nagu jooned, kõverad ja joonte ristumiskohad. See tehnika vähendab oluliselt sõltuvust algoritmist, mida õpetatakse tuntud fontidega. Funktsioonide ekstraheerimine suudab tuvastada uusi fonte ja neid transkribeerida, aga ka mõningast käsitsikirja, kuigi täpsus pole nii hea kui tuntud fontide puhul.

Mõni täiustatum tarkvara kasutab ümbritsevate tähtede konteksti, et aidata tuvastada ebaselgeid tähti. Näiteks kui trükitakse sõna "koer" ja optilise tekstituvastuse algoritm ei suuda kindlalt öelda, kas "o" on "a" või "o" võib kasutada sõnaraamatut, et näha, kas võimalike märkide kombinatsioon annab teada sõna. Sel juhul välistab optilise tekstituvastuse algoritm "a" võimaluse, kuna "dag" ei ole sõna, samas kui "koer" on.

Kus kasutatakse OCR-i?

OCR-i üks peamisi kasutusalasid on postisüsteem. OCR-i kasutatakse kirjade ja pakkide aadresside automaatseks tuvastamiseks – ülesandega saab see hakkama oluliselt kiiremini kui inimesed. Juhtudel, kui OCR-süsteem ei suuda sildi aadressi lugeda, eraldatakse see selle asemel, et inimene saaks seda käsitsi töödelda.

OCR on kasulik juurdepääsetavustööriistana nägemispuudega inimestele, kui seda kombineerida teksti kõneks muutmise tööriistaga. Google translate rakendab ka OCR-i osana piltidel oleva teksti tõlkimise protsessist.