Mi az az optikai karakterfelismerés?

Noha könnyű egy dokumentumot a számítógépére vinni, és egy nyomtatóval fizikai másolatot készíteni, általában nehezebb a másik irányba menni. Bár léteznek szkennerek, és képesek a beolvasott dokumentumokat képként menteni, ez nem különösebben hasznos, ha szerkeszteni szeretné a dokumentumot. Egy dokumentum szerkesztéséhez az Optikai karakterfelismerés vagy OCR nevű technológiát kell használni.

Hogyan működik az optikai karakterfelismerés?

Az OCR számos technikát használ a dokumentumok pontos olvasásához. Az OCR-szoftver beállítja a dokumentumot és adott esetben az egyes szavakat is úgy, hogy azok helyesen legyenek igazítva. A kép tiszta fekete-fehér formátumba konvertálódik, mivel ez könnyebb, mint a szürke árnyalatok megkülönböztetése. Elemzést végeznek a nem szöveges elemek azonosítására és eltávolítására is.

Az OCR-algoritmusok két fő típusát használják, a mátrixillesztést és a jellemzők kivonását. A mátrixillesztés egyetlen karakterből álló képet készít, majd pixelenként összehasonlítja az algoritmusok által konfigurált betűtípusokkal. Ez a technika megköveteli, hogy a karaktert megfelelően elkülönítsék az összes többi tartalomtól, és a betűtípust bele kell foglalni az OCR szoftverbe. Ez a fajta OCR szintén nem működik a kézírás felismerésére.

A jellemzők kinyerési algoritmusai az egyes karaktereket jellemzőkre bontják, mint például vonalak, görbék és vonalmetszéspontok. Ez a technika jelentősen csökkenti az ismert betűtípusokkal betanított algoritmustól való függőséget. A jellemzők kinyerése képes új betűtípusok felismerésére és átírására, valamint néhány kézírásra is, bár a pontosság nem olyan jó, mint az ismert betűtípusok esetében.

Egyes fejlettebb szoftverek a környező betűk kontextusát használják fel a nem olyan egyértelmű betűk azonosítására. Például, ha a „kutya” szó ki van nyomtatva, és az OCR-algoritmus nem tudja biztosan megállapítani, hogy az „o” Az „a” vagy az „o” szótár segítségével ellenőrizheti, hogy a lehetséges karakterek bármilyen kombinációja ismertté tesz-e szó. Ebben az esetben az OCR-algoritmus kizárná az „a” lehetőségét, mivel a „dag” nem egy szó, míg a „kutya” igen.

Hol használják az OCR-t?

Az OCR egyik fő felhasználási területe a postai rendszer. Az OCR a levelek és csomagok címének automatikus azonosítására szolgál, ez a feladat lényegesen gyorsabban tud elvégezni, mint az emberek. Azokban az esetekben, amikor az OCR-rendszer nem tudja beolvasni a címke címét, a címke leválasztásra kerül, hogy egy ember manuálisan dolgozza fel.

Szövegfelolvasó eszközzel kombinálva az OCR hasznos kisegítő eszköz a látássérült emberek számára. A Google fordító az OCR-t is megvalósítja a képek szövegének fordítási folyamatának részeként.