Che cos'è il riconoscimento ottico dei caratteri?

Mentre è facile prendere un documento sul tuo computer e ottenere una copia fisica con una stampante, è generalmente più difficile andare dall'altra parte. Sebbene gli scanner esistano e possano salvare i documenti scansionati come immagine, questo non è particolarmente utile se si desidera modificare il documento. Per poter modificare un documento, si desidera utilizzare una tecnologia chiamata Riconoscimento ottico dei caratteri o OCR.

Come funziona il riconoscimento ottico dei caratteri?

L'OCR utilizza una serie di tecniche per leggere con precisione i documenti. Il software OCR regola il documento e potenzialmente anche singole parole in modo che siano allineate correttamente. L'immagine viene convertita in un formato in bianco e nero puro poiché è più facile che differenziare le sfumature di grigio. L'analisi viene eseguita anche per identificare e rimuovere eventuali elementi non di testo.

Vengono utilizzati due tipi principali di algoritmi OCR, la corrispondenza della matrice e l'estrazione delle caratteristiche. La corrispondenza della matrice prende l'immagine di un singolo carattere, quindi la confronta con i caratteri configurati dagli algoritmi su base pixel per pixel. Questa tecnica richiede che il carattere sia correttamente isolato da tutti gli altri contenuti e che il carattere sia incluso nel software OCR. Questo tipo di OCR non funziona nemmeno per riconoscere la scrittura a mano.

Gli algoritmi di estrazione delle caratteristiche suddividono ogni carattere in caratteristiche, come linee, curve e intersezioni di linee. Questa tecnica riduce significativamente la dipendenza dall'algoritmo che viene addestrato con caratteri noti. L'estrazione delle funzionalità è in grado di riconoscere nuovi caratteri e trascriverli, oltre a una certa grafia, sebbene la precisione non sia buona come per i caratteri noti.

Alcuni software più avanzati utilizzano il contesto delle lettere circostanti per aiutare a identificare le lettere che non sono così chiare. Ad esempio, se viene stampata la parola "cane" e l'algoritmo OCR non può dire con certezza se la "o" è un "a" o "o", può usare un dizionario per vedere se una qualsiasi combinazione di potenziali caratteri rende noto parola. In questo caso, l'algoritmo OCR escluderebbe la possibilità della "a", poiché "dag" non è una parola, mentre "dog" lo è.

Dove viene utilizzato l'OCR?

Uno degli usi principali dell'OCR è nel sistema postale. L'OCR viene utilizzato per identificare automaticamente l'indirizzo di lettere e pacchi, un'attività che può svolgere molto più velocemente di quanto potrebbero fare le persone. Nei casi in cui il sistema OCR non è in grado di leggere l'indirizzo dell'etichetta, verrà invece separato per essere elaborato manualmente da un essere umano.

L'OCR è utile come strumento di accessibilità per le persone con disabilità visive se combinato con uno strumento di sintesi vocale. Google translate implementa anche l'OCR come parte del processo di traduzione del testo in immagini.