Was ist optische Zeichenerkennung?

Während es einfach ist, ein Dokument auf Ihrem Computer zu speichern und mit einem Drucker eine physische Kopie zu erhalten, ist es im Allgemeinen schwieriger, den umgekehrten Weg zu gehen. Es gibt zwar Scanner, die gescannte Dokumente als Bild speichern können, dies ist jedoch nicht besonders hilfreich, wenn Sie das Dokument bearbeiten möchten. Um ein Dokument bearbeiten zu können, möchten Sie eine Technologie namens Optical Character Recognition oder OCR verwenden.

Wie funktioniert die optische Zeichenerkennung?

OCR verwendet eine Reihe von Techniken, um Dokumente genau zu lesen. OCR-Software passt das Dokument und möglicherweise sogar einzelne Wörter an, damit sie richtig ausgerichtet sind. Das Bild wird in ein reines Schwarz-Weiß-Format umgewandelt, da dies einfacher ist, als zwischen Graustufen zu unterscheiden. Es wird auch eine Analyse durchgeführt, um alle Nicht-Text-Elemente zu identifizieren und zu entfernen.

Zwei Haupttypen von OCR-Algorithmen werden verwendet, Matrix-Matching und Merkmalsextraktion. Der Matrixvergleich nimmt ein Bild eines einzelnen Zeichens und vergleicht es dann Pixel für Pixel mit den vom Algorithmus konfigurierten Schriftarten. Diese Technik erfordert, dass das Zeichen korrekt von allen anderen Inhalten isoliert wird und dass die Schriftart in der OCR-Software enthalten ist. Diese Art von OCR funktioniert auch nicht für die Erkennung von Handschriften.

Merkmalsextraktionsalgorithmen unterteilen jedes Zeichen in Merkmale wie Linien, Kurven und Linienschnittpunkte. Diese Technik reduziert die Abhängigkeit vom Algorithmus, der mit bekannten Schriftarten trainiert wird, erheblich. Die Merkmalsextraktion ist in der Lage, neue Schriftarten zu erkennen und zu transkribieren, sowie einige Handschriften, obwohl die Genauigkeit nicht so gut ist wie bei bekannten Schriftarten.

Einige fortschrittlichere Software verwendet den Kontext der umgebenden Buchstaben, um Buchstaben zu identifizieren, die nicht so klar sind. Wenn beispielsweise das Wort „Hund“ gedruckt wird und der OCR-Algorithmus nicht sicher sagen kann, ob das „o“ ein ist "a" oder "o", es kann ein Wörterbuch verwenden, um zu sehen, ob eine Kombination möglicher Zeichen einen bekannt macht Wort. In diesem Fall würde der OCR-Algorithmus die Möglichkeit des „a“ ausschließen, da „dag“ kein Wort ist, während „dog“ ein Wort ist.

Wo wird OCR verwendet?

Eine der Hauptanwendungen von OCR ist das Postsystem. OCR wird verwendet, um die Adresse von Briefen und Paketen automatisch zu identifizieren, eine Aufgabe, die es deutlich schneller erledigen kann, als Menschen es könnten. In Fällen, in denen das OCR-System die Adresse des Etiketts nicht lesen kann, wird es stattdessen von einem Menschen zur manuellen Verarbeitung ausgesondert.

OCR ist in Kombination mit einem Text-to-Speech-Tool als Barrierefreiheitstool für Menschen mit Sehbehinderungen nützlich. Google Translate implementiert auch OCR als Teil des Prozesses der Textübersetzung in Bilder.