Die OCR-Software – eine Lösung für die automatische Texterkennung

Veröffentlicht: 15 September 2020

Kamil Siwecki

Finden Sie heraus, was die im Titel genannte OCR-Software bedeutet. In der Abkürzungserweiterung „optical character recognition” (die automatische Texterkennung) wird die von dieser Software ausgeführte Tätigkeit angedeutet, aber ihre Funktionsweise nicht erklärt, und vor allem werden es keine Vorteile ihrer Anwendung dargestellt. In diesem Artikel erklärt der Autor beides. Zu Anfang stellt er die Frage, wo die optische Zeichenerkennung Anwendung findet.

Digitalisierung von Bibliotheksbeständen

OCR ist eine Lösung für das notwendige manuelle Tippen von Inhalten, nicht selten von umfangreichen Dokumenten, wenn sie ins System eingegeben werden. Es ist besonders wichtig und behilflich bei der Digitalisierung von Bibliotheksbeständen. Dank der OCR-Software schon beim Hochladen des gescannten Dokuments erfolgt die Erkennung von Zeichen, ganzen Worten und sogar Sätzen, unabhängig davon, ob es sich hier um ein Bild/Foto (Jpg oder PDF Datei-Erweiterung) oder um das PDF-Format handelt. Das ermöglicht nicht nur das Abrufen des gesamten Textes, sondern auch seine automatische Klassifizierung und Extraktion detaillierter Daten.

Digitalisierung von Dokumenten und Rechnungen

Die oben genannte OCR-Software ist ein besonders praktisches Tool für die Einführung von Rechnungen in den Dokumentenumlauf. Dank der Verwendung erweiterter KI-Algorithmen ermöglicht sie nicht nur die Beschleunigung der Arbeit, sondern anhand des von der OCR-Software erhaltenen Textes auch die Validierung der Daten, was nicht weniger wichtig ist.

Schauen wir uns folgende Funktionen, wie z. B.: Markieren des zu kopierenden Teiles in einem vom Benutzer geöffneten Dokument mit einem Foto/Bild sowie in nicht durchsuchbaren PDF-Dateien oder z. B.: Suchen nach einer bestimmten Phrase des gescannten Dokuments, an. Beide Möglichkeiten ergeben sind erst bei dem von der OCR-Software verarbeiteten Dokument. Es wird dann offensichtlich, dass die Dokumentenverarbeitung und Arbeit mit Dokumenten dank der Technologie der optischen Zeichenerkennung viel einfacher und effektiver werden kann.

Ein gutes Beispiel für eine solche Anwendung ist die OCR-Software in NAVIGATOR, mit dem Rechnungen und Dokumente digitalisiert und mit erweiterten Tools für Datenerfassung anhand der AI-Engine verarbeitet werden können.

Was ist OCR?

Technologie der optischen Zeichenerkennung

Was ist dann und wie funktioniert die OCR-Software?

Das ist ein erweiterter und mehrstufiger Algorithmus, der Textpassagen von Tabellen oder häufig vorkommenden Bildern und Wasserzeichen im verarbeiteten Dokument unterscheiden kann. Darauffolgend wird jedes Zeichen erkennbaren Phrasen (Zahlen, Buchstaben oder Sonderzeichen) zugewiesen, und die erkannten Zeichen werden zu Wörtern und Sätzen und häufig zu ganzen, logisch klingenden Absätzen kombiniert.

Nicht ohne Bedeutung ist die Tatsache, dass jedes Zeichen Informationen über seine Position im Dokument erhält, was nicht nur das Suchen und ‘Markieren‘ erleichtert, sondern auch die Erstellung von Lösungen auf Basis von künstlicher Intelligenz ermöglicht, die bei der Extraktion von Informationen aus dem vom System verarbeiteten Dokument hilfreich sind. Interessant ist, dass erweiterte OCR-Versionen auch mit einem schief gescannten Dokument oder einem ungleichmäßigen Foto zurechtkommen können. Auch kleinere Mängel von Zeichen stellen kein Hindernis für die hohe Qualität des Produkts dar.

Natürlich, wie bei jedem Algorithmus, gibt es eine Grenze, ab der es ist nicht mehr möglich, dass ein Zeichen korrekt zu erkennen, wenn die Aufschrift extrem unvollständig ist.

Programme, bei denen OCR verwendet wird

Beispiele für eine Software, bei der OCR verwendet wird, sind Programme, die von den weltweit größten Unternehmen wie Amazon Textract, Google Books oder ABBY Finereader erstellt wurden.

In Bezug auf die OCR-Technologie ist es wert anzumerken, dass eine der Möglichkeiten, so genannte Trainingsdateien (zum Lernen von Algorithmen der Texterkennung) vorzubereiten, reCAPTCHA ist – eine Lösung, die sowohl für die Website-Sicherheit als auch für die Erkennung von vom Benutzer gescannten Textpassagen sorgt, und schließlich ermöglicht dem Algorithmus verschiedene Möglichkeiten für bessere Zeichendarstellung zu zeigen.

Was die Effizienz der OCR-Software beeinflusst?

Die Anzahl von Lösungen für die automatische Texterkennung, die auf dem Markt erhältlich sind, ist groß – ihre Quantität unterscheidet sich aber erheblich.

Was ist der Grund dafür? Vor allem die Verwendung verschiedener Algorithmen zur Klassifizierung von Zeichen und Textbereichen, aber auch die Differenzierung von Trainingsdateien. Von entscheidender Bedeutung in diesem Fall ist auch der Grad der Textverzerrung, der für das Programm akzeptabel ist. Die verfügbaren Produkte unterscheiden sich auch in der Funktionsgeschwindigkeit, was doch nicht ohne Bedeutung ist – denn dies kann den Benutzerkomfort erheblich beeinträchtigen.

Zusammenfassung

Die Vielzahl der OCR-Anwendungen und die Tatsache, dass sie die Verwendung anderer Büroautodienste automatisieren lassen, bezeugt zweifellos ihre Bedeutsamkeit. Im Rahmen des AI-Programms NAVIGATOR ist die OCR-Software zugänglich, mehr dazu finden Sie in unserer Wissensdatenbank.

Kamil Siwecki:
Datenwissenschaftler im Team WeDeliverAI (Archman). Seine Leidenschaft sind Mathematik, Statistik und neue Technologien. Er ist Absolvent der AGH Hochschule für Wissenschaft und Technik in Krakau in der Fachrichtung Informatik und Ökonometrie sowie Absolvent des Moduls Maschinelles Lernen an der WSEI-Programmierschule. In seiner täglichen Arbeit bereitet er Algorithmen vor, die auf maschinellem Lernen basieren und im NAVIGATOR-System verwendet werden, damit Probleme im Zusammenhang mit der Prozessautomatisierung gelöst werden.

Kamil Siwecki

+ posts

Datenwissenschaftler im Team WeDeliverKI (Archman), seine Leidenschaft sind Mathematik, Statistik und neue Technologien. Er schloss sein Studium der Informatik und Ökonometrie an der AGH-Wissenschaftlich-Technischen Universität in Krakau ab, Absolvent des Moduls Maschinelles Lernen an der WSEI-Programmierschule. In seiner täglichen Arbeit bereitet er Algorithmen vor, die auf maschinellem Lernen basieren und im NAVIGATOR-System zur Lösung von Problemen im Zusammenhang mit der Prozessautomatisierung verwendet werden.