PDFs enthalten eine Menge wertvoller Informationen, die wir mithilfe von Alteryx verfügbar machen wollten. Und PDFs sind so weit verbreitet, dass sie sich vertraut und einfach anfühlen. Aber als sich das Team der Alteryx Intelligence Suite zusammensetzte, um unser neues PDF zu Text-Tool zu entwickeln, wurde uns klar, dass das Portable Document Format viel mehr zu bieten hat, als man denkt. Diese Komplexität prägte die Entscheidungen, die wir bei der Entwicklung des neuen Tools getroffen haben. Wir hoffen, dass der Einblick in diesen Prozess für Sie interessant und hilfreich sein wird, wenn Sie das Tool benutzen!
Grundsätzlich ist ein PDF eine Datei, die nach den Regeln des Portable Document Format erstellt wurde. Die PDF-Spezifikation wurde erstmals 1993 von Adobe eingeführt und 2008 als offener Standard von der Internationalen Organisation für Normung (International Organization for Standardization, ISO) veröffentlicht. Die aktuelle Version des ISO-Standards für PDFs ist fast 1000 Seiten lang und zwischen der ursprünglichen Einführung und dem aktuellen Standard gab es mehrere Zwischenspezifikationen. Diese Standards wurden wiederum von vielen verschiedenen PDF-Schreibprogrammen implementiert, die sich bei der Anwendung der Spezifikationen unterschiedlich entschieden haben. Das Ergebnis dieser Entwicklung mit der Zeit und der Flexibilität des 1000-seitigen Standards:
Zwei identisch aussehende PDF-Dateien können sehr unterschiedliche interne Strukturen und Inhalte haben.
Wenn Sie schon einmal versucht haben, eine PDF-Datei mit einem Texteditor zu öffnen, um nach dem Text und anderen Elementen zu suchen, die Sie mit einem PDF-Viewer sehen, haben Sie vielleicht etwas wie das hier erlebt:
Das bedeutet, dass jede PDF-Datei einige der folgenden Elemente enthalten kann:
Wenn es speziell um Text geht, gibt es ein ganzes Spektrum von Ansätzen zur Erstellung von PDFs, die es für uns komplizierter gemacht haben, ein gutes Tool zur PDF-Textextraktion zu entwickeln:
Gängige Techniken zur PDF-Erstellung |
Auswirkungen auf die Speicherung und Extraktion von Text |
Ein Bild aufnehmen oder ein Dokument scannen |
Text wird als Bitmap-Grafik gespeichert und erfordert eine optische Zeichenerkennung (Optical Character Recognition, OCR), um den Text zu extrahieren |
Verwendung von OCR zum Überlagern von transparentem Text über ein gescanntes oder fotobasiertes Dokument |
Text erscheint zweimal im Dokument – einmal als Bitmap-Grafik im Bild und ein zweites Mal als unsichtbare Überlagerung des Textinhalts, um das Kopieren und Suchen zu erleichtern |
Optimierung der PDF-Größe durch Konvertierung von Zeichen in einer untypischen Schriftart in Vektorgrafiken (Zeichnungen der Buchstaben) anstelle der Einbettung der gesamten Schriftart in das Dokument |
Text wird als Vektorgrafik gespeichert und erfordert OCR, um den Text zu extrahieren |
Kombination aus Bildern mit Text, Zeichnungen mit Text und Textinhalten auf einer einzigen Seite |
Text wird als Bitmap-Grafik, Vektorgrafik und Textinhalt gespeichert, sodass das Extrahieren aller Wörter sowohl das Lesen des Textinhalts als auch die Anwendung von OCR auf den als Bitmap und Vektorgrafik gespeicherten Text erfordert |
Schreiben eines digitalen „True PDF“-Dokuments, bei dem der gesamte Text als Textinhalt gespeichert ist |
Hurra! Die Extraktion des Textinhalts wird den gesamten Text in diesem Dokument abrufen! (Es sei denn, es handelt sich um Wörter, die in Bildern wie Logos, Diagrammen oder Fotos eingebettet sind.) |
Im Jahr 2020 wurde die Alteryx Intelligence Suite mit Tools zur Extraktion von Daten aus PDFs eingeführt. In unserem ursprünglichen Ansatz konvertieren wir zunächst alle PDFs mit Bildeingabe in Bilder. Anschließend wenden wir mit Bild zu Text OCR auf das Bild jeder Seite an. Das ist großartig, denn es funktioniert immer, unabhängig davon, wie die PDF-Datei erstellt wurde!
Doch selbst ein ausgezeichnetes OCR-Modell, das auf die ursprünglichsten Textbilder angewendet wird, hat nur eine Genauigkeit von ~97 %. Was auch großartig ist! Wenn jedoch eine Textseite aus Hunderten von Zeichen besteht, können sich kleine Ungenauigkeiten anhäufen. (Außerdem können die OCR-Modelle etwas langsam sein.) Da zumindest einige PDFs Textinhalte enthalten, die direkt gelesen werden können (und zwar schnell, in den meisten Fällen mit nahezu hundertprozentiger Genauigkeit!), haben wir uns gefragt, ob es eine Möglichkeit gibt, diese Textinhalte in Alteryx einzubinden.
Auftritt: PDF zu Text! Unser ursprüngliches Ziel bei PDF zu Text war es, nur den Textinhalt aus PDF-Dokumenten zu extrahieren. Dann stießen wir auf die folgende Rechnung:
Dies ist eine echte Rechnung, die Alteryx von einem unserer Lieferanten erhalten hat (natürlich wurden alle Namen und Zahlen zum Schutz der Privatsphäre anonymisiert). Für dieses Dokument erhalten wir mit Textinhalten allein etwa die Hälfte des Textes auf dieser Seite, der Rest des Textes wird hingegen als Grafikinhalt gespeichert. Und je nach Anwendungsfall kann der Textinhalt alles enthalten, was wir brauchen, oder ... vielleicht auch nicht.
Also wurde uns klar, dass wir ein paar Dinge tun mussten:
Wir haben diese Schwellenwerte anhand einer repräsentativen Auswahl von Dokumenten entwickelt, aber Sie können auch Ihre eigenen Risikostufen anhand der Anzahl der Rohwörter und der Bilder von Seitengrafiken für Ihre Dokumente ermitteln und diese Risikostufen mithilfe eines Formel-Tools zuweisen. Sie können auch die Risikostufe oder die Grafiktext-Wortanzahl verwenden, um Ihre Seiten nach verschiedenen Verarbeitungsworkflows zu filtern.
Die Kombination der Option Nur Textinhalt lesen mit der Option Risikobewertung für als Grafik kodierten Text ist nicht wesentlich schneller als die Option Text- und Bildinhalt lesen, da beide den Textinhalt einlesen und auf jede Seite OCR anwenden. Diese Kombination gibt Anwendenden jedoch die Möglichkeit zu erkunden, welche Risiken sie eingehen würden, wenn sie Nur Textinhalt lesen ohne die Risikobewertung im Austausch für die Verbesserungen bei der Geschwindigkeit, die mit dem Verzicht auf die OCR einhergehen, einsetzen würden.
Ein Bonus der Option Nur Textinhalt lesen: mehr Sprachen! Die OCR, die in Text- und Bildinhalt lesen und Risikobewertung für als Grafik kodierten Text verwendet wird, verwendet die in der Sprachauswahl angegebenen Sprachen zur Verfeinerung ihrer Ergebnisse. Bei der Extraktion des Textinhalts werden die Zeichen jedoch direkt aus der PDF-Datei gelesen, und solange diese Zeichen gelesen werden können, ist es egal, aus welcher Sprache sie stammen!
Vielen Dank, dass Sie sich mit uns auf diese Reise durch das Innere von PDFs und die daraus resultierenden Optionen in PDF zu Text begeben haben! Wir freuen uns darauf zu sehen, was Sie mit dem Tool erreichen können!
Für weitere Ressourcen zu den AIS-Tools klicken Sie bitte hier:
Sie müssen ein registrierter Benutzer sein, um hier einen Kommentar hinzuzufügen. Wenn Sie sich bereits registriert haben, melden Sie sich bitte an. Wenn Sie sich noch nicht registriert haben, führen Sie bitte eine Registrierung durch und melden Sie sich an.