Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
EmilyVA
Alteryx
Alteryx

PDFs enthalten eine Menge wertvoller Informationen, die wir mithilfe von Alteryx verfügbar machen wollten. Und PDFs sind so weit verbreitet, dass sie sich vertraut und einfach anfühlen. Aber als sich das Team der Alteryx Intelligence Suite zusammensetzte, um unser neues PDF zu Text-Tool zu entwickeln, wurde uns klar, dass das Portable Document Format viel mehr zu bieten hat, als man denkt. Diese Komplexität prägte die Entscheidungen, die wir bei der Entwicklung des neuen Tools getroffen haben. Wir hoffen, dass der Einblick in diesen Prozess für Sie interessant und hilfreich sein wird, wenn Sie das Tool benutzen! 

 

via GIPHY

 

Was ist eigentlich ein PDF? 

 

Grundsätzlich ist ein PDF eine Datei, die nach den Regeln des Portable Document Format erstellt wurde. Die PDF-Spezifikation wurde erstmals 1993 von Adobe eingeführt und 2008 als offener Standard von der Internationalen Organisation für Normung (International Organization for Standardization, ISO) veröffentlicht. Die aktuelle Version des ISO-Standards für PDFs ist fast 1000 Seiten lang und zwischen der ursprünglichen Einführung und dem aktuellen Standard gab es mehrere Zwischenspezifikationen. Diese Standards wurden wiederum von vielen verschiedenen PDF-Schreibprogrammen implementiert, die sich bei der Anwendung der Spezifikationen unterschiedlich entschieden haben. Das Ergebnis dieser Entwicklung mit der Zeit und der Flexibilität des 1000-seitigen Standards:  

 

Zwei identisch aussehende PDF-Dateien können sehr unterschiedliche interne Strukturen und Inhalte haben. 

 

via GIPHY

 

Wenn Sie schon einmal versucht haben, eine PDF-Datei mit einem Texteditor zu öffnen, um nach dem Text und anderen Elementen zu suchen, die Sie mit einem PDF-Viewer sehen, haben Sie vielleicht etwas wie das hier erlebt:  

 

via GIPHY

 

Das bedeutet, dass jede PDF-Datei einige der folgenden Elemente enthalten kann: 

  • Bitmap-Grafiken (Fotos, Scans, andere Bilder, die Pixel für Pixel angegeben werden) 
  • Vektorgrafiken (Anweisungen zum Erstellen von Zeichnungen mit Formen und Linien) 
  • Als Content-Streams gespeicherter Text (Anweisungen, wo und wie der Text auf der Seite gezeichnet werden soll) 
  • Multimedia-Objekte, Links und andere eingebettete Inhalte 
  • Schriftarten, die mit der Datei zusammen verpackt sind, sodass sie mit dem Dokument transportiert werden können 
  • Anweisungen, wie und wo Sie jedes Element auf jeder Seite zeichnen oder einbetten können 

 

image-20220817-175140 (1).png

 

Wenn es speziell um Text geht, gibt es ein ganzes Spektrum von Ansätzen zur Erstellung von PDFs, die es für uns komplizierter gemacht haben, ein gutes Tool zur PDF-Textextraktion zu entwickeln: 

 

Gängige Techniken zur PDF-Erstellung 

Auswirkungen auf die Speicherung und Extraktion von Text 

Ein Bild aufnehmen oder ein Dokument scannen 

Text wird als Bitmap-Grafik gespeichert und erfordert eine optische Zeichenerkennung (Optical Character Recognition, OCR), um den Text zu extrahieren 

Verwendung von OCR zum Überlagern von transparentem Text über ein gescanntes oder fotobasiertes Dokument  

Text erscheint zweimal im Dokument – einmal als Bitmap-Grafik im Bild und ein zweites Mal als unsichtbare Überlagerung des Textinhalts, um das Kopieren und Suchen zu erleichtern  

Optimierung der PDF-Größe durch Konvertierung von Zeichen in einer untypischen Schriftart in Vektorgrafiken (Zeichnungen der Buchstaben) anstelle der Einbettung der gesamten Schriftart in das Dokument 

Text wird als Vektorgrafik gespeichert und erfordert OCR, um den Text zu extrahieren 

Kombination aus Bildern mit Text, Zeichnungen mit Text und Textinhalten auf einer einzigen Seite 

Text wird als Bitmap-Grafik, Vektorgrafik und Textinhalt gespeichert, sodass das Extrahieren aller Wörter sowohl das Lesen des Textinhalts als auch die Anwendung von OCR auf den als Bitmap und Vektorgrafik gespeicherten Text erfordert 

Schreiben eines digitalen „True PDF“-Dokuments, bei dem der gesamte Text als Textinhalt gespeichert ist 

Hurra! Die Extraktion des Textinhalts wird den gesamten Text in diesem Dokument abrufen! (Es sei denn, es handelt sich um Wörter, die in Bildern wie Logos, Diagrammen oder Fotos eingebettet sind.) 

 

via GIPHY

 

PDFs in Alteryx einbinden: die Original-Tools 

 

Im Jahr 2020 wurde die Alteryx Intelligence Suite mit Tools zur Extraktion von Daten aus PDFs eingeführt. In unserem ursprünglichen Ansatz konvertieren wir zunächst alle PDFs mit Bildeingabe in Bilder. Anschließend wenden wir mit Bild zu Text OCR auf das Bild jeder Seite an. Das ist großartig, denn es funktioniert immer, unabhängig davon, wie die PDF-Datei erstellt wurde!  

 

image-20220817-201931 (1).png

 

Doch selbst ein ausgezeichnetes OCR-Modell, das auf die ursprünglichsten Textbilder angewendet wird, hat nur eine Genauigkeit von ~97 %. Was auch großartig ist! Wenn jedoch eine Textseite aus Hunderten von Zeichen besteht, können sich kleine Ungenauigkeiten anhäufen. (Außerdem können die OCR-Modelle etwas langsam sein.) Da zumindest einige PDFs Textinhalte enthalten, die direkt gelesen werden können (und zwar schnell, in den meisten Fällen mit nahezu hundertprozentiger Genauigkeit!), haben wir uns gefragt, ob es eine Möglichkeit gibt, diese Textinhalte in Alteryx einzubinden.  

 

via GIPHY

 

PDFs in Alteryx einbinden: die nächste Generation 

 

Auftritt: PDF zu Text! Unser ursprüngliches Ziel bei PDF zu Text war es, nur den Textinhalt aus PDF-Dokumenten zu extrahieren. Dann stießen wir auf die folgende Rechnung: 

 

image-20220817-194408 (1).png

 

Dies ist eine echte Rechnung, die Alteryx von einem unserer Lieferanten erhalten hat (natürlich wurden alle Namen und Zahlen zum Schutz der Privatsphäre anonymisiert). Für dieses Dokument erhalten wir mit Textinhalten allein etwa die Hälfte des Textes auf dieser Seite, der Rest des Textes wird hingegen als Grafikinhalt gespeichert. Und je nach Anwendungsfall kann der Textinhalt alles enthalten, was wir brauchen, oder ... vielleicht auch nicht. 

 

via GIPHY

 

Also wurde uns klar, dass wir ein paar Dinge tun mussten: 

  • Benutzenden die Möglichkeit geben, Textinhalte mit OCR-Ergebnissen aus den grafischen Inhalten der einzelnen Seiten zu kombinieren. Wir nannten dies während des Entwicklungsprozesses intern „Magie“, denn es erforderte einiges an kreativem Denken, um die Lösung zum Laufen zu bringen. Dies ist die Option Text lesen und Bildinhalt extrahieren in PDF zu Text. Es liefert das umfassendste und genaueste Ergebnis für den Text auf der Seite, dauert aber etwas länger (~1–2 Sekunden pro Seite, abhängig vom Dokument und Ihrer Computerhardware). 

 

via GIPHY

 

  • Benutzenden die Möglichkeit geben, nur Textinhalte zu lesen, wenn alle Inhalte, die sie interessieren, als Textinhalte vorliegen und sie sich nicht die Zeit nehmen möchten, auf jeder Seite OCR durchzuführen. Dies kann sehr viel schneller sein (~0,2–1 Sekunde pro Seite, wiederum abhängig vom Dokument und Ihrer Computerhardware)! Aber auch... ein bisschen beängstigend. Denn es ist schwer zu sagen, was Sie in einem grafischen Text übersehen könnten. 

 

via GIPHY

 

  • Benutzenden die Möglichkeit geben, mit der Option Nur Textinhalt lesen zu experimentieren und dabei zu prüfen, ob ihnen wichtige Inhalte in Form von grafischem Text entgehen. Insbesondere ist Folgendes zu beachten: 
    • Die Option Ausgabebild der Seitengrafik führt zu einem BLOB-Bild (Binary Large Object) in der Ausgabespalte Bild mit dem Spaltenwert der Ausgabeoption „PDF-Grafik“. Dieses Bild kann gerendert werden, indem Sie ein Bild-Tool mit der Option Bild aus Binärdaten in Feld holen verbinden und mit einem an das Bild-Tool angehängten Durchsuchen-Tool visuell überprüfen. Es wird nur das angezeigt, was bei der Extraktion des Textinhalts „zurückbleibt“. image-20220826-223905 (1).png 
    • Die Risikobewertung für als Grafik kodierten Text geht noch einen Schritt weiter und wendet OCR nur auf die grafischen Elemente jeder Seite an. Es zählt die Anzahl der Wörter im Grafiktext und gibt diese in der Spalte Anzahl der Wörter im Grafiktext aus. Außerdem wird jeder Seite auf der Grundlage der Wortzahl eine Risikostufe für Grafiktext zugewiesen.
      • 9 oder weniger grafische Textwörter (wie z. B. in einem Logo zu finden): „geringes“ Risiko 
      • 10–29 Wörter: „mittleres“ Risiko 
      • 30 oder mehr Wörter: „hohes“ Risiko 

 

Wir haben diese Schwellenwerte anhand einer repräsentativen Auswahl von Dokumenten entwickelt, aber Sie können auch Ihre eigenen Risikostufen anhand der Anzahl der Rohwörter und der Bilder von Seitengrafiken für Ihre Dokumente ermitteln und diese Risikostufen mithilfe eines Formel-Tools zuweisen. Sie können auch die Risikostufe oder die Grafiktext-Wortanzahl verwenden, um Ihre Seiten nach verschiedenen Verarbeitungsworkflows zu filtern.  

 

Die Kombination der Option Nur Textinhalt lesen mit der Option Risikobewertung für als Grafik kodierten Text ist nicht wesentlich schneller als die Option Text- und Bildinhalt lesen, da beide den Textinhalt einlesen und auf jede Seite OCR anwenden. Diese Kombination gibt Anwendenden jedoch die Möglichkeit zu erkunden, welche Risiken sie eingehen würden, wenn sie Nur Textinhalt lesen ohne die Risikobewertung im Austausch für die Verbesserungen bei der Geschwindigkeit, die mit dem Verzicht auf die OCR einhergehen, einsetzen würden. 

 

via GIPHY

 

  • Wir geben Benutzenden auch die Möglichkeit, eine Vorschau darauf zu erhalten, was die Option Nur Textinhalt lesen gegenüber Text- und Bildinhalt lesen extrahieren könnte. Wenn Sie im Konfigurationsfenster PDF zu Text über die Schaltfläche „Durchsuchen“ eine einzelne Datei auswählen, zeigt das unten stehende Vorschaufenster an, auf welche Inhalte jede Option der Textextraktion zugreifen kann. Im folgenden Fall zum Beispiel. Wir sehen, dass bei dieser Datei der größte Teil des Textes mit Nur Textinhalt lesen (rechts) extrahiert werden würde, aber der in den Bildern der Symbolleisten eingebettete Text wird übersprungen (je nachdem, wie die Daten später verwendet werden). 

 

image-20220829-195021 (1).png

 

Ein Bonus der Option Nur Textinhalt lesen: mehr Sprachen! Die OCR, die in Text- und Bildinhalt lesen und Risikobewertung für als Grafik kodierten Text verwendet wird, verwendet die in der Sprachauswahl angegebenen Sprachen zur Verfeinerung ihrer Ergebnisse. Bei der Extraktion des Textinhalts werden die Zeichen jedoch direkt aus der PDF-Datei gelesen, und solange diese Zeichen gelesen werden können, ist es egal, aus welcher Sprache sie stammen! 

 

via GIPHY

 

Fazit 

 

Vielen Dank, dass Sie sich mit uns auf diese Reise durch das Innere von PDFs und die daraus resultierenden Optionen in PDF zu Text begeben haben! Wir freuen uns darauf zu sehen, was Sie mit dem Tool erreichen können! 
  
Für weitere Ressourcen zu den AIS-Tools klicken Sie bitte hier: 

  1. Alteryx Intelligence Suite – Lernpfad 
  2. Hilfeseite zu den Tools der Alteryx Intelligence Suite 

 

Beschriftungen