In Alteryx gibt es einige Arten wie man PDFs einlesen kann, u.a. die Community-Makros oder auch die Tools der Intelligence Suite. In diesem Tuesday Tipp werden wir einen genaueren Blick auf beide werfen.
Welche Tools gibt es kostenlos in der Community?
Zum Stand dieses Blog-Artikels befinden sich genau drei PDF-Community Makros in der Alteryx Gallery:
Was sind die Hauptunterschiede der drei Tools?
Das PDF-Input Tool erfordert das nachinstallieren der R-Tools in Alteryx, welche als zusätzlicher Download im Download-Portal zu Verfügung steht. Ähnlich sieht es auch beim Mass PDF Input Tool aus, welches im Grunde eine optimierte Version ist. Das PDF Reader Tool dagegen setzt auf Python als Basis und sollte daher ohne zusätzliche Installation oder Downloads auskommen.
Alle Tools haben im Grunde aber eines gemeinsam, sie geben die Daten in roher Form aus und erlauben keine automatische Weiterverarbeitung. Dadurch muss man das Parsen und extrahieren der Informationen aus dem PDF selbst übernehmen. Wie dies aussehen kann, zeigt der mitgelieferte Beispiel-Workflow des PDF Input Tools:
Ohne entsprechende Regex-Kenntnisse wird es jedoch häufig schwierig die gewünschten Informationen zu extrahieren.
PDF-Tools der Intelligence Suite
Die Tools der Intelligence Suite bieten dagegen zahlreiche Möglichkeiten auch ohne Regex-Kenntnisse Informationen zu extrahieren und können daher auch sehr leicht von Business-Nutzern verwendet werden.
So gibt es ein Image-Template Tool bei dem man alle wichtigen Felder / Informationen markieren kann. Verbindet man dieses in Kombination mit dem Image Input und dem Image To Text Tool, so lassen sich basieren aus diesem Template auch alle ähnlichen Informationen von weiteren PDFs extrahieren.
Wenn es kein einheitliches Schema gibt, so kann man alle Tools auch ohne Template durch das Image To Text Tool schicken und erhält dann ein ähnliches Ergebnis wie bei den Community Tools. Jedoch kann man danach das Key-Value Extraction Tool verwenden, welches es hilft bestimmt Key Value Paare zu extrahieren. Dadurch lassen sich bspw. Informationen wie "PO: 123" herausfiltern.
Was sollte man verwenden?
Das ist zum einen natürlich eine Preisfrage, da die Intelligence Suite nochmal einen Aufpreis hat, zum Anderen aber auch eine Skill-Frage. Was können meine Nutzer bzw. was traue ich ihnen zu?
Ich persönlich nutze auch sehr gerne die Community-Tools, da ich sehr gut mit Regex umgehen kann. Meiner Erfahrung nach ist dies bei den meisten Business-Nutzern allerdings nicht der Fall, so dass diese oft Stunden oder Tage damit verbringen die Informationen aus dem Text herauszufiltern, während es bei der Intelligence Suite häufig nur ein paar Minuten für vergleichbares dauert.
Meine Empfehlung ist daher recht simpel: Beides ausprobieren. Einfach mal die Community Tools herunterladen und ein Trial bei der Intelligence Suite starten und danach entscheiden wie Zeit & Preis im Verhältnis stehen.
Download-Links
Community-Tools:
Intelligence Suite:
Weitere Tipps Tuesday Beiträge
Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.
Sie müssen ein registrierter Benutzer sein, um hier einen Kommentar hinzuzufügen. Wenn Sie sich bereits registriert haben, melden Sie sich bitte an. Wenn Sie sich noch nicht registriert haben, führen Sie bitte eine Registrierung durch und melden Sie sich an.
Betreff | Kudos |
---|---|
1 |