Liebes Forum,
zur Zeit versuche ich mit Alteryx eine HTML Seite so vorzubereiten, dass später daraus gewonnene Daten gefiltert werden können.
An die meisten Daten komme ich mit RegEx bereits dran. Jedoch ist mir dabei ein Fehler aufgefallen, da bereits bei dem Text zu Spalten aufteilen Tool, Zeilen falsch aufgebaut werden.
Zunächst dachte ich das dort mit "\n" einfach jede Zeile gespeichert werden kann. Nun ist aber aufgefallen, dass auch zusammenhängende Informationen teilweise durch einen Umbruch getrennt werden.
Daher bräuchte ich eine Lösung um in meiner Beispieldatei die Zeilen so aufzuteilen, dass Zeile 21 und 22 als Eine dargestellt werden.
Gibt es eine Möglichkeit dies in dem Tool Text in Spalten umzusetzen oder kann ich es irgendwie parsen?
Dabei wäre mir bei diesem Use Case nur der Bereich zwischen Zeile 12-24 wichtig.
Danke schon mal im Voraus 🙂
Grüße
Helen
Gelöst! Gehe zu Lösung.
Hallo @Helen_H,
magst du mir einen Gefallen tun und den Datensatz vor dem Text-To-Columns Tool hochladen?
Welche Informationen möchtest du aus dem Datensatz extrahieren? Ich würde mal vermuten Zeitungsname und der URL zum Artikel?
Viele Grüße
Alex
Hallo @Helen_H,
folgender Workflow sollte dir helfen:
Das Ergebnis:
Was passiert hier?
1) Entfernen von unnötigen Spalten - dies ist nicht zwingend notwendig
2) Split to Rows - allerdings mit dem Regex-Tool um mehr Flexibilität zu haben. Was stellen wir hier ein? Ich lasse alle Links in neue Zeilen trennen. Links in HTML stehen immer in <a> - Tags. Die Details erkläre ich dir gerne bei Interesse noch einzeln.
3) Mit einem Filter Tool können wir dann alle relevanten Links herausfinden:
Die genauen Bezeichner habe ich durch anschauen der einzelnen Queries rausgefunden.
4) Mit einem Regex-Tool passiert nun die eigentliche Magie, auch hier würde ich dir anbieten die Erklärung bei Interesse nachzuliefern, da es hier doch schon etwas komplizierter wird:
5) Zuletzt räume ich dann noch mit einem weiteren Select-Tool auf.
Ich habe dir den eingepackten Workflow einmal angehängt, damit du ihn bei dir selbst testen kannst 🙂
Viele Grüße
Alex