Community Spring Cleaning week is here! Join your fellow Maveryx in digging through your old posts and marking comments on them as solved. Learn more here!
Free Trial

Forum - Deutsch

Suchen Sie nach Antworten, stellen Sie Fragen und teilen Sie Ihr Alteryx-Wissen.
GELÖST

html Datei richtig parsen / vorbereiten

Helen_H
Meteoroid

Liebes Forum,

 

zur Zeit versuche ich mit Alteryx eine HTML Seite so vorzubereiten, dass später daraus gewonnene Daten gefiltert werden können.

 

An die meisten Daten komme ich mit RegEx bereits dran. Jedoch ist mir dabei ein Fehler aufgefallen, da bereits bei dem Text zu Spalten aufteilen Tool, Zeilen falsch aufgebaut werden.

Zunächst dachte ich das dort mit "\n" einfach jede Zeile gespeichert werden kann. Nun ist aber aufgefallen, dass auch zusammenhängende Informationen teilweise durch einen Umbruch getrennt werden.

Daher bräuchte ich eine Lösung um in meiner Beispieldatei die Zeilen so aufzuteilen, dass Zeile 21 und 22 als Eine dargestellt werden. 

Gibt es eine Möglichkeit dies in dem Tool Text in Spalten umzusetzen oder kann ich es irgendwie parsen?

Dabei wäre mir bei diesem Use Case nur der Bereich zwischen Zeile 12-24 wichtig.

 

Danke schon mal im Voraus 🙂 

 

Grüße 

Helen

4 ANTWORTEN 4
grossal
15 - Aurora
15 - Aurora

Hallo @Helen_H,

 

magst du mir einen Gefallen tun und den Datensatz vor dem Text-To-Columns Tool hochladen?

 

Welche Informationen möchtest du aus dem Datensatz extrahieren? Ich würde mal vermuten Zeitungsname und der URL zum Artikel?

 

 

Viele Grüße

Alex

Helen_H
Meteoroid

Hallo Alex,

 

ich möchte gerne den Zeitpunkt, den Link, das Bild, den Titel und den Herausgeber extrahieren.

 

Viele Grüße

Helen

grossal
15 - Aurora
15 - Aurora

Hallo @Helen_H,

 

folgender Workflow sollte dir helfen:

 

grossal_0-1628244991969.png

 

Das Ergebnis:

grossal_4-1628245472466.png

 

Was passiert hier?

1) Entfernen von unnötigen Spalten - dies ist nicht zwingend notwendig

2) Split to Rows - allerdings mit dem Regex-Tool um mehr Flexibilität zu haben. Was stellen wir hier ein? Ich lasse alle Links in neue Zeilen trennen. Links in HTML stehen immer in <a> - Tags. Die Details erkläre ich dir gerne bei Interesse noch einzeln.

grossal_1-1628245141072.png

 

3) Mit einem Filter Tool können wir dann alle relevanten Links herausfinden:

grossal_2-1628245317917.png

 

Die genauen Bezeichner habe ich durch anschauen der einzelnen Queries rausgefunden.

 

4) Mit einem Regex-Tool passiert nun die eigentliche Magie, auch hier würde ich dir anbieten die Erklärung bei Interesse nachzuliefern, da es hier doch schon etwas komplizierter wird:

grossal_3-1628245414758.png

 

5) Zuletzt räume ich dann noch mit einem weiteren Select-Tool auf.

 

Ich habe dir den eingepackten Workflow einmal angehängt, damit du ihn bei dir selbst testen kannst 🙂

 

 

Viele Grüße

Alex

StephV
Alteryx Alumni (Retired)

Hallo @Helen_H,

es freut mich zu sehen, dass die deutsche Community & @grossal Ihnen helfen konnte.

Vielen Dank, dass Sie die Antwort von als Lösung akzeptiert haben.

Viel Spaß mit Alteryx, bei Fragen sind wir hier im Forum immer gerne für dich da.

Einen schönen Tag,

Steph Vitale-Havreng
Beschriftungen