<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>Thema "Betreff: html Datei richtig parsen / vorbereiten" in Forum - Deutsch</title>
    <link>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/807650#M697</link>
    <description>&lt;P&gt;Hallo &lt;a href="https://community.alteryx.com/t5/user/viewprofilepage/user-id/256767"&gt;@Helen_H&lt;/a&gt;,&lt;BR /&gt;&lt;BR /&gt;es freut mich zu sehen, dass die deutsche Community &amp;amp;&amp;nbsp;&lt;a href="https://community.alteryx.com/t5/user/viewprofilepage/user-id/123220"&gt;@grossal&lt;/a&gt;&amp;nbsp;Ihnen helfen konnte.&lt;BR /&gt;&lt;BR /&gt;Vielen Dank, dass Sie die Antwort von als Lösung akzeptiert haben.&lt;BR /&gt;&lt;BR /&gt;Viel Spaß mit Alteryx, bei Fragen sind wir hier im Forum immer gerne für dich da.&lt;BR /&gt;&lt;BR /&gt;Einen schönen Tag,&lt;/P&gt;</description>
    <pubDate>Fri, 27 Aug 2021 12:29:32 GMT</pubDate>
    <dc:creator>StephV</dc:creator>
    <dc:date>2021-08-27T12:29:32Z</dc:date>
    <item>
      <title>html Datei richtig parsen / vorbereiten</title>
      <link>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/796394#M676</link>
      <description>&lt;P&gt;Liebes Forum,&lt;/P&gt;&lt;P&gt;&amp;nbsp;&lt;/P&gt;&lt;P&gt;zur Zeit versuche ich mit Alteryx eine HTML Seite so vorzubereiten, dass später daraus gewonnene Daten gefiltert werden können.&lt;/P&gt;&lt;P&gt;&amp;nbsp;&lt;/P&gt;&lt;P&gt;An die meisten Daten komme ich mit RegEx bereits dran. Jedoch ist mir dabei ein Fehler aufgefallen, da bereits bei dem Text zu Spalten aufteilen Tool, Zeilen falsch aufgebaut werden.&lt;/P&gt;&lt;P&gt;Zunächst dachte ich das dort mit "\n" einfach jede Zeile gespeichert werden kann. Nun ist aber aufgefallen, dass auch zusammenhängende Informationen teilweise durch einen Umbruch getrennt werden.&lt;/P&gt;&lt;P&gt;Daher bräuchte ich eine Lösung um in meiner Beispieldatei die Zeilen so aufzuteilen, dass Zeile 21 und 22 als Eine dargestellt werden.&amp;nbsp;&lt;/P&gt;&lt;P&gt;Gibt es eine Möglichkeit dies in dem Tool Text in Spalten umzusetzen oder kann ich es irgendwie parsen?&lt;/P&gt;&lt;P&gt;Dabei wäre mir bei diesem Use Case nur der Bereich zwischen Zeile 12-24 wichtig.&lt;/P&gt;&lt;P&gt;&amp;nbsp;&lt;/P&gt;&lt;P&gt;Danke schon mal im Voraus &lt;span class="lia-unicode-emoji" title=":leicht_lächelndes_Gesicht:"&gt;🙂&lt;/span&gt;&amp;nbsp;&lt;/P&gt;&lt;P&gt;&amp;nbsp;&lt;/P&gt;&lt;P&gt;Grüße&amp;nbsp;&lt;/P&gt;&lt;P&gt;Helen&lt;/P&gt;</description>
      <pubDate>Wed, 04 Aug 2021 13:12:14 GMT</pubDate>
      <guid>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/796394#M676</guid>
      <dc:creator>Helen_H</dc:creator>
      <dc:date>2021-08-04T13:12:14Z</dc:date>
    </item>
    <item>
      <title>Betreff: html Datei richtig parsen / vorbereiten</title>
      <link>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/796593#M678</link>
      <description>&lt;P&gt;Hallo&amp;nbsp;&lt;a href="https://community.alteryx.com/t5/user/viewprofilepage/user-id/256767"&gt;@Helen_H&lt;/a&gt;,&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;magst du mir einen Gefallen tun und den Datensatz vor dem Text-To-Columns Tool hochladen?&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Welche Informationen möchtest du aus dem Datensatz extrahieren? Ich würde mal vermuten Zeitungsname und der URL zum Artikel?&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Viele Grüße&lt;/P&gt;
&lt;P&gt;Alex&lt;/P&gt;</description>
      <pubDate>Wed, 04 Aug 2021 18:17:18 GMT</pubDate>
      <guid>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/796593#M678</guid>
      <dc:creator>grossal</dc:creator>
      <dc:date>2021-08-04T18:17:18Z</dc:date>
    </item>
    <item>
      <title>Betreff: html Datei richtig parsen / vorbereiten</title>
      <link>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/796763#M679</link>
      <description>&lt;P&gt;Hallo Alex,&lt;/P&gt;&lt;P&gt;&amp;nbsp;&lt;/P&gt;&lt;P&gt;ich möchte gerne den Zeitpunkt, den Link, das Bild, den Titel und den Herausgeber extrahieren.&lt;/P&gt;&lt;P&gt;&amp;nbsp;&lt;/P&gt;&lt;P&gt;Viele Grüße&lt;/P&gt;&lt;P&gt;Helen&lt;/P&gt;</description>
      <pubDate>Thu, 05 Aug 2021 05:47:44 GMT</pubDate>
      <guid>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/796763#M679</guid>
      <dc:creator>Helen_H</dc:creator>
      <dc:date>2021-08-05T05:47:44Z</dc:date>
    </item>
    <item>
      <title>Betreff: html Datei richtig parsen / vorbereiten</title>
      <link>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/797607#M680</link>
      <description>&lt;P&gt;Hallo&amp;nbsp;&lt;a href="https://community.alteryx.com/t5/user/viewprofilepage/user-id/256767"&gt;@Helen_H&lt;/a&gt;,&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;folgender Workflow sollte dir helfen:&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;&lt;span class="lia-inline-image-display-wrapper lia-image-align-inline" image-alt="grossal_0-1628244991969.png" style="width: 999px;"&gt;&lt;img src="https://community.alteryx.com/t5/image/serverpage/image-id/196833iA23BD7E4D7FD62C9/image-size/large?v=v2&amp;amp;px=999" role="button" title="grossal_0-1628244991969.png" alt="grossal_0-1628244991969.png" /&gt;&lt;/span&gt;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;&lt;STRONG&gt;Das Ergebnis:&lt;/STRONG&gt;&lt;/P&gt;
&lt;P&gt;&lt;span class="lia-inline-image-display-wrapper lia-image-align-center" image-alt="grossal_4-1628245472466.png" style="width: 999px;"&gt;&lt;img src="https://community.alteryx.com/t5/image/serverpage/image-id/196841i45E8F45F0A94C3E1/image-size/large?v=v2&amp;amp;px=999" role="button" title="grossal_4-1628245472466.png" alt="grossal_4-1628245472466.png" /&gt;&lt;/span&gt;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;&lt;STRONG&gt;Was passiert hier?&lt;/STRONG&gt;&lt;/P&gt;
&lt;P&gt;1) Entfernen von unnötigen Spalten - dies ist nicht zwingend notwendig&lt;/P&gt;
&lt;P&gt;2) Split to Rows - allerdings mit dem Regex-Tool um mehr Flexibilität zu haben. Was stellen wir hier ein? Ich lasse alle Links in neue Zeilen trennen. Links in HTML stehen immer in &amp;lt;a&amp;gt; - Tags. Die Details erkläre ich dir gerne bei Interesse noch einzeln.&lt;/P&gt;
&lt;P&gt;&lt;span class="lia-inline-image-display-wrapper lia-image-align-center" image-alt="grossal_1-1628245141072.png" style="width: 999px;"&gt;&lt;img src="https://community.alteryx.com/t5/image/serverpage/image-id/196836iCFE4349E4E799BBB/image-size/large?v=v2&amp;amp;px=999" role="button" title="grossal_1-1628245141072.png" alt="grossal_1-1628245141072.png" /&gt;&lt;/span&gt;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;3) Mit einem Filter Tool können wir dann alle relevanten Links herausfinden:&lt;/P&gt;
&lt;P&gt;&lt;span class="lia-inline-image-display-wrapper lia-image-align-center" image-alt="grossal_2-1628245317917.png" style="width: 999px;"&gt;&lt;img src="https://community.alteryx.com/t5/image/serverpage/image-id/196839i6324C956FA06E3DC/image-size/large?v=v2&amp;amp;px=999" role="button" title="grossal_2-1628245317917.png" alt="grossal_2-1628245317917.png" /&gt;&lt;/span&gt;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Die genauen Bezeichner habe ich durch anschauen der einzelnen Queries rausgefunden.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;4) Mit einem Regex-Tool passiert nun die eigentliche Magie, auch hier würde ich dir anbieten die Erklärung bei Interesse nachzuliefern, da es hier doch schon etwas komplizierter wird:&lt;/P&gt;
&lt;P&gt;&lt;span class="lia-inline-image-display-wrapper lia-image-align-center" image-alt="grossal_3-1628245414758.png" style="width: 999px;"&gt;&lt;img src="https://community.alteryx.com/t5/image/serverpage/image-id/196840iC03D9C670AD85260/image-size/large?v=v2&amp;amp;px=999" role="button" title="grossal_3-1628245414758.png" alt="grossal_3-1628245414758.png" /&gt;&lt;/span&gt;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;5) Zuletzt räume ich dann noch mit einem weiteren Select-Tool auf.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Ich habe dir den eingepackten Workflow einmal angehängt, damit du ihn bei dir selbst testen kannst &lt;span class="lia-unicode-emoji" title=":leicht_lächelndes_Gesicht:"&gt;🙂&lt;/span&gt;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Viele Grüße&lt;/P&gt;
&lt;P&gt;Alex&lt;/P&gt;</description>
      <pubDate>Fri, 06 Aug 2021 10:27:04 GMT</pubDate>
      <guid>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/797607#M680</guid>
      <dc:creator>grossal</dc:creator>
      <dc:date>2021-08-06T10:27:04Z</dc:date>
    </item>
    <item>
      <title>Betreff: html Datei richtig parsen / vorbereiten</title>
      <link>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/807650#M697</link>
      <description>&lt;P&gt;Hallo &lt;a href="https://community.alteryx.com/t5/user/viewprofilepage/user-id/256767"&gt;@Helen_H&lt;/a&gt;,&lt;BR /&gt;&lt;BR /&gt;es freut mich zu sehen, dass die deutsche Community &amp;amp;&amp;nbsp;&lt;a href="https://community.alteryx.com/t5/user/viewprofilepage/user-id/123220"&gt;@grossal&lt;/a&gt;&amp;nbsp;Ihnen helfen konnte.&lt;BR /&gt;&lt;BR /&gt;Vielen Dank, dass Sie die Antwort von als Lösung akzeptiert haben.&lt;BR /&gt;&lt;BR /&gt;Viel Spaß mit Alteryx, bei Fragen sind wir hier im Forum immer gerne für dich da.&lt;BR /&gt;&lt;BR /&gt;Einen schönen Tag,&lt;/P&gt;</description>
      <pubDate>Fri, 27 Aug 2021 12:29:32 GMT</pubDate>
      <guid>https://community.alteryx.com/t5/Forum-Deutsch/html-Datei-richtig-parsen-vorbereiten/m-p/807650#M697</guid>
      <dc:creator>StephV</dc:creator>
      <dc:date>2021-08-27T12:29:32Z</dc:date>
    </item>
  </channel>
</rss>

