Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
RolandSchubert
16 - Nebula
16 - Nebula

In Alteryx gibt es einige Tools, die für sehr unterschiedliche Aufgaben eingesetzt werden können und deren Name manchmal auch verwirrend sein kann. Das SAMPLE Tool gehört auf jeden Fall dazu. Aber es gibt ja auch noch das RANDOM SAMPLE Tool. Beide haben wohl irgendwie die Aufgabe, aus einem Datenbestand einen Teil herauszuziehen. Vielleicht in der Unterschied ja, dass bei einem der Tools bei der Auswahl der Datensätze im "Sample" der Zufall eine größere Rolle spielt? Jedenfalls geht es in diesem Tuesday Tipp darum, wozu diese Tools eingesetzt werden können - und wozu nicht.

 

Meine erste Begegnung mit dem SAMPLE Tool war etwas verwirrend - die Aufgabe war, die "Top 5" Produkte zu finden, mit denen im letzten Jahr der höchste Umsatz erzielt wurde. Also, erst die Umsätze mit dem SUMMARIZE Tool summieren, dann mit dem SORT Tool absteigend nach dem summierten Umsatz sortieren, soweit klar. 

P001.png

Und dann? Gebraucht wird jetzt ein Tool, das die ersten Datensätze aus einem Datenbestand auswählt. So etwas wie ein "First n Rows" Tool gibt es nicht. Die Lösung war dann das SAMPLE Tool; einfach "First N rows" wählen, die gewünschte Zahl angeben - fertig!

 

P002.png

 

Das SAMPLE Tool gibt also die Möglichkeit, die ersten "n" Zeilen aus einem Datenbestand zu selektieren. Der Begriff "Sample" wird hier ganz bewusst sehr umfassend ausgelegt; es geht nicht nicht um einen "repräsentativen Teildatenbestand", sondern um verschiedene Formen  eines Teils der gesamten Daten.  Damit deckt das SAMPLE Tool gleich mehrere Einsatzbereiche ab, für die sonst jeweils eigene Tools erforderlich wären.

 

So kann beispielsweise auch die Frage, welches denn die schlechtesten Produkte im Umsatzranking sind, mit dem SAMPLE Tool beantwortet werden; statt "First N rows" sind es nun die "Last N rows", die ausgewählt werden. 

 

P003.png

 

Okay, das hätte man auch mit umgekehrter Sortierung erreichen können, aber manchmal geht es ja auch darum, einfach die ersten oder letzten Datensätze aus einer Datei zu ziehen, ohne vorher zu sortieren - und genau das kann das SAMPLE Tool. 

 

Übrigens kann man nicht nur die "Top 5" (oder 10, 20, ...) wählen, sondern auch einen Prozentsatz festlegen, also etwa die "Top 5%"; hier würden wir die 5 % der Produkte ermitteln, mit denen der höchste Umsatz erzielt wird. Das Gegenstück (also die "Last N%") fehlt hier - da müsste man also doch sortieren.

 

P004.png

 

Besonders praktisch ist, dass man diese Auswahlen auch noch für Gruppierungen treffen kann - es geht also nicht unbedingt um den Gesamtdatenbestand, für den die "Top 5" ermittelt werden, sondern vielleicht um die "Top 5 je Vertriebsgebiet". Dazu gibt es die "Group by column", in der angegeben werden kann,  auf welche Gruppe sich die First/Last-Auswahl beziehen soll.

 

In unserem Beispielt haben wir jetzt das Vertriebsgebiet hinzugenommen und als "Group by column" gewählt - jetzt werden die 5 Produkte mit dem höchsten Umsatz je Vertriebsgebiet gewählt. Natürlich kann auch nach mehreren Spalten gruppiert werden!

 

 

P005.png 

Wir müssen übrigens weiterhin nur nach Umsatz sortieren - das SAMPLE Tool wählt die ersten fünf je Vertriebsgebiet aus, ohne dass hiernach sortiert werden müsste. 

 

 

Aber man kann die ersten Zeilen nicht nur auswählen, sondern auch ausschließen - dazu gibt es die Option "Skip 1st N rows". Wann braucht man denn sowas? Zum Beispiel in einem solchen Fall:

 

P006.png

 

Hier werden vermutlich die Zeilen 1-4 nicht gebraucht (Berichtstitel etc.). Die könnte man mit dem SAMPLE Tool in diesem Fall mit "Skip 1st N rows" überspringen.

 

Aber das geht natürlich auch schon im Input Data Tool, indem man den Import einfach in Zeile 5 beginnt. Aber danach geht es ja weiter - wir brauchen Zeile 5 als Spaltenüberschrift, die Zeilen 6-8 werden nicht benötigt, danach folgen dann die Daten, die wieder gebraucht werden.

 

P007.png

 

Das können wir mit einer Einstellung im Input Data Tool und zwei SAMPLE Tools lösen - die Überschriften (Zeile 1-4) werden ausgeshlossen, indem der Import bei Zeile 5 startet, Zeile 5 (die jetzt Zeile 1 ist) wird von einem SAMPLE Tool ausgewählt, die ersten 4 Zeilen (im Original 1-8) werden vom zweiten SAMPLE Tool ausgeschlossen.

 

P008.png

 

Die Ergebnisse der beiden Tools kann man dann wieder zusammenführen. In Fällen wie diesen wird das SAMPLE Tool häufig verwendet! 

 

 

Bisher hat das ja wenig mit "repräsentativer Teil eines Datenbestands" zu tun. Aber es gibt ja noch zwei weitere Optionen!

 

Um den Unterschied zu verdeutlichen, habe ich mit einem RECORDID Tool Satznummern hinzugefügt.

 

Die erste Option ("1 of every N rows") liefert einfach jeden n-ten Datensatz (hier also jeden hundertsten).  Damit steht fest, welche Datensätze übernommen werden, auch sind die Ergebnisse reproduzierbar, also bei jedem Lauf identisch.

 

Bei der zweiten Option ("1 in N chance to include each row") besteht für jede Zeile unabhängig von der Auswahl anderer Zeilen eine 1:N-Chance, übernommen zu werden. Damit verändert sich bei jedem Lauf das Ergebnis, auch ist die Anzahl Ergbniszeilen nicht vorhersagbar und variabel. Hier spielt der Zufall auf jeden Fall eine größere Rolle!

 

 

P009.png

 

Auch bei dieser Form der Auswahl besteht übrigens die Möglichkeit, nach Spalten zu gruppieren, also etwa eine Auswahl je Produkt und/oder Vertriebsgebiet zu treffen!

 

 

In Vergleich zm SAMPLE Tool ist das Einsatzgebiet des RANDOM SAMPLE Tools deutlich eingeschränkter. Hier geht es dann wirklich nur darum, einen Teil eines Datenbestandes zu wählen. Dabei geben wir entweder die Anzahl Zeilen oder den Anteil der Zeilen vor, die in die Auswahl übernommen werden sollen. Dabei bleibt die Anzahl der Datensätze im Ergebnis immer gleich, die Auswahl verändert sich aber (siehe Beispiel).

 

P010.png

 

 

Um immer die gleiche Auswahl zu bekommen, kann die Option "deterministic seed" aktiviert werden; die eingegebene Zahl bestimmt die Auswahl, die dann aber immer konstant bleibt.

 

P011.png

 

Für eine echte Zufallsauswahl können also sowohl das RANDOM SAMPLE als auch das SAMPLE Tool verwendet werden; wenn eine besitmmte Zahl von Datensätzen oder ein reproduzierbares Ergebnis benötigt wird, hat das RANDOM SAMPLE Tool seine Vorzüge, der Zufallscharakter ist aber eigentlich beim SAMPLE Tool größer, das zudem die Gruppierung nach weiteren Feldern zulässt.

Das SAMPLE Tool kann aber generell weit mehr als der Name vermuten lässt und  ist in vielen Workflows sehr hilfreich - nicht nur, wenn es um die Auswahl eines Teildatenbestandes geht.

 

 

Weitere Tipps Tuesday Beiträge

Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.

Beschriftungen