Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
RolandSchubert
16 - Nebula
16 - Nebula

Das Results Window ist ein echtes Multifunktions-Werkzeug. Es zeigt Statusmeldungen zum gesamten Workflow und zu einzelnen Tools, kann verwendet werden, um Daten zu überprüfen und gegebenenfalls sogar zu manipulieren, und stellt zudem direkte Links zu den verwendeten Dateien bereit. 

 

Allerdings nimmt das Results Window, wie der Name es schon vermuten lässt, seine Arbeit erst auf, wenn es Ergebnisse gibt, d.h. der Workflow ausgeführt worden ist. Vorher wird nur mitgeteilt wird, was zu tun ist, damit etwas angezeigt wird (eben den Workflow ausführen).

 

P01.jpg

 

Nach der Ausführung sieht man dann "Ergebnisse"; zunächst einmal einen Überblick über das, was passiert ist. Hier ist das nicht besonders viel, der Workflow besteht aus einem Input Data Tool, das eine csv-Datei importiert. Das Window zeigt Startzeit, Anzahl gelesener Datensätze und die Gesamtlaufzeit. Außerdem wird ein Link zur eingelesenen Datei bereitgestellt; geöffnet wird bei Anklicken des Links immer mit dem zugeordneten Standardprogramm - für csv-Dateien ist das Excel.

 

P02.jpg

 

Wenn man eins der Tools im Workflow selektiert (genauer gesagt, einen der Output Anchor eines Tools - beim Input Data Tool spielt das natürlich keine Rolle), zeigt das Results Window zudem die entsprechenden Daten beziehungsweise Metadaten an - zwischen diesen beiden Anzeigevarianten kann über zwei Buttons gewählt werden. 

 

P03.jpg

 

 

Wenn wir nun ein paar zusätzliche Tools einbauen, werden entsprechend weitere Meldungen angezeigt:

 

P04.jpg

 

Hier sehen wir etwa, wie das Auto Field Tool die Datentypen verändert hat, außerdem wird das Ergebnis des Filtertools und die neue Laufzeit angezeigt. Aber halt - wir sehen nur die gesamte Zeit, nicht aber, wie viel davon für einzelne Schritte (= Tools) verwendet worden ist. Im konkreten Beispiel ist das nicht entscheidend, wenn es aber darum geht, einen größeren Workflow zu optimieren und "Zeitfresser" zu identifizieren, dann wäre das schon hilfreich.

 

Um diese zusätzlichen Informationen zu bekommen,  setzen wir einfach eine Option in der Workflow-Konfiguration unter "Runtime":

 

P05.jpg

 

"Enable Performance Profiling" schaltet die Zeitmessung für einzelne Tools ein. Nach erneuter Ausführung können wir dann  sehen, wir groß der Anteil einzelner Schritte war:

 

P06.jpg

 

Im konkreten Beispiel sehen wir, dass ein Großteil der Laufzeit mit der Anpassung der Datentypen verbracht wurde - das erklärt vielleicht auch meine generelle Zurückhaltung beim Einsatz dieses Tools ...

 

Auf jeden Fall eine nützliche Option, wenn es um Performanceoptimierung geht - die aber aus gutem Grund nicht als Standard gesetzt ist: Sie kostet Zeit. Also auf jeden Fall wieder ausschalten, nachdem die Optimierung abgeschlossen ist.

 

P07.jpg

 

Tipp: Ich habe vorhin darauf hingewiesen, dass das Auto Fields Tool in diesem Workflow einen negativen Einfluss auf die Performance hat. Was aber ist die Alternative? Wir können stattdessen die Umwandlung in den korrekten Datentyp auch mit einem Formula Tool erledigen (mit z.B. den Funktionen ToNumber, DateTimeParse), brauchen dann aber anschließend ein Select Tool, um "aufzuräumen (Felder umbenennen und entfernen).

 

P08.jpg

 

Die beiden Tools zusammen haben ungefähr den gleichen Anteil an der Laufzeit wie vorher das Auto Fields Toll, aber die Laufzeit ist deutlich kürzer! Die Performance Profiling Option hat hier also schon mal geholfen, die Ursache langer Laufzeit zu identifizieren.

 

 

Aber das Results Window zeigt ja nicht nur an, was im Workflow passiert ist, sondern wir können auch Daten (oder Metadaten) anschauen. So können wir etwa prüfen, wie sich die Datentypen durch Formula und Select Tool verändert haben; die Metadaten am "Ausgang" des jeweils selektierten Tools werden im Results Window gezeigt (bei Auswahl "Metadata" natürlich).

 

P09.jpg

 

Aber nicht nur die Metadaten können wir prüfen, auch Daten werden angezeigt. Und es ist ja eins der Features, die das Arbeiten mit Alteryx so angenehm machen, dass man an jeder Stelle im Workflow anhand der zu diesem Zeitpunkt vorliegenden Daten den Ablauf prüfen kann - das macht es mir immer leichter, eventuelle Fehler zu finden. Diese Daten kann man schon im Results Window sehen, dazu braucht man kein zusätzliches Tool. Angezeigt werden die Daten, die der selektierte Output Anchor ausgibt (hier "T" des Filter Tools).

 

P10.jpg

 

Einen kleinen Nachteil gibt es allerdings: In vielen Fällen wird nur ein Teil der Daten angezeigt, hier etwa 19.403 von insgesamt 124.907 Datensätzen. Das genügt vielfach, um eine Berechnung zu überprüfen, oft aber nicht, wenn es um ein Auswahlkriterium geht. Zwar kann man innerhalb des Result Windows sortieren und filtern, allerdings nur innerhalb der angezeigten Datensätze.

 

Tipp:  Wenn eine der angebotenen Optionen (Data Cleanse, Filter, Sort) bestätigt wird, werden zusätzliche Tools eingefügt, die entsprechend konfiguriert sind. Die wirken natürlich auf alle Datensätze, nicht nur auf die angezeigten.

 

Wenn uns nur die angezeigten Datensätze nicht reichen, können wir selbstverständlich ein Broswe Tool anfügen, das alle Daten zeigt. Es ist allerdings auch möglich, die Anzahl Datensätze im Results Window zu vergrößern. Dazu müssen wir eine Einstellung in den User Settings ändern:

 

P11.jpg

 

Unter "Advanced" gibt es es Möglichkeit, den Speicher, der für die Daten am Output Anchor reserviert wird, zu vergrößern. Wir geben hier keine Satzanzahl ein, sondern Arbeitsspeicher - je nach Datenstruktur werden dann mehr oder weniger Daten angezeigt.

 

P12.jpg 

 

Zunächst müssen wir auswählen, dass wir die System Settings übersteuern wollen, und dann den entsprechenden Arbeitsspeichern eingeben (hier 8192 KB). Jetzt sind in unserem Beispiel alle Daten sichtbar:

 

P13.jpg

 

Diese Einstellung steht mit gutem Grund unter "Advanced". Bei der Einstellung muss natürlich beachtet werden, wie viel Speicher das System überhaupt hat - der zugewiesene Speicher muss auch verfügbar sein und steht dann nicht für anderweitige Nutzung zur Verfügung.  Natürlich ist es komfortabel, sofort schauen zu können, wie sich eine Änderung auswirkt, aber eine solche Anpassung ist primär für die Entwicklungsphase gedacht, wenn vielleicht auch noch mit reduziertem Datenvolumen gearbeitet wird. Dann allerdings wird manche Fehlersuche einfacher! 

 

 

 

Weitere Tipps Tuesday Beiträge

Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.

Beschriftungen