Community Spring Cleaning week is here! Join your fellow Maveryx in digging through your old posts and marking comments on them as solved. Learn more here!
Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
RolandSchubert
16 - Nebula
16 - Nebula

Wenn ich eine neue Tabelle oder Datei bekomme, versuche ich immer zuerst, mir einen Überblick zu verschaffen. Meistens, indem ich ein INPUT DATA Tool auf den Canvas ziehe, es mit einem BROWSE Tool verbinde und den Workflow ausführe. 

 

Unsere Beispieldaten sind ziemlich aktuell - bei Fußballspielen werden ja heute viele Daten erfasst und nach einer Weltmeisterschaft gibt es viel zu analysieren. So zeigen die Daten sehr deutlich, dass die deutsche Mannschaft nach erwarteten Toren (xg1, xg2) gar nicht so schlecht war - aber es zählen ja nur die tatsächlich geschossenen ... aber darüber reden wir nicht weiter.

 

Aber schauen wir uns das Ergebnis erstmal im Results Window an:

 

RolandSchubert_0-1671725433075.png

 

So gewinnt man sehr schnell einen Überblick und hat ein erstes Gefühl für Feldinhalte und Datenqualität. Alternativ kann man sich auch die Feldtypen anschauen, indem man einfach auf "Metadata" umschaltet:

 

RolandSchubert_2-1671726443826.png

 

Wenn man mehr Details braucht - bitteschön, auch das geht. Für das markierte Feld liefert das BROWSE Tool zusätzliche Informationen, abhängig vom Feldtyp werden Kenngrößen wie Minimum, Maximum, Durchschnitt bzw. Feldlängen geliefert.

 

RolandSchubert_3-1671726496730.png

 

An sich bekommen wir mit dem BROWSE Tool also alle Informationen, die wir brauchen, wenn es detaillierter sein soll, sind allerdings ein paar Aktivitäten gefragt.

 

Aber es gibt auch einen anderen Ansatz, der uns in einem Schritt einen zusammenfassenden Überblick liefert. Dazu können wir das FIELD SUMMARY Tool einsetzen.

 

Hier müssen wir einfach nur die Felder wählen, für die wir Informationen anzeigen wollen. Standardmäßig ist kein Feld gewählt, man muss also auf jeden Fall in die Konfiguration.

 

RolandSchubert_1-1671736337135.png

 

Falls der Datenbestand sehr groß ist, können wir auch nur einen repräsentativen Teil der Daten nutzen und die Anzahl oder den Anteil der zu verwendenden Datensätze vorgeben. Das kann erheblich Zeit sparen, wir verzichten aber natürlich auf Genauigkeit. Im Einzelfall muss hier entschieden werden, ob die gewonnnene Geschwindigkeit so wichtig ist. 

 

Für Date-Felder werden allerdings immer alle Datensätze verwendet; für diesen Feldtyp wird das Intervall (täglich, wöchentlich, monatlich) ermittelt, ein Teildatenbestand genügt hierzu nicht.

 

RolandSchubert_2-1671736438743.png

 

 

Bei korrekter Konfiguration liefert das FIELD SUMMARY Tool einen sehr umfassenden Überblick in konzentrierter Form:

 

RolandSchubert_4-1671727251418.png

 

Je Feld erzeugt das Tool einen Datensatz mit den jeweiligen Informationen. Neben Feldnamen und Feldkategorie (numerisch, Text, Datum, Spatial) werden kategorieabhängig noch weitere deskriptive Kenngrößen gezeigt - für numerische Daten zum Beispiel Minimum und Maximum, für Spatial-Daten der Typ (Punkt, Linie, Fläche), bei Date-Feldern neben dem ersten und dem letzen Datum auch das Intervall (Tag, Monat, Jahr). Bei unseren Daten funktioniert das nicht, da keine Regelmäßigkeit zu erkennen ist.

 

Zusätzlich wird für numerische Daten die Verteilung visualisiert; diese Darstellung kann über das BROWSE Tool ausgegeben werden.

 

RolandSchubert_0-1671735438624.png

 

Die meisten Kennzahlen kann man natürlich auch über andere Tools ermitteln, z.B. über das BROWSE Tool . Allerdings gibt es einen entscheidenden Unterschied: Das BROWSE Tool hat keinen Output-Anchor, das FIELD SUMMARY Tool dagegen schon, die Ergebnisse kann man also im weiteren Workflow nutzen. 

 

Kurz gesagt - eine einfach zu erstellende, sehr umfassende Zusammenfassung der Inhalte einer Tabelle oder Datei mit vielfältigen Einsatzmöglichkeiten.

 

 

 

 

Weitere Tipps Tuesday Beiträge

Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.

Beschriftungen