Wenn ich eine neue Tabelle oder Datei bekomme, versuche ich immer zuerst, mir einen Überblick zu verschaffen. Meistens, indem ich ein INPUT DATA Tool auf den Canvas ziehe, es mit einem BROWSE Tool verbinde und den Workflow ausführe.
Unsere Beispieldaten sind ziemlich aktuell - bei Fußballspielen werden ja heute viele Daten erfasst und nach einer Weltmeisterschaft gibt es viel zu analysieren. So zeigen die Daten sehr deutlich, dass die deutsche Mannschaft nach erwarteten Toren (xg1, xg2) gar nicht so schlecht war - aber es zählen ja nur die tatsächlich geschossenen ... aber darüber reden wir nicht weiter.
Aber schauen wir uns das Ergebnis erstmal im Results Window an:
So gewinnt man sehr schnell einen Überblick und hat ein erstes Gefühl für Feldinhalte und Datenqualität. Alternativ kann man sich auch die Feldtypen anschauen, indem man einfach auf "Metadata" umschaltet:
Wenn man mehr Details braucht - bitteschön, auch das geht. Für das markierte Feld liefert das BROWSE Tool zusätzliche Informationen, abhängig vom Feldtyp werden Kenngrößen wie Minimum, Maximum, Durchschnitt bzw. Feldlängen geliefert.
An sich bekommen wir mit dem BROWSE Tool also alle Informationen, die wir brauchen, wenn es detaillierter sein soll, sind allerdings ein paar Aktivitäten gefragt.
Aber es gibt auch einen anderen Ansatz, der uns in einem Schritt einen zusammenfassenden Überblick liefert. Dazu können wir das FIELD SUMMARY Tool einsetzen.
Hier müssen wir einfach nur die Felder wählen, für die wir Informationen anzeigen wollen. Standardmäßig ist kein Feld gewählt, man muss also auf jeden Fall in die Konfiguration.
Falls der Datenbestand sehr groß ist, können wir auch nur einen repräsentativen Teil der Daten nutzen und die Anzahl oder den Anteil der zu verwendenden Datensätze vorgeben. Das kann erheblich Zeit sparen, wir verzichten aber natürlich auf Genauigkeit. Im Einzelfall muss hier entschieden werden, ob die gewonnnene Geschwindigkeit so wichtig ist.
Für Date-Felder werden allerdings immer alle Datensätze verwendet; für diesen Feldtyp wird das Intervall (täglich, wöchentlich, monatlich) ermittelt, ein Teildatenbestand genügt hierzu nicht.
Bei korrekter Konfiguration liefert das FIELD SUMMARY Tool einen sehr umfassenden Überblick in konzentrierter Form:
Je Feld erzeugt das Tool einen Datensatz mit den jeweiligen Informationen. Neben Feldnamen und Feldkategorie (numerisch, Text, Datum, Spatial) werden kategorieabhängig noch weitere deskriptive Kenngrößen gezeigt - für numerische Daten zum Beispiel Minimum und Maximum, für Spatial-Daten der Typ (Punkt, Linie, Fläche), bei Date-Feldern neben dem ersten und dem letzen Datum auch das Intervall (Tag, Monat, Jahr). Bei unseren Daten funktioniert das nicht, da keine Regelmäßigkeit zu erkennen ist.
Zusätzlich wird für numerische Daten die Verteilung visualisiert; diese Darstellung kann über das BROWSE Tool ausgegeben werden.
Die meisten Kennzahlen kann man natürlich auch über andere Tools ermitteln, z.B. über das BROWSE Tool . Allerdings gibt es einen entscheidenden Unterschied: Das BROWSE Tool hat keinen Output-Anchor, das FIELD SUMMARY Tool dagegen schon, die Ergebnisse kann man also im weiteren Workflow nutzen.
Kurz gesagt - eine einfach zu erstellende, sehr umfassende Zusammenfassung der Inhalte einer Tabelle oder Datei mit vielfältigen Einsatzmöglichkeiten.
Weitere Tipps Tuesday Beiträge
Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.
Sie müssen ein registrierter Benutzer sein, um hier einen Kommentar hinzuzufügen. Wenn Sie sich bereits registriert haben, melden Sie sich bitte an. Wenn Sie sich noch nicht registriert haben, führen Sie bitte eine Registrierung durch und melden Sie sich an.