Ich muss es zugeben - ich neige intuitiv dazu, nach Beziehungen zwischen verschiedenen Daten zu suchen. Und tatsächlich erkenne ich auch oft einen Zusammenhang, der inhaltlich nicht immer sinnvoll sein muss. So konnte ich beispielsweise eine Beziehung zwischen verlorenen Heimspielen und meiner Anwesenheit im Fußballstadion ausmachen - so etwas kann man natürlich nicht ernsthaft in Verbindung bringen.
Mit dieser Neigung befinde ich mich aber in guter Gesellschaft - die Seite http://www.tylervigen.com/spurious-correlations hat eine Vielzahl von Datenreihen zu bieten, die ganz offensichtlich (vielleicht besser scheinbar) miteinander verbunden sind. So entwickeln sich Scheidungsrate und der Pro-Kopf-Konsum von Margarine erstaunlich parallel, auch Kurven für den Pro-Kopf-Konsum von Hühnchen und der Import von Rohöl verlaufen auffallend gleichartig.
Natürlich ist Vorsicht geboten, wenn es nicht nur um die gleichartige Entwicklung von Zahlenreihen, sondern auch um die Ableitung von Wirkungszusammenhängen geht - die Zahl der Ertrunkenen im Pool lässt sich wohl nicht reduzieren, indem keine Filme mit Nicolas Cage mehr gedreht werden (übrigens konnte ich auch den Abstieg nicht verhindern, indem ich nicht mehr ins Stadion ging ...).
Aus dem hier gezeigten Zusammenhang zwischen Datenreihen, der Korrelation, kann also nicht auf einen Wirkungszusammenhang, auf Kausalität, geschlossen werden. Allerdings kann Korrelation durchaus ein Hinweis auf mögliche Kausalität sein, so dass es sich durchaus lohnen kann, Daten auf Korrelation zu prüfen.
Und natürlich stehen im Alteryx Designer auch für diesen Zweck die entsprechenden Tools zur Verfügung. Moment - Tools? Ja, es gibt in der Data Investigation Tool Palette gleich mehrere Tools, die eingesetzt werden können:
Nicht nur verschiedene Tools, sondern auch noch verschiedene Korrelationskoeffizienten? Und zusätzlich noch Kovarianz als Alternative?
Nun, die Abgrenzung von Kovarianz und Korrelation ist recht einfach zu erklären:
In der Regel wird daher für die Bestimmung eines Zusammenhangs der Korrelationskoeffizient herangezogen, der allerdings den größeren Rechenaufwand verursacht. Interessiert nur die Richtung, könnte die Kovarianz bei größeren Datenmengen also durchaus eine Option sein.
Auch der Unterschied zwischen der Korrelation nach Pearson und der nach Spearman ist schnell erklärt:
Wichtig: Korrelation ist ein Maß für den Zusammenhang numerischer Daten! Sind nominal skalierte Daten (Geschlecht, Farbe) im Spiel, wird der Zusammenhang mittels Kontingenz gemessen; da hilft auch die Umwandlung in "0" und "1" nicht - technische würde es dann funktionieren, unhaltlich aber keine validen Ergebnisse liefern.
Schauen wir uns die Berechnung des Pearson-Korrelationskoeffizienten einmal genauer an (keine Sorge, die Formel brauchen wir nicht):
Dabei werden zunächst die Differenzen der einzelnen Datenpunkte der beiden Reihen von ihrem Mittelwert miteinander multipliziert und diese Differenzen summiert. Das Ergebnis wird dann durch das Produkt der Anzahl Datenwerte - 1 und der Standardaweichungen beider Datenreihen dividiert.
Zur Ermittlung der Korrelation sind also einige Berechnungen durchzuführen; Alteryx nimmt uns diese Arbeit über die entsprechenden aber Tools ab, wie wir in der praktischen Anwendung sehen. Als Beispiel vergleiche ich hier einmal die Punkteentwicklung des SC Freiburg und von RB Leipzig in der Bundesligasaison 2021/22.
Denkbar einfach - die Datenquelle (hier ein Text Input Tool, das den Punktestand an den Spieltagen 1-34 enthält) wird mit dem Pearson Correlation Tool verbunden, die beiden Felder werden selektiert und dann noch Berechnung der Korrelation ausgewählt - fertig. Der Workflow liefert den Korrelationskoeffizienten, der einen starken Zusammenhang zwischen den beiden Datenreihen zeigt.
Ähnlich einfach ist auch die Anwendung des Association Analysis Tools - auch hier werden nur die Datenreihen und der zu berechnende Wert ausgewählt. Das Ergebnis unterscheidet sich in der Darstellung - diesmal wird ein Report geliefert, der neben dem Korrelationskoeffizienten auch den p-Wert (=Signifikanz) enthält, der Auskunft darüber gibt, wie "zuverlässig" unser Ergebnis ist (p < 0,05 zeigt an, dass die Annahme, es gibt keinen Zusammenhang zwischen den Datenreihen, verworfen werden kann).
Zusätzlich erzeugt das Association Analysis Tool noch eine "Heatmap", die insbesondere bei einer größeren Zahl von Datenreihen hilft, den Überblick zu behalten; dabei wird für die einzelnen Kombinationen jeweils der Korrelationskoeffizient als Farbfeld mit -1 = blau und 1 = rot sowie den entsprechenden Stufen auf der Farbskala angezeigt.
Die Berechnung liefert für beide Tools natürlich den exakt gleichen Wert. Die Entscheidung für eins der beiden Tools (bzw. zwischen Spearman Correlation und Association Analysis) hängt also insbesondere davon ab, welche Form das Ergebnis haben soll.
Natürlich soll auch die Performance nicht vergessen werden. Und da ist das Ergebnis klar (unabhängig von der AMP-Einstellung) - geht es nur um die Ermittlung des Korrelationskoeffizienten, liegt das Correlation-Tool eindeutig vorn!
Leider werden die Tools in der Data Investigation Tool Palette nicht besonders häufig eingesetzt, obwohl sie einfach zu konfigurieren sind und richtig eingesetzt auch wertvolle Erkenntnisse liefern können!
Weitere Tipps Tuesday Beiträge
Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.
Sie müssen ein registrierter Benutzer sein, um hier einen Kommentar hinzuzufügen. Wenn Sie sich bereits registriert haben, melden Sie sich bitte an. Wenn Sie sich noch nicht registriert haben, führen Sie bitte eine Registrierung durch und melden Sie sich an.