Blog - Deutsch

RolandSchubert · ‎10-05-2022

Ich muss es zugeben - ich neige intuitiv dazu, nach Beziehungen zwischen verschiedenen Daten zu suchen. Und tatsächlich erkenne ich auch oft einen Zusammenhang, der inhaltlich nicht immer sinnvoll sein muss. So konnte ich beispielsweise eine Beziehung zwischen verlorenen Heimspielen und meiner Anwesenheit im Fußballstadion ausmachen - so etwas kann man natürlich nicht ernsthaft in Verbindung bringen.

Mit dieser Neigung befinde ich mich aber in guter Gesellschaft - die Seite http://www.tylervigen.com/spurious-correlations hat eine Vielzahl von Datenreihen zu bieten, die ganz offensichtlich (vielleicht besser scheinbar) miteinander verbunden sind. So entwickeln sich Scheidungsrate und der Pro-Kopf-Konsum von Margarine erstaunlich parallel, auch Kurven für den Pro-Kopf-Konsum von Hühnchen und der Import von Rohöl verlaufen auffallend gleichartig.

Natürlich ist Vorsicht geboten, wenn es nicht nur um die gleichartige Entwicklung von Zahlenreihen, sondern auch um die Ableitung von Wirkungszusammenhängen geht - die Zahl der Ertrunkenen im Pool lässt sich wohl nicht reduzieren, indem keine Filme mit Nicolas Cage mehr gedreht werden (übrigens konnte ich auch den Abstieg nicht verhindern, indem ich nicht mehr ins Stadion ging ...).

Aus dem hier gezeigten Zusammenhang zwischen Datenreihen, der Korrelation, kann also nicht auf einen Wirkungszusammenhang, auf Kausalität, geschlossen werden. Allerdings kann Korrelation durchaus ein Hinweis auf mögliche Kausalität sein, so dass es sich durchaus lohnen kann, Daten auf Korrelation zu prüfen.

Und natürlich stehen im Alteryx Designer auch für diesen Zweck die entsprechenden Tools zur Verfügung. Moment - Tools? Ja, es gibt in der Data Investigation Tool Palette gleich mehrere Tools, die eingesetzt werden können:

Pearson Correlation: liefert wahlweise den Korrelationskoeffizienten oder die Kovarianz für zwei oder mehr Datenreihen nach Pearson
Spearman Correlation: liefert wahlweise den Korrelationskoeffizienten oder die Kovarianz für zwei oder mehr Datenreihen nach Spearman
Association Analysis: liefert den Korrelationskoeffizienten nach Peason, Spearman oder Hoeffding's D-Korrelation für zwei oder mehr Datenreihen

Nicht nur verschiedene Tools, sondern auch noch verschiedene Korrelationskoeffizienten? Und zusätzlich noch Kovarianz als Alternative?

Nun, die Abgrenzung von Kovarianz und Korrelation ist recht einfach zu erklären:

Die Kovarianz zeigt uns die Richtung des Zusammenhangs zwischen zwei Daten, wir können also ablesen, ob sich tendenziell die Werte beider Datenreihen in die gleiche Richtung (positive Werte der Kovarianz) oder gegenläufig (negative Werte) entwickeln
Der Korrelationskoeffizient lässt zusätzlich noch die Intensität des Zusammenhangs erkennen, die Skala reicht von 1 (Werte entwickeln sich mit gleicher Steigung in die gleiche Richtung) bis -1 (Werte entwickeln sich mit gleicher Steigung gegenläufig), geringere Werte deuten auf einen geringeren Zusammenhang der Daten hin.

In der Regel wird daher für die Bestimmung eines Zusammenhangs der Korrelationskoeffizient herangezogen, der allerdings den größeren Rechenaufwand verursacht. Interessiert nur die Richtung, könnte die Kovarianz bei größeren Datenmengen also durchaus eine Option sein.

Auch der Unterschied zwischen der Korrelation nach Pearson und der nach Spearman ist schnell erklärt:

Pearson Correlation findet bei metrischer Skalierung Anwendung, also bei einem Vergleich von Daten, für die eine natürliche Reihenfolge zu erkennen ist (Größer-Kleiner-Beziehung) und sinnvolle Berechnungen durchgeführt werden können (z.B. aussagekräftige Differenzen). Versucht man etwa, den Zusammenhang der erreichten Punkte von zwei Bundesligamannschaften über die Spieltage 1 - 34 zu ermitteln, wäre der Korrelationskoeffizient nach Pearson die richtige Wahl.

Spearman Correlation wird dagegen bei ordinalskalierten Werten angewendet, die auch in eine Rangfolge gebracht werden können (der "Erste" kommt vor dem "Zweiten") , allerdings keine "Berechnung" (z.B. von Differenzen) im eigentlichen Sinne erlauben (zwischen dem 1. und dem 5. Platz und dem 11. und dem 15. Platz ist die Differenz identisch, der Abstand kann sich aber gravierend unterscheiden). Vergleicht man beispielsweise die Platzierungen der bereits erwähnten Bundesligamannschaften im Laufe der Saison, sollte der Korrelationskoeffizient nach Spearman genutzt werden.
Hoeffding's D-Korrelation liefert eine generelle Aussage zur Abhängigkeit/Unabhängigkeit von Zahlenreihen und bezieht dabei auch nichtlineare Zusammenhänge mit ein, während Pearson und Spearman nur einen linearen Zusammenhang messen.

Wichtig: Korrelation ist ein Maß für den Zusammenhang numerischer Daten! Sind nominal skalierte Daten (Geschlecht, Farbe) im Spiel, wird der Zusammenhang mittels Kontingenz gemessen; da hilft auch die Umwandlung in "0" und "1" nicht - technische würde es dann funktionieren, unhaltlich aber keine validen Ergebnisse liefern.

Schauen wir uns die Berechnung des Pearson-Korrelationskoeffizienten einmal genauer an (keine Sorge, die Formel brauchen wir nicht):

Dabei werden zunächst die Differenzen der einzelnen Datenpunkte der beiden Reihen von ihrem Mittelwert miteinander multipliziert und diese Differenzen summiert. Das Ergebnis wird dann durch das Produkt der Anzahl Datenwerte - 1 und der Standardaweichungen beider Datenreihen dividiert.

Zur Ermittlung der Korrelation sind also einige Berechnungen durchzuführen; Alteryx nimmt uns diese Arbeit über die entsprechenden aber Tools ab, wie wir in der praktischen Anwendung sehen. Als Beispiel vergleiche ich hier einmal die Punkteentwicklung des SC Freiburg und von RB Leipzig in der Bundesligasaison 2021/22.

Denkbar einfach - die Datenquelle (hier ein Text Input Tool, das den Punktestand an den Spieltagen 1-34 enthält) wird mit dem Pearson Correlation Tool verbunden, die beiden Felder werden selektiert und dann noch Berechnung der Korrelation ausgewählt - fertig. Der Workflow liefert den Korrelationskoeffizienten, der einen starken Zusammenhang zwischen den beiden Datenreihen zeigt.

Ähnlich einfach ist auch die Anwendung des Association Analysis Tools - auch hier werden nur die Datenreihen und der zu berechnende Wert ausgewählt. Das Ergebnis unterscheidet sich in der Darstellung - diesmal wird ein Report geliefert, der neben dem Korrelationskoeffizienten auch den p-Wert (=Signifikanz) enthält, der Auskunft darüber gibt, wie "zuverlässig" unser Ergebnis ist (p < 0,05 zeigt an, dass die Annahme, es gibt keinen Zusammenhang zwischen den Datenreihen, verworfen werden kann).

Zusätzlich erzeugt das Association Analysis Tool noch eine "Heatmap", die insbesondere bei einer größeren Zahl von Datenreihen hilft, den Überblick zu behalten; dabei wird für die einzelnen Kombinationen jeweils der Korrelationskoeffizient als Farbfeld mit -1 = blau und 1 = rot sowie den entsprechenden Stufen auf der Farbskala angezeigt.

Die Berechnung liefert für beide Tools natürlich den exakt gleichen Wert. Die Entscheidung für eins der beiden Tools (bzw. zwischen Spearman Correlation und Association Analysis) hängt also insbesondere davon ab, welche Form das Ergebnis haben soll.

Natürlich soll auch die Performance nicht vergessen werden. Und da ist das Ergebnis klar (unabhängig von der AMP-Einstellung) - geht es nur um die Ermittlung des Korrelationskoeffizienten, liegt das Correlation-Tool eindeutig vorn!

Leider werden die Tools in der Data Investigation Tool Palette nicht besonders häufig eingesetzt, obwohl sie einfach zu konfigurieren sind und richtig eingesetzt auch wertvolle Erkenntnisse liefern können!

Weitere Tipps Tuesday Beiträge

Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.

Blog - Deutsch

Margarine und Scheidungen | Tipps Tuesday #088

Runden für jeden Geschmack | Tipps Tuesday #072

Dateien verschieben & kopieren | Tipps Tuesday #04...