Community Spring Cleaning week is here! Join your fellow Maveryx in digging through your old posts and marking comments on them as solved. Learn more here!
Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
RolandSchubert
16 - Nebula
16 - Nebula

Clusteranalyse wird immer wieder als Methode genannt, wenn es zum Beispiel darum geht, Kunden in Segmente einzuteilen, die im Rahmen von Aktionen gezielt angesprochen werden sollen. Aber nicht nur im Marketing finden sich geeignete Anwendungsfälle; diese gibt es genauso in Bereichen wie Einkauf, Finance oder HR. Immer dann, wenn es um die Bildung von Gruppen mit ähnlichen Eigenschaften geht, ist die Clusteranalyse eine Option, übrigens nicht nur bei betriebswirtschaftlichen Aufgabenstellungen, sondern auch in Sozialforschung, Psychologie, Biologie, Chemie, Medizin oder in der Archäologie.

 

Also – die Methode scheint wohl irgendwie ganz nützlich zu sein. Und in Alteryx gibt es doch ein Cluster Analysis Tool, gut versteckt in der Predictive Grouping Tool Palette.

RolandSchubert_11-1631109477314.png

 

 

Aber ist das nicht nur etwas für „Experten“? Auf gar keinen Fall! Voraussetzung ist natürlich, dass man sich ein wenig mit der Thematik beschäftigt, aber man muss definitiv kein Mathematiker oder Statistiker sein, um mit Alteryx zum Beispiel Kunden oder Produkte zu clustern. Nebenbei bemerkt, man muss noch nicht einmal ein Experte in Alteryx sein!

 

Bevor wir aber in die Praxis einsteigen und mit Alteryx an einem konkreten Beispiel eine Clusteranalyse durchzuführen, sollten wir uns ein bisschen mit den Grundlagen beschäftigen.

 

 

Gruppierung – Ansätze und Methoden

 

Oftmals stellt sich die Aufgabe, basierend auf Eigenschaften oder Verhaltensweisen möglichst homogene Gruppen zu bilden. Gemeinsam ist all diesen Fragestellungen, dass ähnliche Elemente zusammengefasst werden. Im folgenden Beispiel etwa erkennt man Gruppen sehr schnell und einfach – die Elemente unterscheiden sich deutlich in Form und Farbe, wir können ganz intuitiv blaue Dreiecke, orange Kreise, violette Quadrate und grüne Sterne in jeweils eine eigene Gruppe einordnen.
 

RolandSchubert_12-1631109562275.png

 

Im Detail unterscheiden sich „Gruppierungsaufgaben“ allerdings deutlich, wenn es um Voraussetzung, generellen Ansatz und Zielsetzung geht.

 

 

Alles unter Kontrolle!

 

Am einfachsten ist die Bildung von Gruppen natürlich, wenn sowohl die Gruppen als auch die Kriterien für die Zuordnung vorgegeben werden können. Die Zielsetzung ist in solchen Fällen primär deskriptiv – die Zugehörigkeit zu einer Gruppe dient als Beschreibung.

 

Diesen Fall findet man etwa bei der Einteilung in A-, B- und C-Kunden; es gibt drei Gruppen (A, B, C) und es gibt eine klare Regel für die Zuordnung (in der Regel die Erreichung vorgegebener Umsatzgrößen). Wird ein Kunde als „A-Kunde“ bestimmt, können Umsatz und Bedeutung dieses Kunden für das Unternehmen entsprechend eingeschätzt und abhängig davon vielleicht auch Aktivitäten von Marketing und Customer Service gesteuert werden.

 

Einer ähnlichen, wenn auch etwas komplexeren Logik folgt die Klassifizierung von Hotels. Hier wird die Erfüllung vorgegebener Bedingungen geprüft, die in einem umfassenden Katalog aufgelistet und mit einer entsprechenden Gewichtung versehen sind; abhängig vom Gesamtwert werden dann ein bis fünf Sterne vergeben, die ein komprimiertes Bild vermitteln sollen, was der Gast erwarten kann.

 

In diesen und vergleichbaren Fällen werden Gruppen im Sinne einer spezifischen Zielsetzung „konstruiert“ (z.B. B-Kunden oder 4-Sterne-Hotels) und mit Hilfe elementarer mathematischer Operationen (im Wesentlichen Größer-/Kleiner-Vergleiche) nach definierten Regeln gefüllt. 

 

 

Zumindest die Gruppen kann man noch festlegen!

 

Komplexer wird es natürlich, wenn zwar die Gruppen vorgegeben werden können, nicht aber die Regeln der Zuordnung. Hier finden sich oftmals prädiktive Fragestellungen, die auf Grundlage vorhandener Erkenntnisse (= Daten) beantwortet werden können.   

 

Es könnte dabei beispielsweise darum gehen, eine E-Mail als Spam zu identifizieren, eine Kreditkartentransaktion als „möglicherweise betrügerisch“ zu erkennen oder die Kunden herauszufiltern, die aktuell keine Kaufabsicht haben, ihre Meinung aber voraussichtlich bei Zusendung eines Gutscheins ändern.

 

Bei Aufgaben dieses Typs sind die Gruppen vorher definiert, in die einzelne Elemente einsortiert werden sollen (etwa „Spam“ oder „Nicht-Spam“), allerdings fehlt das Regelwerk für die Zuordnung; es gibt hier nicht die Möglichkeit, die entsprechenden Regeln wie bei der Einteilung in A-, B- und C-Kunden einfach zu definieren. 

Die jeweiligen Gruppen müssen hier bereits Elemente enthalten, die ihnen also schon (manuell) zugewiesen wurden. Auch die Eigenschaften dieser Elemente müssen bekannt sind. Diese Daten (Eigenschaften und Zuordnung zur Gruppe) werden von entsprechenden Modellen genutzt, um die Regeln zu „lernen“, nach denen gruppiert werden soll.

 

Auf neue Elemente, etwa eine neue Mail, werden diese Regeln dann angewendet und sie werden der entsprechenden Gruppe zugewiesen. Hier spricht man von „classification“ (Klassifizierung), entsprechende Methoden werden als „supervised learning“ (überwachtes Lernen) bezeichnet, da eine „Überwachung“ in Form exemplarischer Zuordnungen als Grundlage genutzt wird.

 

Auch hier werden die Gruppen im Vorfeld definiert und zumindest einige „Muster“ einsortiert, aus denen dann Zuordnungsregeln abgeleitet werden. Etwas vereinfacht landet ein neues Element in der Gruppe, in der die Elemente gleiche oder ähnliche Eigenschaften haben. Mit elementaren mathematischen Operationen kommt man hier allerdings nicht mehr aus, stattdessen können zum Beispiel Methoden wie Decision Tree, Logistic Regression, Neural Network oder Support Vector Machine genutzt werden.  

 

 

Alles unbekannt – wir suchen neue Erkenntnisse!

 

Aber manchmal lässt die Aufgabenstellung keine „externe“ Definition von Gruppen oder Regeln zu. Dabei geht es vielfach darum, neue Erkenntnisse zu gewinnen, Wissen freizulegen, das irgendwo in einem Datenbestand verborgen ist. Beispielsweise könnte die Fragestellung sein, ob sich Kunden (oder auch Mitarbeiter, Lieferanten, …) aufgrund ihres Verhaltens oder ihrer Eigenschaften zu Gruppen zusammenfassen lassen, für die dann an den spezifischen Gruppen orientierte Maßnahmen oder Strategien entwickelt werden können. Die Gruppen werden diesmal also nicht vorher definiert, sondern ihre Identifikation ist eines der Ziele der Analyse.  

 

Da die Gruppenbildung hier ohne vorgegebene Muster und Kriterien erfolgt, es auch keine im Vorhinein festgelegten Gruppen gibt, rechnet man bei diesen Typus dem „unsupervised learning“ (unüberwachtes Lernen) zu. Und hier findet sich dann endlich auch die Clusteranalyse als methodischen Ansatz.     

 

 

Und was genau ist jetzt Clusteranalyse?

 

Nach dieser zugegebenermaßen etwas länger geratenen Einordnung der Methode - wie wäre es zum Einstieg mit einer Definition?

 

„Die Clusteranalyse ist ein Instrumentarium zum Erkennen von Strukturen in einer Menge von Objekten […]. Unterstellt man, dass eine Menge von n interessierenden Objekten derart strukturiert ist, dass sie in mehrere Klassen (Gruppen, Cluster) zerfällt, so lassen sich mittels der Clusteranalyse diese Klassen festlegen. Die Klassenzugehörigkeiten der Objekte sollen dabei natürlich wesentlich durch den Grad der Ähnlichkeiten der Objekte festgelegt werden: Objekte, die zu einer Klasse gehören, sollen sich ähnlich sein (Homogenität innerhalb der Klassen) und die verschiedenen Klassen sollen möglichst unterschiedliche Objekte enthalten (Heterogenität zwischen den Klassen)“ (Hartung & Elpelt, 2007, S. 443).

 

Alles klar? Vielleicht nicht so ganz. Nun, dann versuchen wir einfach mal, das Thema etwas weniger wissenschaftlich anzugehen.

 

Grundsätzlich ist es das Ziel der Clusteranalyse, Gruppen zu erkennen. Erkennen bedeutet dabei, dass eine Gruppierung implizit vorhanden ist, die wir jetzt mit Hilfe der Clusteranalyse identifizieren wollen. Dabei kann es um Menschen (Kunden, Mitarbeiter, Besucher), Gegenstände (Produkte, Rohstoffe, archäologische Fundstücke), aber auch um immaterielle Güter (Texte, Musiktitel) gehen.

 

Die jeweiligen Untersuchungsobjekte sollen so zusammengefasst werden, dass sich in den entstehenden Gruppen diejenigen wiederfinden, die einander besonders ähnlich sind, während unähnliche in verschiedenen Gruppen landen. Die „Ähnlichkeit“ beziehungsweise „Unähnlichkeit“ wird dabei von Eigenschaften/Merkmalen der Untersuchungsgegenstände abgeleitet.

 

 

Wie kann man Ähnlichkeit messen?

 

Zur Messung der Ähnlichkeit von Merkmalen werden Abstandsmaße genutzt; dabei gibt es eine Vielzahl verschiedener Möglichkeiten, die in Abhängigkeit vom Datentyp des Merkmals eingesetzt werden können und jeweils ihre spezifischen Vor- und Nachteile haben.

 

Die in Alteryx verfügbare Methode der Clusteranalyse (K-Means) lässt sich sinnvoll auf metrisch skalierte Daten anwenden, also auf Zahlen, die sich in eine Reihenfolge bringen lassen und bei denen die Abstände quantifizierbar sind. Die Anwendung auf binäre Daten (etwa ja/nein) oder kategoriale Daten (z.B. Farben) ist zwar über eine Umwandlung in 0/1 bzw. in Dummy-Variablen möglich, führt aber in der Regel nicht zu sinnvollen Ergebnissen. 

 

Daher wollen wir uns hier auf die beiden wichtigsten Maße für metrisch skalierte Daten beschränken.

 

 

Euklidische Distanz

 

In den meisten Fällen wird die euklidische Distanz verwendet. Wenn jetzt unangenehme Erinnerungen an den Mathematikunterricht erwachen – ja, genau der Euklid. Aber trotzdem ist es ganz einfach – die euklidische Distanz ist die Länge der direkten Verbindung der Punkte, deren Abstand ermittelt werden soll. Das sieht dann zum Beispiel so aus:

 

RolandSchubert_0-1631110542123.png

 

Falls wir bis zu drei Merkmale betrachten, kann man sich das noch recht gut vorstellen, wenn das vierte Merkmal hinzukommt, wird die visuelle Darstellung dann doch eher schwierig. Für den Fall, dass jemand gern die Formel sehen würde - bitte sehr: 

 

RolandSchubert_0-1631108940694.png

 

Es wird für jedes einzelne Merkmal die Differenz gebildet, das Quadrat dieser Differenz ermittelt, die Summe der Quadrate berechnet und aus dieser Summe die Wurzel gezogen.

 

Aber keine Sorge, die Berechnung erfolgt natürlich automatisch …

 

 

Absolutabstand/Manhattan-Distanz

 

Alternativ kommt in einigen Fällen der Absolutabstand (= Manhattan-Distanz) zum Einsatz. Dabei wird gewissermaßen die „Fahrtstrecke“ gemessen, wenn man dem Straßenverlauf folgt.

 

RolandSchubert_1-1631109033307.png

 

Auch das kann man sich bei bis zu drei Merkmalen sehr gut vorstellen, darüber hinaus muss dann die Darstellung als Formel herhalten:

RolandSchubert_2-1631109051201.png

 

Im Grunde ist der Absolutabstand also nichts anderes als die Summe der Differenzen je Merkmal. Auch das wird natürlich automatisch gerechnet.

 

 

Ziel der Clusteranalyse

 

Wenn wir jetzt die Definition der Clusteranalyse und die Abstandsmessung zusammenführen, lässt sich die Grundidee recht anschaulich darstellen. Wir haben eine Reihe von Elementen mit ihren jeweiligen Merkmalen (Lage im Koordinatensystem).

 

RolandSchubert_3-1631109084654.png

 

Ausgehend von diesen Daten wollen wir jetzt Gruppen (= Cluster) identifizieren, bei denen zwischen den Elementen, die zum Cluster gehören, möglichst wenig Abstand besteht, zwischen den Clustern allerdings möglichst viel.

 

RolandSchubert_4-1631109113120.png

 

 

 

Wie viele und welche Merkmale müssen berücksichtigt werden?

 

Bei den Beispielen, die bisher zur Erläuterung der Abstandsberechnung und der Clusterbildung gewählt wurden, gab es zwei, maximal drei Merkmale. Genügt das? Möglicherweise schon. Letztlich ist die Auswahl der Merkmale ein inhaltliches Thema (welches sind die wesentlichen Eigenschaften).

 

Wichtig ist, dass nicht unbedingt alle relevanten Merkmale auf Anhieb zu erkennen sind, noch viel weniger ist ihre Bedeutung immer sofort offensichtlich. Selbst in unserem ersten Beispiel, in dem Dreiecke, Quadrate, Kreise und Sterne gruppiert wurden und das ja so klar und einfach zu sein schien, könnte es weitere Merkmale geben, die einen entscheidenden Beitrag zur Bildung von Gruppen liefern würden (zum Beispiel Fläche oder Umfang), die aber unberücksichtigt blieben, da sie von den sofort in Auge springenden Eigenschaften Farbe und Form in den Hintergrund gedrängt werden. Zu vermeiden ist aber auch ein „viel hilft viel“ – mehr berücksichtigte Merkmale führen nicht automatisch zu besseren Ergebnissen …

 

Auch auf die Berücksichtigung von Merkmalen, die in hohem Maße korrelieren (kollineare Merkmale) kann die Ergebnisse beeinträchtigen, hier lohnt eine Prüfung, bevor das Modell erstellt wird.

 

Ganz wesentlich ist natürlich auch die Qualität der Daten. Ein Merkmal, das für einige wenige Elemente gefüllt ist, für alle anderen aber fehlt (im Sinne von „Wert nicht bekannt“), leistet ebenso wenig einen Beitrag wie ein Merkmal, das für alle Elemente den gleichen Wert hat.

 

 

Ausreißer

 

Nicht nur bei der Auswahl der Merkmale sollte sorgsam geprüft werden, auch bei den Elementen ist das erforderlich. Bei Elementen, die isoliert liegen und einen großen Abstand zum nächsten Nachbarn haben, während sich alle anderen in einem begrenzten Bereich befinden, kann es sich um Ausreißer handeln, die bei der Clusteranalyse unberücksichtigt bleiben sollten – das rot unterlegte Auto ganz rechts oben ist ein gutes Beispiel.

 

Dabei sollte man allerdings daran denken, dass nicht jeder Wert, der vielleicht aus dem "normalen" Rahmen fällt, auch ein Ausreißer sein muss - hier kommt es wieder mal auf den sachlichen Zusammenhang an.

  

 

RolandSchubert_5-1631109147869.png

 

 

Verfahren der Clusteranalyse

 

Alteryx stellt als Verfahren der Clusteranalyse K-Means und zwei abgewandelte Formen von K-Means (K-Medians und Neural Gas) bereit. Dabei handelt es sich um ein sogenanntes „partitionierendes Verfahren“, bei dem ausgehend von zufälligen Startpunkten die Zuordnung und damit die Clusterzusammensetzung schrittweise verbessert wird. 

 

Neben den partitionierenden Verfahren gibt es auch hierarchische Verfahren, bei denen entweder - ausgehend von einzelnen Elementen - immer weiter zusammengefasst wird, oder - ausgehend von der Gesamtheit aller Elemente - immer weiter unterteilt. Eine weitere Alternative sind dichtebasierte Verfahren (DBSCAN). Beide sind standardmäßig in Alteryx nicht verfügbar, können aber zum Beispiel über das R-Tool implementiert werden!   

 

Voraussetzung bei der hier verwendeten partitionierenden Methode ist die Angabe, wie viele Cluster erzeugt werden sollen – so ganz ohne „Überwachung“ funktioniert die Clusteranalyse dann doch nicht. 

 

Wir haben uns entschieden, dass auf dem hier abgebildeten Parkplatz Cluster von Fahrzeugen gebildet werden sollen. Als Merkmale verwenden wir den Abstand der Fahrzeuge der linken und den Abstand von der unteren Abgrenzung des Parkplatzes, also gewissermaßen die Koordinaten. Wir möchten drei Cluster bilden, entsprechend werden nach dem Zufallsprinzip drei „Mittelpunkte“ gesetzt.

 

Noch sind diese Mittelpunkte natürlich keine, das soll sich in den folgenden Schritten ändern.

 

RolandSchubert_6-1631109297838.png

 

 

Nun werden die Abstände aller Elemente zu jedem der Mittelpunkte ermittelt (euklidische Distanz); die einzelnen Elemente werden dann dem nächstgelegenen Mittelpunkt zugeordnet (d.h. entsprechend farblich hinterlegt).

 

RolandSchubert_7-1631109297960.png

 

Jetzt werden die Mittelpunkte (bislang waren es ja noch keine) so verlagert, dass sie den Mittelpunkt des ihnen zugeordneten Clusters bilden. Für das „grüne Cluster“ ist das sehr gut zu erkennen.

 

RolandSchubert_8-1631109298077.png

 

Jetzt wird die Abstandsermittlung wiederholt und die Zuordnung entsprechend korrigiert; da die Mittelpunkte ja nun verlagert wurden, kommt es zu einer Reihe von Clusterwechseln.

 

RolandSchubert_9-1631109298190.png

 

 

Danach werden erneut die Mittelpunkte so verschoben, dass sie tatsächlich den Mittelpunkt der zugeordneten Elemente bilden.

 

RolandSchubert_10-1631109298305.png

 

Die nächste Runde der Abstandsermittlung und Anpassung der Zuordnungen kann beginnen, auf die erneut eine Verschiebung der Mittelpunkte folgen könnte. Diese Schritte werden wiederholt, bis sich keine Zuordnung mehr ändert – sobald dieser Zustand erreicht ist, ist die Clusteranalyse abgeschlossen.

 

 

In einer nicht ganz so idealen Welt …

 

Das Beispiel ist natürlich perfekt, um die Verschiebung und die Clusterwechsel zu zeigen. Leider ist die Realität in der Regel nicht so einfach – meist sind es mehr als zwei Merkmale, oft genug ist auch die Skalierung nicht die gleiche. Was kann das bedeuten?

 

Schauen wir uns vielleicht wieder ein Beispiel an. Hier sind es zwar wieder nur zwei Merkmale, aber wir haben unterschiedliche Skalierungen vor uns. Die Daten gehören zu drei Kreditnehmern; A und B haben den gleichen Kreditbetrag, A und C den gleichen Zinssatz. Der Kreditbetrag von C ist um 20% höher, der Zinssatz von B um Faktor 4 – an sich würde man erwarten, dass A und C als „ähnlicher“ erkannt werden.

 

 

KREDIT

ZINSSATZ

A

50.000 €

1,5%

B

50.000 €

6,0%

C

60.000 €

1,5%

 

Die Berechnung der Abstände (die Formel kennen wir ja bereits - wir benutzen hier die euklidische Distanz) führt aber zu folgendem Ergebnis:

 

 

A

B

C

A

-

0,045

10.000,000

B

0,045

-

10.000,045

C

10.000,000

10.000,045

-

 

A und B sind also deutlich ähnlicher als A und C beziehungsweise B und C – eine offenkundige Fehleinschätzung!

 

Um dieses Problem zu vermeiden, muss „standardisiert“ werden – beide Merkmale werden auf die gleiche Skala umgerechnet. Hier stehen verschiedene Verfahren zur Verfügung, die alle Werte auf eine Skala von -1 bis 1 (z-score) oder 0 bis 1 (Unit Interval) umrechnen.

 

 

Und wie sieht das in der Praxis aus?

 

Die Grundlagen kennen wir nun hinlänglich - zugegeben, es war ziemlich viel. Und wann kommt endlich die Praxis? Mit der werden wir uns im zweiten Teil beschäftigen.

 

An einem kleinen Fallbeispiel werden wir versuchen, alle Spieler der 1. Bundesliga in der Saison 2020/21 nach ihren Leistungsdaten (z.B. gewonnene Zweikämpfe, erzielte Tore, vereitelte Tore) in Cluster einzuteilen. Dazu nutzen wir die Werkzeuge, die Alteryx in der Predictive Grouping Palette zur Verfügung stellt, also den hier bereits beschriebenen k-Means Algorithmus.

 

Einen Überblick über die Umsetzung anderer Methoden der Clusteranalyse in Alteryx wird dann in einem dritten Teil folgen - da wird dann auch ein wenig R ins Spiel kommen.  

 

 

Beschriftungen