Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
RolandSchubert
16 - Nebula
16 - Nebula

In Teil 1 meines Beitrags habe ich mich mit den Grundlagen beschäftigt, also zunächst einmal erklärt, welche Idee eigentlich hinter der Methode steckt. Nun geht es (endlich) an die praktische Umsetzung.

 

Dazu habe ich mir eine vielleicht etwas ungewöhnliche Datenbasis ausgesucht – Leistungsdaten von Spielern der Fußball-Bundesliga in der Saison 2020/21. Diese Daten habe ich von LigaInsider.de übernommen und in eine einheitliche Form gebracht – das Thema „Datenbeschaffung und Datenaufbereitung“ klammere ich hier also bewusst aus, es geht nur um die Durchführung der Clusteranalyse selbst. Die Daten stehen in Form einer yxdb-Datei zur Verfügung.

 

RolandSchubert_1-1639571734378.png

 

 

 

Los geht’s!

 

Als ersten Schritt holen wir uns die Daten natürlich mit einem INPUT DATA Tool in unseren neuen Workflow.

 

RolandSchubert_2-1639571761316.png

 

 

Und jetzt? Es empfiehlt sich auf jeden Fall, sich einen gründlichen Überblick über die Daten und ihre Qualität zu verschaffen. Ein kurzer Blick auf den Preview verrät bereits, dass es Texte (Namen, Verein, Position) und Zahlen (Minuten, Einsätze, Passquote) gibt; außerdem erkennen wir sofort, dass es auch NULL-Werte gibt, also nicht für jeden Spieler alle Daten verfügbar sind.

 

 

Schauen wir mal etwas genauer hin

 

Aber ein richtiger Überblick ist das noch lange nicht. Also ergänzen wir doch mal ein BROWSE Tool, das liefert ja schon mal etwas mehr.

 

Nun können wir uns die Daten genauer ansehen, uns einen Eindruck von den einzelnen Feldern/Feldtypen (Metadata) und ihren Inhalten (Data) verschaffen.

 

RolandSchubert_3-1639571808637.png

 

 

In der „Data“ Ansicht gibt der Balken unter dem Feldnamen auch eine Indikation zum Thema „Datenqualität“ – hier beispielsweise erkennen wir, dass das Feld „Spieler“ absolut in Ordnung zu sein scheint (Balken komplett grün), während es im Feld „Minuten“ einen Anteil von NULL-Werten gibt (Balken teilweise gelb) und das Feld „gehaltene Elfmeter“ fast komplett mit NULL-Werten gefüllt ist (Balken überwiegend gelb – nicht überraschend, da in der Bundesliga nur selten ein Elfmeter von einem Feldspieler gehalten wird, die aber den Großteil der Datenbasis ausmachen).

 

RolandSchubert_4-1639571867892.png

 

 

Mehr Information gibt es im Configuration Window, wahlweise in Listform oder als Grafik werden die in den einzelnen Feldern vorkommenden Inhalte mit ihrer jeweiligen Häufigkeit angezeigt. Zwischen den Darstellungen kann man über das kleine Grafiksymbol umschalten.

 

Auch hier gibt es natürlich den bereits bekannten Qualitäts-Indikator-Balken. Der zeigt übrigens, wenn man mit der Maus über die Linie fährt, den Anteil der einzelnen „Qualitätsstufen“ an, also etwa den Anteil von NULL-Werten.

 

RolandSchubert_5-1639571897849.png

 

 

 

Schauen wir noch etwas genauer hin

 

 

Es ist auf jeden Fall sinnvoll, hier noch etwas genauer hinzuschauen – je besser wir die Inhalte und die Daten kennen, desto besser können wir auch das Modell konfigurieren und die Ergebnisse deuten.

Um einen noch detaillierteren Einblick in die Daten zu gewinnen, können wir in der schon gezeigten Übersicht des BROWSE Tools auf einen der Feldnamen klicken, wir kommen dann zu den Detailinformationen des jeweiligen Feldes. Das ist übrigens nicht nur sinnvoll, wenn wir uns mit Clusteranalyse beschäftigen!

 

RolandSchubert_6-1639571944145.png

 

 

Jetzt erhalten wir eine komplette Übersicht mit mehr oder weniger sinnvollen/nützlichen Kennzahlen, z.B. Anteile der Qualitätsstufen mit den jeweiligen Anzahlen, Verteilung der Werte, Maximum (hier 1, d.h. jeder Schuss in Richtung Tor hat auch auf das Tor getroffen – und das war nicht Robert Lewandowski, der mit 0,65 eine deutlich schwächere Quote hat), Minimum, Standardabweichung, Median und Summe (die Summe gehört hier definitiv zu den weniger sinnvollen Kennzahlen). Außerdem finden wir eine Liste der häufigsten Werte, auch das ist oftmals hilfreich.

 

Diese Informationen sollten wir uns in jedem Fall anschauen, sie helfen, die Eignung einzelner Felder für die Bildung von Clustern zu beurteilen; ein Feld, in dem alle Datensätzen den gleichen Wert zeigen, ist hier in der Regel wenig geeignet.

 

 

Wollen wir noch mehr sehen?

 

 

Weitere Möglichkeiten, tiefergehende Einsichten über unsere Daten zu gewinnen, finden wir in der Toolpalette DATA INVESTIGATION.

 

FIELD SUMMARY liefert etwa eine Reihe von Kennzahlen zu den Inhalten des gewählten Felds (Anteil NULL-Werte, Anzahl verschiedener Ausprägungen, Minimum, Maximum) – als eigentlich keine neuen Erkenntnisse. Zusätzlich gibt es aber eine grafische Darstellung der Werteverteilung sowie eine Anmerkung, oft eine Empfehlung, wie mit fehlenden Werten oder dem Feld insgesamt verfahren werden sollte.

 

Hierbei sollte man beachten, dass dies eine Empfehlung ohne inhaltlichen Hintergrund ist. Im Falle der gespielten Minuten ist die vorgeschlagene Imputation keine sinnvolle Option, da es für einen Spieler, der nicht eingesetzt wurde, natürlich keine gespielten Minuten gibt – es wäre unsinnig, hier etwa den Mittelwert oder Median zu verwenden. Bei den gehaltenen Elfmetern ist die Umwandlung in ein Kategorienfeld auch nicht wirklich sinnvoll, allerdings ist die Frage, ob die absolute Zahl ohne Bezugswert eine sinnvolle Größe ist, das sollten wir nochmals überdenken.   

 

RolandSchubert_7-1639571985235.png

 

 

In der Toolpalette finden wir noch eine Reihe weiterer Tools, die uns bei der Untersuchung der Daten helfen können. Darauf will ich aber hier nicht weiter eingehen.

 

Wir haben jetzt schon einige Erkenntnisse über unsere Daten gewonnen. Vielleicht haben wir auch über das FIELD SUMMARY Tool ein paar Anregungen eingesammelt, was an Bereinigungsschritten möglicherweise noch durchgeführt werden sollte. Eine ganz wesentliche Frage lautet nun, was mit fehlenden Werten (NULL) passieren soll. Für die Clusteranalyse können wir NULL-Werte nicht verwenden – hier ist also zu entscheiden, was damit passieren soll.

 

 

Und was machen wir jetzt mit NULL-Werten?

 

 

Wie mit NULL verfahren wird, ist in erster Linie eine inhaltliche Frage. NULL-Werte im Feld „Minuten“ können einfach auf „0“ gesetzt werden, wenn wir im Feld „Einsätze gesamt“ eine 0 finden – wenn ein Spieler nicht eingesetzt wurde, ist seine Spielzeit natürlich auch 0. Auch bei Torquote, gewonnenen Zweikämpfen oder Dribblings ist nichts zu erwarten, also auch da 0.

 

Wie aber verhält es sich, wenn ein Spieler eingesetzt wurde, wir aber zum Beispiel keine Torschüsse finden? Auch das ist nicht unplausibel – es gibt durchaus Spieler, die nie aufs Tor schießen. Auch ist für die meisten Spieler zu erwarten, dass wir im Feld „gehaltene Elfmeter“ NULL finden; hier wird es vermutlich nur bei der Position „Torwart“ einen Wert geben – und auch da nicht bei jedem.

 

Die sinnvollste Strategie für die beschriebenen Fälle ist, NULL durch den numerischen Wert „0“ zu ersetzen – diese Umsetzung ist sachlich / inhaltlich begründbar.

 

Wie aber sollte man verfahren, wenn etwa das Feld „Marktwert“ NULL-Werte beinhaltet? Hier können wir von einer echten „Datenlücke“ ausgehen. In solchen Fällen gibt es verschiedene Optionen:

 

  • „Imputation“: Wir füllen die Datenlücken mit Median, Durchschnitt, Modalwert oder einem „user specified value“. In vielen Fällen ist es durchaus sinnvoll, mit einer Annahme zu arbeiten; abhängig vom Inhalt sollte die am beste geeignete Logik genutzt werden. Im konkreten Fall hilft das aber vermutlich nicht.
  • „Felder eliminieren“: Wir verzichten darauf, Felder mit NULL-Werten zu verarbeiten, lassen also die entsprechenden Werte unberücksichtigt.  Das bietet sich an, wenn es sich um Felder mit vielen NULL-Werten handelt. Für die Clusterung von Fußballprofis ist der Marktwert sicherlich ein wesentliches Kriterium – auch das kommt hier wohl nicht in Betracht.
  • „Datensätze eliminieren“: Wir verwenden die Datensätze in der weiteren Analyse nicht. Das kann insbesondere sinnvoll sein, wenn einzelne Datensätze viele Lücken aufweisen und für den Erkenntnisgewinn keinen echten Mehrwert liefern. Im konkreten Fall ist das vermutlich die sinnvollste Option.

Eine Option muss in jedem Fall vermieden werden: NULL-Werte in der Clusteranalyse verwenden. In diesem Fall wird das Ergebnis eine Fehlermeldung sein – NULL-Werte sind nicht zugelassen!

 

 

Konkret sieht das so aus!

 

 

Wir benutzen also hier zunächst ein FILTER Tool, um unvollständige Datensätze auszusondern (fehlender Marktwert).

 

RolandSchubert_8-1639572068182.png

 

Danach folgt ein DATA CLEANSING Tool, mit dem NULL in den entsprechenden Feldern durch „0“ ersetzt wird. Alternativ könnten wir auch das FORMULA Tool nutzen, das uns die Möglichkeit gibt, die Anpassungen spezifischer zu steuern (z.B. im Feld Minuten nur dann eine 0 zu setzen, wenn die Anzahl Spiele auch 0 ist).

 

RolandSchubert_9-1639572090384.png

 

Wir haben nun die Grundlage für die Clusteranalyse geschaffen  - die Datenbasis steht.

 

RolandSchubert_10-1639572124677.png

 

 

 

Und jetzt zur Clusteranalyse

 

 

Die eigentliche Durchführung der Clusteranalyse ist ein recht einfacher Prozess, allerdings sind bei der Konfiguration einige Entscheidungen zu treffen, die für die Qualität der Ergebnisse entscheidend sein können.

Dabei hilft es sehr, wenn man inhaltliche Zusammenhänge und Daten gut kennt! Aber schauen wir uns doch das K-CENTROIDS CLUSTER ANALYSIS Tool einmal genauer an.

 

Eigentlich sind nur fünf Einstellungen erforderlich, nachdem wir das Tool mit den bereitgestellten Daten verbunden haben.

 

RolandSchubert_11-1639572173729.png

 

 

  1. Das Modell sollte einen Namen bekommen; falls wir darauf verzichten, vergibt Alteryx selbsttätig den überaus sprechenden Namen „X“. Da bezeichnen wir unser Modell vielleicht doch lieber selbst …
  2. Wir müssen mindestens zwei Felder wählen, die für die Clusterbildung genutzt werden sollen. Alle Felder, die aufgrund ihres Datentyps nutzbar sind, werden angeboten, d.h. alle numerischen Felder. Nicht verwenden können wir Kategorienfelder (z.B. Verein, Position) oder boolsche Felder. Über einen Umweg kann man auch diese Feldtypen nutzen, indem sie in Dummy-Felder „übersetzt“ werden. Je Kategorie gibt es dann ein Feld mit dem Wert „1“ (= gehört zu dieser Kategorie) oder „0“ (= gehört nicht dazu). Ein Innenverteidiger würde somit im Feld „Ist_Innenverteidiger“ eine 1 bekommen, in allen anderen eine 0. Boolsche Felder würden einfach in 1 („ja“/“wahr“) oder 0 („nein“/“falsch“) umgesetzt. Allerdings ist der K-Centroids-Algorithmus nicht auf diese Daten ausgerichtet – die Ergebnisse verlieren etwas an Qualität im Vergleich zu denen, die bei ausschließlicher Verwendung numerischer Daten erzielt werden können. Bleibt aber die Frage, welche der angebotenen Felder denn gewählt werden sollen – damit beschäftigen wir uns gleich ausführlicher.

  3. Es muss entschieden werden, ob die Felder standardisiert werden sollen – und wenn ja, mit welcher Methode. Da wir ja vermeiden wollen, das einzelne Merkmale einen überproportionalen Einfluss auf die Clusterbildung haben (also hohe Werte stärker berücksichtigt werden als niedrige – dies wäre eine Folge der Abstandsmessung), kann über die Standardisierung eine einheitliche Skalierung erzeugt werden, indem nicht mehr die absoluten Werte der einzelnen Felder, sondern die Relation der einzelnen Werte zueinander verwendet werden. Anstelle von Marktwerten wie 50Mio. und 0,5Mio. würden etwa 3 oder -3 verwendet (3-fache Standardabweichung zum Mittelwert nach oben oder unten), anstelle von 0,95 und 0,25 vielleicht 2,5 oder -2 (Mittelwert + / - 2,5 *Standardabweichung). Damit können Verzerrungen durch sehr unterschiedliche Daten vermieden werden. Als Verfahren stehen z-Score (verwendet die Standardabweichung) oder Unit Interval (skaliert auf den Bereich 0-1) zur Verfügung.

  4. Zudem muss die Cluster-Methode gewählt werden. K-Means arbeitet mit dem Mittelwert und der euklidischen Distanz, K-Median nutzt den Median und die Manhattan-Distanz. Mit Neural Gas steht eine weitere Alternative zur Verfügung. Hier werden wir uns auf die K-Means-Variante beschränken.

  5. Schließlich muss die Anzahl zu bildender Cluster angegeben werden – dazu ist noch eine Art „Voruntersuchung“ erforderlich, für die das K-CENTRIODS DIAGNOSTICS Tool genutzt werden kann.

 

 

Felder auswählen – hilft viel viel?

 

 

Die erste grundlegende Entscheidung ist die Auswahl der Felder. Ganz einfach wäre es, alle angebotenen Felder auszuwählen – ein Klick auf „All“ genügt. Aber ist das sinnvoll? Werden Ergebnisse besser, wenn wir mehr Merkmale verwenden?

 

Generell kann natürlich eine größere Anzahl von Merkmalen für die Clusterbildung vorteilhaft sein. Wenn wir die Clusteranalyse auf Kunden einer Bank anwenden und nicht nur das Merkmal „aktueller Kontostand“ anwenden, sondern auch „monatliches Einkommen“ berücksichtigen, wird das voraussichtlich die Ergebnisse verbessern. Ergänzen wir jetzt noch „Gesamtbetrag aller laufenden Kredite“ und „Wert Immobilienbesitz“, so ist eine weitere Verbesserung zu erwarten. Ist also die generelle Empfehlung, möglichst viele Merkmale zu berücksichtigen?

 

Nun, wie so oft – es kommt darauf an. Wesentlich ist nicht nur die Anzahl von Merkmalen, sondern auch deren Aussage und Beziehung zueinander. Verwendet man Merkmale, die in einem unmittelbaren Zusammenhang stehen und vielleicht sogar eine hohe Korrelation zeigen, so wird das möglicherweise zu einer Übergewichtung dieser Merkmalsgruppe führen. Hier müssen wir den konkreten Fall anschauen, um zu entscheiden.

Bezogen auf unser Anwendungsbeispiel wäre zum Beispiel zu überlegen, ob die Merkmale „Torschussversuche“, „Treffer aufs Tor“ und „Torschussquote“ alle zu berücksichtigen sind – die Torschussquote wird aus den beiden anderen ermittelt, ist also bereits implizit enthalten. Sollte man also auf diese vielleicht verzichten? Eine Quote ist zudem ein relatives Maß, das auch in die falsche Richtung deuten kann; ein Spieler, dessen einziger Schussversuch tatsächlich auf das Tor ging, hat die Quote 1 – nicht unbedingt aussagekräftig. Hier sollten die absoluten Zahlen sicherlich auch berücksichtigt werden. Andererseits ist eine Quote ein Effizienzmaß, das die absoluten Zahlen so vielleicht nicht liefern. Die absolute Zahl von 184 gewonnenen Zweikämpfen ist sicherlich hoch – in Relation zur Gesamtzahl von 460 geführten Zweikämpfen vielleicht aber doch nicht so imponierend.

 

Eine allgemeine Regel gibt es also nicht. Der wesentliche Aspekt ist immer die inhaltliche Aussage. Besonderes Augenmerk sollte Merkmalen gelten, die stark korrelieren (bei der Identifikation hilft das ASSOCIATION ANALYSIS Tool); sie sind auf jeden Fall Kandidaten für eine Bereinigung.

 

Für unser Beispiel eliminieren wir einige Merkmale, deren Aussage sich nicht oder nur unwesentlich von anderen unterscheidet. Auch die Standardisierung wird aktiviert – in jedem Fall sinnvoll bei der Mischung von Merkmalen wie „Minuten“ (Werte zwischen 0 und 3293) und „Torschussquote“ (Werte zwischen 0 und 1). 

 

RolandSchubert_12-1639572245070.png

 

 

Und wie viele Cluster sollen es werden?

 

 

Eine weitere wesentliche Aufgabe ist nun, die Anzahl der zu bildenden Cluster zu ermitteln. Dabei hilft uns das K-CENTROIDS DIAGNOSTICS Tool.

 

RolandSchubert_13-1639572275804.png

 

 

Wieder gibt es eine Reihe von Einstellungen. Über die Felder, die zur Bildung der Cluster verwendet werden sollen, haben wir ja schon ausgiebig nachgedacht, auch die Standardisierung müsste bereits geklärt sein.

Wichtig: Im K-CENTROIDS DIAGNOSTICS Tool und im K-CENTROIDS CLUSTER ANALYSIS Tool müssen die gleichen Felder gewählt werden, auch die Einstellung zur Standardisierung und zur Methode müssen identisch sein. Der Zweck des Tools ist, für diese Einstellungen eine Hilfestellung bei der Festlegung der Clusteranzahl zu geben – das setzt natürlich voraus, dass es keine Unterschiede in der grundsätzlichen Konfiguration (z.B. verwendete Merkmale) gibt!

 

Auch im Hinblick auf die verwendete Methode hatten wir uns bereits auf K-Means festgelegt.

 

Es bleibt nun, die minimale und maximale Anzahl von Clustern festzulegen, die wir betrachten wollen. Wie viele Cluster sollen mindestens gebildet werden, wie viele höchstens? Das Tool hilft also nur auf der Grundlage unserer Vorüberlegungen, die wiederum inhaltlich geprägt sind – erneut wird deutlich, wie wichtig es ist, Inhalte und Daten gut zu kennen. Eine verbindliche Grundregel gibt es nicht – die Standardeinstellung ist ein durchaus sinnvoller Ausgangswert. Die Untergrenze von „2“ ist wohl unmittelbar nachvollziehbar (ein Cluster wäre sinnlos), die Obergrenze könnte nach einem initialen Durchlauf erhöht werden, wenn die Resultate zeigen, dass die Ergebnisse mit zunehmender Clusteranzahl besser werden.

 

Zudem legen wir die Anzahl der „Bootstrap Replicates“ fest, die verwendet werden sollen. Dabei handelt es sich – vereinfacht formuliert – um die Anzahl von Stichproben mit Zurücklegen aus den vorhandenen Elementen, die verwendet wird. Maximal sind übrigens 200 möglich.

 

Bleibt noch die „Number of Starting Seeds“. Die Clusteranalyse geht von einem „initialen Mittelpunkt je Cluster“ aus, der dann entsprechend verschoben wird. Die Wahl dieser Ausgangspunkte kann einen Einfluss auf die Ergebnisse (d.h. die Clusterbildung) haben. Um hier Verzerrungen zu vermeiden, können mehrere Durchläufe mit verschiedenen Startwerten durchgeführt werden, aus denen dann ein Mittelwert gebildet wird.

Wenn wir die Standardwerte übernehmen und den Workflow ausführen, erhalten wir als Ergebnis eine Übersicht mit zwei wesentlichen Kennzahlen, die bei der Entscheidung über die Clusteranzahl helfen.

 

Dabei gibt der Adjusted Rand Index Aufschluss über die Ähnlichkeit der Elemente innerhalb der Cluster, während der Calinski-Harabasz Index ein Maß für die Verschiedenheit der einzelnen Cluster ist.

 

Ziel ist es ja, dass die Elemente innerhalb eines Clusters möglichst ähnlich, die Cluster untereinander aber möglichst verschieden sind. Wir suchen also die Anzahl Cluster, die für beide Kennzahlen einen möglichst hohen Wert annimmt; im konkreten Fall ist das „4“ – wir würden uns folglich für 4 Cluster entscheiden.

 

RolandSchubert_14-1639572332584.png

   

 

 

Nach dem längeren Ausflug  – jetzt zum Clustering zurück

 

 

Wir können jetzt zum K-Centroids Cluster Analysis Tool zurückkehren und die noch nicht festgelegten Einstellungen vornehmen, d.h. die gewünschte Anzahl Cluster einsetzen.

 

RolandSchubert_15-1639572388079.png

 

Danach zeigt das Tool eine Fehlermeldung, die nur aussagt, dass mit den veränderten Einstellungen noch nicht berechnet wurde, es also keine Ergebnisse gibt. Diese Meldung verschwindet, sobald der Workflow ausgeführt wurde.

 

Nach der Ausführung können wir uns über ein BROWSE Tool am R-Output-Anchor die Ergebnisse anschauen. Besonders interessant sind dabei die Kennzahlen zu den gebildeten Clustern sowie die Ausprägung der Merkmale der Elemente, die einem Cluster zugeordnet wurden. Ein negativer Wert bezeichnet dabei einen Wert unterhalb des Durchschnitts, ein positiver ist überdurchschnittlich.

 

RolandSchubert_16-1639572554438.png

 

 

Wir erkennen deutlich, dass in Cluster 4, zu dem nur 16 Spieler gehören, Merkmale wie „abgewehrte Schüsse“ oder „Spiele ohne Gegentor“ stark ausgeprägt sind, die für alle anderen Clustern etwa gleich leicht unterdurchschnittlich ausgewiesen sind. In Cluster 4 sind wohl die Torwarte gelandet, die als einzige für diese Merkmale einen Wert besitzen.

 

Besonders viele Schüsse aufs Tor geben die Spieler in Cluster 1 ab (offensives Mittelfeld, Stürmer), während die in Cluster 2 sich durch Passsicherheit und gute Zweikampfquote auszeichnen (defensives Mittelfeld, Abwehr). Cluster 3 zeigt bei allen Merkmalen negative Abweichungen vom Mittelwert – hier könnte es sich um Spieler handeln, die eher zur „zweiten Reihe“ gehören (korrespondierend dazu auch die niedrigere Marktwert).

 

Wir können jetzt also auf Basis der Cluster Information eine Charakteristik der einzelnen Cluster entwickeln – hier leiten wir gewissermaßen eine Beschreibung der Cluster aus den Merkmalen ab. Genau diese Beschreibungen sind es, die wir dann nutzen können, um konkrete Maßnahmen abzuleiten – sei es nun die Auswahl geeigneter Spieler, um ein Mannschaftsgefüge sinnvoll zu gestalten, oder (vermutlich der häufigere Fall) die Entwicklung von Marketingmaßnahmen, die Kundengruppen (= Cluster) entsprechend ihrer Eigenschaften adressieren.

 

 

Und wer gehört nun in welches Cluster?

 

 

Mit der Information über die gebildeten Cluster und ihre jeweiligen Besonderheiten (stark ausgeprägte Merkmale) haben wir bereits erste Erkenntnisse gewonnen. Uns fehlt allerdings noch der konkrete Bezug, d.h. bislang wissen wir nicht, welcher Spieler in welches Cluster eingeordnet wurde (oder auch welcher Kunde in welche Gruppe).

 

Dazu nutzen wir das APPEND CLUSTER Tool, dessen einzige Aufgabe es ist, die Zuordnung zwischen den Ausgangsdaten (Liste der Spieler) und den Ergebnissen des K-CENTROIDS CLUSTER ANALYSIS Tools herzustellen. Wir verbinden dazu die „Datenquelle“ (das Tool, das die Daten für das Cluster-Analysis Tool geliefert hat) mit einem der Input-Anchor, den „O“ Output Anchor der K-CENTROIDS CLUSTER ANALYSIS Tools mit dem anderen Input-Input des APPEND CLUSTER Tools und führen den Workflow aus.

 

RolandSchubert_17-1639572582008.png

 

 

Wir können den Feldnamen, der im Ergebnis die Clusterzuordnung enthält, noch umbenennen (z.B. in „Kundengruppe“ oder hier „Spielertypus“), das muss aber nicht sein.

 

Es kann übrigens passieren, dass hier eine Fehlermeldung auftaucht, wenn die Verbindung hergestellt ist:

 

RolandSchubert_18-1639572615358.png

 

 

Das Tool mag keine Leerzeichen in Feldnamen; allerdings kann man die Fehlermeldung getrost ignorieren, die Feldnamen werden automatisch korrigiert, indem das Leerzeichen durch einen Punkt ersetzt wird. Nachdem der Workflow ausgeführt wurde, ist die Fehlermeldung dann auch verschwunden.

 

Das BROWSE Tool am Output-Anchor des APPEND CLUSTER Tools zeigt uns dann die Zuordnung:

 

RolandSchubert_19-1639572643328.png

 

 

Auf den ersten Blick scheint unsere Vermutung zu stimmen – Cluster 4 sind die Torhüter, Cluster 1 tendenziell offensive, Cluster 2 eher defensive Spieler, in Cluster 3 finden sich Spieler, die wenige Einsätze zu verzeichnen haben.

 

 

Wenn wir dann die Anzahl der Spieler je Cluster für die einzelnen Mannschaften zählen, überrascht es nicht so besonders, dass bei Bayern München der Anteil der Spieler aus Cluster 3 relativ gering ist, während er bei anderen den überwiegenden Teil des Teams ausmacht.

 

RolandSchubert_21-1639572702413.png

 

 

 

Fazit

 

 

Vermutlich wird unser Fallbeispiel für die wenigsten Nutzer direkte Ähnlichkeiten mit der täglichen Arbeit aufweisen, aber es ist hoffentlich klar geworden, wie die Anwendung aussehen kann und welche Schritte zu gehen sind.

 

Folgt man dem vorgeschlagenen Ablauf, lässt sich die Clusteranalyse sicherlich schnell auf eigene Aufgabenstellungen übertragen.

Beschriftungen