Community Spring Cleaning week is here! Join your fellow Maveryx in digging through your old posts and marking comments on them as solved. Learn more here!
Free Trial

Blog - Deutsch

Erkenntnisse und Ideen von den besten Analytics-Experten.
RolandSchubert
16 - Nebula
16 - Nebula

Bei der Auswahl von Datensätzen geht es ja oft einfach darum, nur die ersten (oder letzten) Daten aus einer Tabelle zu selektieren, vielleicht soll auch eine (genau oder ungefähr) bestimmte Zahl von Datensätzen verarbeitet werden - sowas kann zum Beispiel bei der Entwicklung eines Workflows ja ganz nützlich (zeitsparend) sein. In solchen Fällen kommt es in der Regel darauf an, eine repräsentative Auswahl der vorhandenen Werte zu bekommen.

 

Manchmal aber ist der Situation etwas anders - wenn nämlich die "Grundgesamtheit" sehr unausgewogen ist, aber sichergestellt werden soll, dass alle Gruppen in der Auswahl vertreten sind. Bei einer "zufälligen" Auswahl aus einer Liste von Grundschullehrern (zum Beispiel für eine Befragung) könnte etwa der Anteil der ausgewählten Männer aufgrund des geringen Anteils (11,4%) zu gering, also nicht repräsentativ ausfallen.

 

Bei Planung und Test einer Marketing-Kampagne auf Grundlage der Reaktion auf frühere Kampagnen tritt dieses Problem oftmals noch viel deutlicher auf - wählen wir für einen Test aus dem E-Mail-Verteiler "zufällig" aus, so wird möglicherweise der Anteil derjenigen, die reagiert haben, zu gering für eine Bewertung der Ergebnisse sein - leider ist ja meistens der Anteil der "Nicht-Reagierer" sehr groß ...

 

Generell stellt sich also das Problem, wie man dafür sorgen kann, dass eine Gruppe in der Auswahl überrepräsentiert wird, unser Ergebnis also zum Beispiel zehn Prozent Datensätze von Kunden oder Interessenten enthält, die auf die letzte Mail reagiert haben, obwohl insgesamt die Antwortrate nur bei 1,4% lag.

 

Genau dafür gibt es das OVERSAMPLE FIELD Tool. Gehen wir einfach mal von einer ziemlich extremen (aber nicht ganz unrealistischen) Verteilung aus:

 

RolandSchubert_0-1665558842136.png

 

Wenn wir in einem solchen Fall das SAMPLE Tool einsetzen und unsere Auswahl etwa 1000 Datensätze enthalten soll, bekommen wir je nach Konfiguration das folgende Ergebnis:

 

RolandSchubert_1-1665559468950.png

 

Falls wir einen von 10.000 Datensätzen auswählen, sind es immerhin noch 4, die auf die letzte Kampagne reagiert haben, bei der "1:10.000-Chance" gar nur 1. Für eine datenbasierte Bewertung in jedem Fall zu wenig.

 

Hier hilft das OVERSAMPLE FIELD Tool. Wir geben an, welches Feld das Kriterium sein soll (hier "Response") und welcher Feldinhalt ("Y") einen bestimmten Anteil (10%) erhalten soll. Das war es schon - das Tool erstellt nun eine Art "Vorauswahl", die genau wie geünscht aufgeteilt ist.

 

RolandSchubert_2-1665559940231.png

Allerdings - wir wollten doch eigentlich nur 1000 Datensätze, das scheinen hier ja doch deutlich mehr zu sein. Tatsächlich ist das auch die Funktionsweise des Tool - es wählt alle Datensätze aus, die die gewünschte Ausprägung haben (also hier: alle "Y") und zusätzlich die entsprechende Anzahl aus den verbleibenden (also "Nicht-Y").  Es stellt also nur das "richtige" (= gewünschte") Verhältnis zwischen den Gruppen her - um zu einer bestimmten Zahl von Datensätzen zu kommen, brauchen wir dann zusätzlich noch das SAMPLE Tool.

 

RolandSchubert_4-1665561099213.png

Wird das OVERSAMPLE FIELD Tool benutzt, betrifft "Sample" also immer nur einen Teil der Datensätze - die Auswahl wird einfach komplett übernommen und entsprechend aufgefüllt.

 

 

Vorsicht - es gibt eine kleine Fehlerquelle: Wenn der Anteil der Datensätze, die "oversampled" werden sollen, größer ist, als der angegebene Anteil, werden einfach ohne Warnung alle Originaldatensätze durchgeleitet - es passiert also nichts. 

 

RolandSchubert_0-1665561800118.png

 

 

Hier habe ich einfach mal "30% Y" angegeben, obwohl in den Daten über 85% enthalten sind - das Tool trägt seinen Namen "OVERSAMPLE FIELD" zu Recht.

 

 

 

 

Weitere Tipps Tuesday Beiträge

Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.

Beschriftungen