Bei der Auswahl von Datensätzen geht es ja oft einfach darum, nur die ersten (oder letzten) Daten aus einer Tabelle zu selektieren, vielleicht soll auch eine (genau oder ungefähr) bestimmte Zahl von Datensätzen verarbeitet werden - sowas kann zum Beispiel bei der Entwicklung eines Workflows ja ganz nützlich (zeitsparend) sein. In solchen Fällen kommt es in der Regel darauf an, eine repräsentative Auswahl der vorhandenen Werte zu bekommen.
Manchmal aber ist der Situation etwas anders - wenn nämlich die "Grundgesamtheit" sehr unausgewogen ist, aber sichergestellt werden soll, dass alle Gruppen in der Auswahl vertreten sind. Bei einer "zufälligen" Auswahl aus einer Liste von Grundschullehrern (zum Beispiel für eine Befragung) könnte etwa der Anteil der ausgewählten Männer aufgrund des geringen Anteils (11,4%) zu gering, also nicht repräsentativ ausfallen.
Bei Planung und Test einer Marketing-Kampagne auf Grundlage der Reaktion auf frühere Kampagnen tritt dieses Problem oftmals noch viel deutlicher auf - wählen wir für einen Test aus dem E-Mail-Verteiler "zufällig" aus, so wird möglicherweise der Anteil derjenigen, die reagiert haben, zu gering für eine Bewertung der Ergebnisse sein - leider ist ja meistens der Anteil der "Nicht-Reagierer" sehr groß ...
Generell stellt sich also das Problem, wie man dafür sorgen kann, dass eine Gruppe in der Auswahl überrepräsentiert wird, unser Ergebnis also zum Beispiel zehn Prozent Datensätze von Kunden oder Interessenten enthält, die auf die letzte Mail reagiert haben, obwohl insgesamt die Antwortrate nur bei 1,4% lag.
Genau dafür gibt es das OVERSAMPLE FIELD Tool. Gehen wir einfach mal von einer ziemlich extremen (aber nicht ganz unrealistischen) Verteilung aus:
Wenn wir in einem solchen Fall das SAMPLE Tool einsetzen und unsere Auswahl etwa 1000 Datensätze enthalten soll, bekommen wir je nach Konfiguration das folgende Ergebnis:
Falls wir einen von 10.000 Datensätzen auswählen, sind es immerhin noch 4, die auf die letzte Kampagne reagiert haben, bei der "1:10.000-Chance" gar nur 1. Für eine datenbasierte Bewertung in jedem Fall zu wenig.
Hier hilft das OVERSAMPLE FIELD Tool. Wir geben an, welches Feld das Kriterium sein soll (hier "Response") und welcher Feldinhalt ("Y") einen bestimmten Anteil (10%) erhalten soll. Das war es schon - das Tool erstellt nun eine Art "Vorauswahl", die genau wie geünscht aufgeteilt ist.
Allerdings - wir wollten doch eigentlich nur 1000 Datensätze, das scheinen hier ja doch deutlich mehr zu sein. Tatsächlich ist das auch die Funktionsweise des Tool - es wählt alle Datensätze aus, die die gewünschte Ausprägung haben (also hier: alle "Y") und zusätzlich die entsprechende Anzahl aus den verbleibenden (also "Nicht-Y"). Es stellt also nur das "richtige" (= gewünschte") Verhältnis zwischen den Gruppen her - um zu einer bestimmten Zahl von Datensätzen zu kommen, brauchen wir dann zusätzlich noch das SAMPLE Tool.
Wird das OVERSAMPLE FIELD Tool benutzt, betrifft "Sample" also immer nur einen Teil der Datensätze - die Auswahl wird einfach komplett übernommen und entsprechend aufgefüllt.
Vorsicht - es gibt eine kleine Fehlerquelle: Wenn der Anteil der Datensätze, die "oversampled" werden sollen, größer ist, als der angegebene Anteil, werden einfach ohne Warnung alle Originaldatensätze durchgeleitet - es passiert also nichts.
Hier habe ich einfach mal "30% Y" angegeben, obwohl in den Daten über 85% enthalten sind - das Tool trägt seinen Namen "OVERSAMPLE FIELD" zu Recht.
Weitere Tipps Tuesday Beiträge
Dieser Eintrag ist Teil der Tipps Tuesday-Serie, alle Einträge dieser Serie findest du in unserem Index aufgelistet.
Sie müssen ein registrierter Benutzer sein, um hier einen Kommentar hinzuzufügen. Wenn Sie sich bereits registriert haben, melden Sie sich bitte an. Wenn Sie sich noch nicht registriert haben, führen Sie bitte eine Registrierung durch und melden Sie sich an.