ZU DEN KURSEN!

Stichprobentheorie - Klumpen und geschichtete Stichproben

Kursangebot | Stichprobentheorie | Klumpen und geschichtete Stichproben

Stichprobentheorie

Klumpen und geschichtete Stichproben

Inhaltsverzeichnis

Klumpen

Manchmal ist es gut möglich, dass es bei der Beschaffung von Untersuchungseinheiten zu sehr hohen Kosten kommt. Die nachfolgenden Beispiele sollen das verdeutlichen:

 

Beispiel

Hier klicken zum Ausklappen

1. Beispiel

Mit Hilfe von Fragebögen soll einhergehen, wie viel Zeit jugendliche AbiturientInnen einer 12. Klasse auf Social Media verbringen. Im Falle dessen, dass eine Stichprobe gezogen werden soll, könnte das insofern problematisch sein, wenn es zu einer direkten Auswahl einzelner SchülerInnen kommt. Demnach birgt es Vorteile, wenn es zu einer Erhebung in der ganzen Klasse kommt. Dabei liegt eine zufällige Anzahl von Schulklassen vor. Die Elemente der Grundgesamtheit ergeben sich aus den SchülerInnen der Abiturklassen. Es besteht keine Überlappung der Klassen. Zu bezeichnen sind diese als Klumpen oder Cluster.

Bei der Klumpenstichprobe handelt es sich um eine Zufallsstichprobe aus Klumpen, in der die Ziehung erfolgt und eine Vollerhebung durchgeführt wird. Die Ziehung beruht auf den Klumpen und nicht auf den Elementen der Population.  Als Grundlage für die verwendeten Verfahren zur Zufallsauswahl dient hier die Populationsliste. Dabei wird für jedes Elemente der Grundgesamtheit ein Element aus der Liste genau zugerechnet.

Das gegebene Modell kann nicht oder nur sehr schwer angewendet werden.
Im Falle dessen, dass die Ziehung auf Klumpen beruht, ist lediglich eine Liste der Cluster in der Population von Nöten.

Das Beispiel zeigt, dass es leichter ist, an eine Liste der einzelnen Abiturklassen zu kommen, als eine Liste der einzelnen SchülerInnen der 12. Klasse.

Beispiel

Hier klicken zum Ausklappen

2. Beispiel

Ausgegangen wird hier von einer in drei Klumpen unterteilte Population von N = 9 Elementen {1, 2, 3, 4, 5, 6, 7, 8, 9}. Gekennzeichnet werden die jeweiligen Klumpen mit $K_1,K_2$ und $K_3$

Dabei ist für die einzelnen Klumpen von den folgenden Werten auszugehen:

Klumpennummer$Y_i^{G_i}$$\hat{\overline Y}_{\mathit{CL}}^i$
$K_1$

1

3

5

(1+3+5)/3 = 3

$K_2$

1

3

5

(1+3+5)/3 = 3

$K_3$

1

3

5

(1+3+5)/3 = 3

Es fällt direkt auf, dass sich die folgenden Erwartungswerte für die Klumpen ergeben $E\left(\hat{\overline Y}_{\mathit{CL}}\right)=\frac{(3+3+3)} 3=3$ und $\mathit{VAR}(\hat{\overline Y}_{\mathit{CL}})=\frac 1 3(3-3)^2+(3-3)^2+(3-3)^2=0.$

Das daraus hervorgegangene Ergebnis ist sehr gut.

Wichtig zu beachten, ist die Wahl der Verteilung der Elemente auf die Klumpen.

Beispiel

Hier klicken zum Ausklappen

3. Beispiel

Beim 2. Beispiel wäre es ebenso möglich, die Klumpen auch so auszuwählen:

Klumpennummer$Y_i^{G_i}$$\hat{\overline Y}_{\mathit{CL}}^i$
$K_1$

1

3

5

(1+3+5)/3 = 3

$K_2$

1

3

5

(1+3+5)/3 = 3

$K_3$

1

3

5

(1+3+5)/3 = 3

Es ergeben sich für die Varianz und die Erwartungswerte: $E\left(\hat{\overline Y}_{\mathit{CL}}\right)=\frac{(3+3+3)} 3=3$ und $\mathit{VAR}(\hat{\overline Y}_{\mathit{CL}})=\frac 1 3(3-3)^2+(3-3)^2+(3-3)^2=0.$

Im Vergleich zur ersten Klumpenstichprobe ist die obere deutlich schlechter.

Zu einem effizienteren Ergebnis einer Klumpenstichprobe gelangen wir durch das folgende Vorgehen:

Klumpenprinzip

Merke

Hier klicken zum Ausklappen

Die Wahl der Klumpen sollte so erfolgen, dass innerhalb der Beobachtungen eines Klumpens auch ein Abbild der Grundgesamtheit ersichtlich wird. Demnach sollen sich die einzelnen Klumpen weitestgehend ähneln.

Beispiel

Hier klicken zum Ausklappen

Eine kleinen Stadt im Saarland soll als „Test-Stadt“ fungieren, indem einige neue Produkte eingeführt und getestet werden sollen. Je nachdem wie die Testung insgesamt ausfällt, sollen die Produkte flächendeckend in Deutschland auf den Markt gebracht werden. Von den insgesamt 15000 privaten Haushalten haben sich 5000 freiwillig gemeldet, an der Testung teilzunehmen. Der Testmarkt wird seit 2017 durchgeführt.
Zur Erfassung und als Nachweis dient eine Chipkarte, die jedes mal vorgelegt wird, sobald die Teilnehmenden eines der neuen Produkte kaufen. Darüber hinaus werden in der Stadt Werbemaßnahmen zu den neuen Produkten betrieben.

Die oben skizzierte Vorgehensweise ermöglicht es, die Nachfrage für ein Produkt zu erfassen, bevor es flächendeckend eingeführt wird.

Die Auswahl der 5000 freiwillig registrierten Haushalte erfolgte gemäß dessen, dass die Stichprobe der Population des ganzen Landes in Bezug auf das Alter sowie anderweitiger Merkmale entspricht.

Deutlich wird dabei, dass die Stadt als eine Klumpen-Stichprobe vom Umfang m = 1 betrachtet werden kann.

Bei der Gegenüberstellung des Klumpenprinzips und des Schichtungsprinzips wird ersichtlich, dass diese konträr zueinander sind.

Folgende Aufzeichnungen sind für die Bestimmung der Schätzer einer einfachen Klumpenstichprobe essenziell:

Klumpenstichprobe

Zunächst erfolgt die Zerlegung der Grundgesamtheit M, bei denen sich die Gruppen nicht überschneiden.

Jede Gruppe wird als Klumpen bezeichnet. Dabei umfasst jede Gruppe $N_h$ Elemente.

Darauf folgend werden aus einer einfachen Zufallsstichprobe aus den M Klumpen m Klumpen herausgezogen. In diesen wird schlussendlich eine Vollerhebung durchgeführt.

Folgendes liegt für die Grundgesamtheit vor:

Größe

Bedeutung

M

Anzahl der Klumpen in der Grundgesamtheit

$N_h,h=1,...,M$

Anzahl der Elemente im h-ten Klumpen

$N=\sum _{h=1}^MN_h$

Entspricht dem Gesamt-Populationsumfang

$\overline N=\frac N M$

Variable oder Merkmal des k-ten Individuums in der h-ten Schicht

$Y_{h,i}i=1,...,N_h$

Unbekannte oder Merkmale des i-ten Merkmalsträgers im h-ten Kumpen

$\pi _{hk}=\frac{n_h}{N_h}$

Auswahlwahrscheinlichkeit für das k-te

gezogene Individuum in der h-ten Schicht

$\overline Y_h=\frac 1{N_h}\sum _{i=1}^{N_h}Y_{h,i}$

Mittelwert der unbekannten im h-ten Klumpen

$Y_{T,h}=\sum _{i=1}^{N_h}Y_{h,i}=N_h\overline Y_h$

Summe der Variablen im h-ten Klumpen

$\overline Y_{T,h}=\frac 1 M\sum _{h=1}^MY_{T,h}$

Mittelwert der Klumpensummen

Für die Stichprobe zählt dann:

Größe

Bedeutung

m

Anzahl der Klumpen in der Stichprobe

$N_l,l=1,...,m$

Anzahl der Elemente im l-ten gezogenen Klumpen

$n=\sum _{l=1}^mN_l$

Entspricht dem Gesamt-Stichprobenumfang

$\overline n=\frac m m$

Durchschnittliche Klumpengröße in der Stichprobe

$y_{l,i}i=1,...,N_l$

Unbekannte oder Merkmal des i-ten Merkmalsträgers im l-ten gezogenen Klumpen

$\overline y_l=\frac 1{N_l}\sum _{i=1}^{N_l}y_{\mathit{li}}$

Mittelwert der Variablen im l-ten gezogenen Klumpen

$y_{T,l}=\sum _{i=1}^{N_l}y_{\mathit{li}}=N_l\overline y_l$

Totale Summe der Variablen im l-ten gezogenen Klumpen

$\overline y_{Tl}=\frac 1 m\sum _{l=1}^my_{T,l}$

Mittelwert der Klumpensummen

Klumpen-Schätzer

Klumpen-Schätzer

Klumpenstichprobe: Gegeben ist eine einfache Zufallsstichprobe, bei der eine Klumpensumme von $y_{T,l}l=1,…,m$ vorliegt. Diese Grundgesamtheit enthält M Klumpen mit N Elementen.

Durch den einfachen Klumpen-Schätzer $\hat{\overline Y}_{\mathit{CL}}=\frac M N\overline y_{T,l}=\frac M N\frac{\sum _{l=1}^my_{T,l}} m$ ist ein erwartungstreuer Schätzer für den Mittelwert $\overline Y$ der Grundgesamtheit gegeben.

Es liegt ein Schätzer für die Varianz vor durch: $\hat{\mathit{VAR}(\hat{\overline Y}_{\mathit{CL}})}=\frac{M^2}{N^2}\frac{M-m} M\frac 1{m(m-1)}\sum _{l=1}^m(y_{T,l}-\overline y_{T,l})^2$.