ZU DEN KURSEN!

Stichprobentheorie - Klumpen und geschichtete Stichproben

Kursangebot | Stichprobentheorie | Klumpen und geschichtete Stichproben

Stichprobentheorie

Klumpen und geschichtete Stichproben

Inhaltsverzeichnis

Klumpen

Es kann vorkommen, dass das Beschaffen von Untersuchungseinheiten nur schwer möglich ist oder dass dies mit enormen Kosten verbunden ist. Folgende Beispiele werden für Aufklärung sorgen.

Beispiele

Beispiel

Beispiel 1

Um zu erfahren wie lange Schüler eines Gymnasiums in der zehnten Klasse Fernsehen schauen, wird eine Erhebung mit Fragebögen durchgeführt. Möchte man nun eine Stichprobe ziehen, so wird dies sehr schwierig sein, falls einzelne Schüler direkt ausgewählt werden. Es ist äußerst vorteilhaft die Untersuchung jeweils in ganzen Klassen durchzuführen. Das heißt hier wird nun eine Zufallszahl von Schulklassen gewählt. Die Elemente der Grundgesamtheit sind die Schüler in den entsprechenden Schulklassen. Die Schulklassen überlappen sich natürlich nicht. Die Schulklassen können dann als Klumpen oder Cluster bezeichnet werden. Das Prinzip der Klumpenstichprobe ist, dass Zufallsstichprobe aus den Klumpen zu ziehen und innerhalb dieser Klumpen eine Vollerhebung durchzuführen. Die Ziehung beruht somit nicht auf den Elementen der Population, sondern auf den Klumpen. Die bisher verwendeten Verfahren zur Zufallsauswahl haben als Fundament eine Populationsliste. Jedes Element der Liste entspricht genau einem Element der Grundgesamtheit. Hier liegt nun ein Modell vor, welches nicht immer oder nur schwierig angewendet werden kann. Baut nun die Ziehung auf Klumpen auf, so ist einzig eine Liste der Cluster in der Population erforderlich. Im obigen Beispiel ist es offensichtlich viel einfacher eine Liste der Schulklassen zu erhalten als eine Liste der einzelnen Schüler der zehnten Klasse.

Beispiel

Beispiel 2

Es sei eine Population von N = 9 Elementen {1, 2, 3, 4, 5, 6, 7, 8, 9} gegeben, welche in drei Klumpen unterteilt sind. Die einzelnen Klumpen werden mit $K_1,K_2$ und $K_3$ bezeichnet. In den einzelnen Klumpen werden folgende Werte angenommen:

Klumpennummer $Y_i^{G_i}$ $\hat{\overline Y}_{\mathit{CL}}^i$
$K_1$

1

3

5

(1+3+5)/3 = 3

$K_2$

1

3

5

(1+3+5)/3 = 3

$K_3$

1

3

5

(1+3+5)/3 = 3

Dann wird sofort ersichtlich, dass für alle Klumpen sich folgender Erwartungswert ergibt $E\left(\hat{\overline Y}_{\mathit{CL}}\right)=\frac{(3+3+3)} 3=3$ und $\mathit{VAR}(\hat{\overline Y}_{\mathit{CL}})=\frac 1 3(3-3)^2+(3-3)^2+(3-3)^2=0.$ Das oben erhaltene Ergebnis ist hervorragend.

An dieser Stelle sei noch einmal darauf aufmerksam gemacht, dass die Wahl der Verteilung der Elemente auf Klumpen sehr wichtig ist.

Beispiel

Beispiel 3

Im obigen Beispiel 2 wäre es auch möglich die Klumpen folgendermaßen zu wählen:

Klumpennummer $Y_i^{G_i}$ $\hat{\overline Y}_{\mathit{CL}}^i$
$K_1$

1

3

5

(1+3+5)/3 = 3

$K_2$

1

3

5

(1+3+5)/3 = 3

$K_3$

1

3

5

(1+3+5)/3 = 3

Für den Erwartungswert und die Varianz ergeben sich folgende Werte: $E\left(\hat{\overline Y}_{\mathit{CL}}\right)=\frac{(3+3+3)} 3=3$ und $\mathit{VAR}(\hat{\overline Y}_{\mathit{CL}})=\frac 1 3(3-3)^2+(3-3)^2+(3-3)^2=0.$

Die obige Klumpenstichprobe ist deutlich schlechter als die erste.

Es folgt eine Vorgehensweise, die zum einem sehr effizienten Ergebnis einer Klumpenstichprobe führt.

Klumpenprinzip

Merke

Die Klumpen sollten so gewählt werden, dass die Beobachtungen innerhalb eines Klumpens jeweils ein Abbild der Grundgesamtheit liefern. Die einzelnen Klumpen sollen sich untereinander soweit wie möglich ähneln.

Beispiel

Beispiel

Ein weiteres Beispiel zur Verdeutlichung: Eine Stadt A diene als „Teststadt“. Das heißt, dass dort neue Produkte auf den Markt kommen. Diese Produkte sollen anschließend landesweit auf den Markt kommen. Insgesamt gibt es ca. 15000 private Haushalte. Davon sind 5000 zum Test registriert. Seit 1993 wird dort ein Testmarkt betrieben. Immer wenn die registrierten Teilnehmer ein Produkt käuflich erwerben, legen sie eine Chipkarte vor. Anhand dieser Chipkarte kann ausgesagt werden, welche Produkte gekauft wurden. Des Weiteren wird in dieser Stadt auch lokal geworben. Somit werden zum Beispiel Werbespots nur in dieser Stadt A gezeigt. Durch die obigen Vorgehensweisen kann festgestellt werden, ob für ein Produkt genug Nachfrage besteht, bevor es landesweit auf den Markt kommt. Die Auswahl der 5000 registrierten privaten Haushalte wurde dabei so vorgenommen, dass diese Stichprobe der Population des Landes entspricht bezüglich des Alters und sonstiger Merkmale. Es wird sofort ersichtlich, dass diese Stadt A als Klumpen-Stichprobe vom Umfang m = 1 angesehen werden kann.

Ein Vergleich der des Klumpenprinzips und des Schichtungsprinzips macht deutlich, dass das eine das Gegenteil des anderen ist.

Für die Bestimung der Schätzer einer einfachen Klumpenstichprobe sind folgende Notationen wichtig.

Klumpenstichprobe

Die Grundgesamtheit wird in M sich nicht überlappende Gruppen zerlegt.

Jede dieser Gruppen wird Klumpen genannt. Jede dieser Gruppen enthalte $N_h$ Elemente.

Aus diesen M Klumpen werden nun m Klumpen in Form einer einfachen Zufallsstichprobe entnommen. Anschließend wird in diesen eine Vollerhebung durchgeführt.

Dann ist in der Grundgesamtheit:

Größe

Bedeutung

M

Anzahl der Klumpen in der Grundgesamtheit

$N_h,h=1,...,M$

Anzahl der Elemente im h-ten Klumpen

$N=\sum _{h=1}^MN_h$

Gesamt-Populationsumfang

$\overline N=\frac N M$

Variable oder Merkmal des k-ten Individuums in der h-ten Schicht

$Y_{h,i}i=1,...,N_h$

Unbekannte oder Merkmal in des i-ten Merkmalsträgers im h-ten Kumpen

$\pi _{hk}=\frac{n_h}{N_h}$

Auswahlwahrscheinlichkeit für das k-te

gezogene Individuum in der h-ten Schicht

$\overline Y_h=\frac 1{N_h}\sum _{i=1}^{N_h}Y_{h,i}$

Mittelwert der unbekannten im h-ten Klumpen

$Y_{T,h}=\sum _{i=1}^{N_h}Y_{h,i}=N_h\overline Y_h$

Summe der Variablen im h-ten Klumpen

$\overline Y_{T,h}=\frac 1 M\sum _{h=1}^MY_{T,h}$

Mittelwert der Klumpensummen

In der Stichlprobe gilt:

Größe

Bedeutung

m

Anzahl der Klumpen in der Stichprobe

$N_l,l=1,...,m$

Anzahl der Elemente im l-ten gezogenen Klumpen

$n=\sum _{l=1}^mN_l$

Gesamt-Stichprobenumfang

$\overline n=\frac m m$

Durchschnittliche Klumpengröße in der Stichprobe

$y_{l,i}i=1,...,N_l$

Unbekannte oder Merkmal des i-ten Merkmalsträgers im l-ten gezogenen Klumpen

$\overline y_l=\frac 1{N_l}\sum _{i=1}^{N_l}y_{\mathit{li}}$

Mittelwert der Variablen im l-ten gezogenen Klumpen

$y_{T,l}=\sum _{i=1}^{N_l}y_{\mathit{li}}=N_l\overline y_l$

Totale Summe der Variablen im l-ten gezogenen Klumpen

$\overline y_{Tl}=\frac 1 m\sum _{l=1}^my_{T,l}$

Mittelwert der Klumpensummen

Klumpen-Schätzer

Klumpen-Schätzer

Klumpenstichprobe: Es liege eine einfache Zufallsstichprobe von Klumpensummen vor $y_{T,l}l=1,...,m$ aus M Klumpen einer Grudgesamtheit mit N Elementen.

Dann ist ein erwartungstreuer Schätzer für den Mittelwert $\overline Y$ der Grundgesamtheit gegeben durch den einfache Klumpen-Schätzer:

$\hat{\overline Y}_{\mathit{CL}}=\frac M N\overline y_{T,l}=\frac M N\frac{\sum _{l=1}^my_{T,l}} m.$

Ein Schätzer für die Varianz ist gegeben durch:

$\hat{\mathit{VAR}(\hat{\overline Y}_{\mathit{CL}})}=\frac{M^2}{N^2}\frac{M-m} M\frac 1{m(m-1)}\sum _{l=1}^m(y_{T,l}-\overline y_{T,l})^2$.