Jetzt neu: Steuerrecht online lernen auf steuerkurse.de!
ZU DEN KURSEN!

Stichprobentheorie - Wahl des Stichprobenumfangs

Kursangebot | Stichprobentheorie | Wahl des Stichprobenumfangs

Stichprobentheorie

Wahl des Stichprobenumfangs

Wenn es darum geht eine Stichprobe aus einer geschichteten Grundgesamtheit zu ziehen, so ist die Bestimmung des Stichprobenumfangs der jeweiligen Schichten von sehr großer Bedeutung.

Zu bestimmen ist dieser unmittelbar nachdem die Population in die einzelnen Schichten zerlegt wurde.

Proportionale Zerlegung

Im weiteren Verlauf sollen exemplarische Möglichkeiten zur Zerlegung der Stichprobenziehung dargestellt werden:

Merke

Hier klicken zum Ausklappen

Die Gaußklammer [] dient der Verwendung dessen, Zahlen zu runden. Aus dem Inhalt kann direkt erschlossen werden, ob es sich um eine übliche oder Gaußklammer handelt, denn die Gaußklammer zeigt im Skript an, ob eine entsprechende Zahl abgerundet wurde.

Die Größe des Stichprobenumfangs in den einzelnen Schichten umfasst: $n_{h,\mathit{opt}}={\left[n\frac{N_h} N\right]+1}.$

Ausgehend von der Größe $\left[n\frac{N_h} N\right]$ ist diese die darauffolgende kleinere ganze Zahl. Wie das Beispiel hier zeigt ist [3,3] = 3 und [4,8888] = 4.

Trotz der häufigen Verwendung dieser Form, erweist sich diese nicht immer als ideal.

Ideale Aufteilung

Deutlich wird, dass die Varianz des geschichteten Schätzers nicht unabhängig ist, sondern eine Abhängigkeit aufweist zu $N_h$ und $S_h$ (Streuung innerhalb einer Schicht).
Daraus könnte das Fazit gezogen werden, dass bei zufälligen Stichproben die Schicht mit minimaler Streuung kleiner ausfallen sollte, als in einer Schicht mit maximaler Streuung.

Für das weitere Vorgehen kann in diesem Fall der Korrekturfaktor $\frac{N_h-n_h}{N_h}$ der Varianzformel außen vor gelassen werden, so dass $\hat{\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)}=\sum _{h=1}^M\left(\frac{N_h} N\right)^2\frac{S_h^2}{n_h}.$

Zu erkennen gibt sich hier, dass die Varianz umso größer ist, je größer der Ausdruck $N_hS_h.$

Eine ideale Aufteilung ergibt sich durch die Wahl von $n_h$ proportional zu $H_hS_h.$

${n_{h,\mathit{opt}}=\left[n\frac{N_hS_h}{\sum _{h=1}^{M}N_hS_h}\right]+1}.$

Hier steht die Klammer [] auch wieder für die nächst kleinere Zahl.

 

Beispiel

Hier klicken zum Ausklappen

Das erste Beispiel zur Verhältnisschätzung wird hier nochmal hinzugezogen: $Y_1=9,\text{ }Y_2=10,\text{ }Y_3=11,\text{ }Y_4=18,\text{ }Y_5=22,$

Schicht 1

$Y_1=9$$Y_2=10$$Y_3=11$

Schicht 2

$Y_4=18$$Y_5=22$ 

Da nur zwei Schichten vorliegen, kann h nur die Werte von eins oder zwei annehmen. Gewählt wird hier die ideale Aufteilung. Aus der Berechnung von $n_{1,\mathit{opt}}$ ergeben sich die Werte $n_1$ und $n_2.$ Benötigt wird die Größe $S_1$ und für $\sum _{h=1}^{M}N_hS_h$ h=1,2
Somit ist es:

$\begin{gathered}S_1^2=\frac{\sum _{i=1}^{(N_1\text =)3}\left(Y_{1i}-\overline Y_1\right)^2} 3=\frac{(Y_{11}-\overline Y_1)^2} 3+\frac{(Y_{12}-\overline Y_1)^2} 3+\frac{(Y_{13}-\overline Y_1)^2} 3\\\text{     }\text =\frac{(9-10)^2} 3+\frac{(10-10)^2} 3+\frac{(11-10)^2} 3=\frac 1 3+\frac 0 3+\frac 1 3=\frac 2 3 \end{gathered}$

oder auch

$\begin{gathered}S_2^2=\frac{\sum _{i=1}^{(N_2\text =)2}\left(Y_{2i}-\overline Y_2\right)^2} 2=\frac{(Y_{21}-\overline Y_1)^2} 2+\frac{(Y_{22}-\overline Y_1)^2} 2\\\text{ }\text =\frac{(18-20)^2} 2+\frac{(22-20)^2} 2=\frac 4 2+\frac 4 2=4\end{gathered}$

und

$\sum _{h=1}^{M=2}N_hS_h=N_1S_1+N_2S_2=3\ast \sqrt{\frac 2 3}+2\ast \sqrt 4=\sqrt 3\ast \sqrt 2+4.$

Mit Hilfe des Stichprobenumfangs = 3 ist es nun möglich $n_{1,\mathit{opt}}\text{  }\text{und}\text{  }n_{2,\mathit{opt}}$ zu berechnen, zu: $n_{1,\mathit{opt}}=\left[n\frac{N_1S_1}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{3\sqrt{2/3}}{\sqrt 6+4}\right]+1=1.$ und $n_{2,\mathit{opt}}=\left[n\frac{N_2S_2}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{2\ast 2}{\sqrt 6+4}\right]+1=2.$

Deutlich wird an der Stelle, dass es in der 2. Schicht zu einer Vollerhebung kommen sollte, wohingegen in der 1. Schicht die Ziehung von einem Element ausreicht.
Im Anschluss daran, kann der geschichtete Schätzer ermittelt werden. In der folgenden Tabelle finden sich alle nötigen Mittelwerte dazu:

Stichprobe 1: $\hat{\overline Y}_{{\mathit{GS}}_1}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 59+\frac 2 520=13,4$

Stichprobe 2: $\hat{\overline Y}_{{\mathit{GS}}_2}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 510+\frac 2 520=14$

Stichprobe 3: $\hat{\overline Y}_{{\mathit{GS}}_3}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 511+\frac 2 520=14,6.$

Zu entnehmen sind der geschichteten Stichprobe damit die folgenden Werte:

$Y_i$

$Y_i$ $Y_j$

$\overline y_1$

$\overline y_2$

$\hat{\overline Y}_{{\mathit{GS}}_i}$

9

18  22

9

$\frac 1 2(18+22)=20$

13,4

10

18  22

10

20

14

11

18  22

11

20

14,6

$E\left(\hat{\overline Y}_{\mathit{GS}}\right)=\frac 1 3\sum _{i=1}^{3}\hat{\overline Y}_{{\mathit{GS}}_i}$   

14

Nun kann auch die Varianz ermittelt werden zu:
$\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)=\frac 1 3\sum _{i=1}^3\left(\hat{\overline Y}_{{\mathit{GS}}_i}-14\right)^2=\frac 1 3\left((13,4-14)^2\right)+\left((14-14)^2\right)+\left((14,6-14)^2\right)=0,24.$

Mit Hilfe des geschichteten Schätzers konnte eine Varianzreduktion erzielt werden, was gleichzeitig der Beweis dafür ist, dass die Wahl des Ansatzes eine ideale Wahl gewesen ist.

Schwierigkeiten

Eine Herausforderung besteht in diesem Vorgehen darin, dass die Kenntnis von $S_h^2$ vorausgesetzt ist, die allerdings häufig vor der Stichprobenziehung nicht vorhanden ist.
Eine Möglichkeit wäre allerdings, eine kleine Stichprobe zu ziehen, damit die Größe $S_h^2$ geschätzt werden kann. Allerdings kann dieses Vorgehen mit zusätzlichen Kosten einhergehen, die nicht immer gern getragen werden möchten.
Es kommt vor allem dann zur Durchführung der Vorgehensweise, wenn die Größe $S_h^2$ aus bereits durchgeführten Studien gegeben ist und verwendet werden kann.

Im Falle dessen, dass die Varianzen in den jeweiligen Schichten gleich sind, entspricht die ideale Aufteilung der proportionalen Aufteilung und somit: $S_h^2=S^2.$

Dafür wird das folgende Vorgehen empfohlen:

Empfohlene Herangehensweise

1. Empfehlung

Methode

Hier klicken zum Ausklappen

Wenn eine fundierte Annahme darüber besteht, dass die Varianzen der einzelnen Schichten gleich sind, ist es empfehlenswert, die proportionale Aufteilung statt der idealen Aufteilung einzusetzen.

2. Empfehlung

Methode

Hier klicken zum Ausklappen

Im Falle dessen, dass wesentliche Unterschiede in der Varianz des zu untersuchenden Merkmals in den einzelnen Schichten vorliegen oder dass die Schichten sehr heterogen sind, ist es empfehlenswert, die ideale Aufteilung anzuwenden.

 

Beispiel

Hier klicken zum Ausklappen

Ein Großunternehmen, bestehend aus vielen Filialen, möchte die Kundenzufriedenheit in Erfahrung bringen. Darüber hinaus soll eine Umfrage zugunsten der zufriedenstellenden oder unzureichender Erfüllung der Kundenbedürfnisse durchgeführt werden. Da jedoch das Unternehmen in vielen verschiedenen Regionen vertreten ist, können diese bereits als automatische Verteilung in Schichten gesehen werden. Zu bedenken ist allerdings auch, dass die verschieden lokalisierten Filialen verschiedene Kundenstrukturen aufweist.

Als Beispiel wäre hierfür zu nennen, dass eine überwiegend homogene (einfache) Kundenstruktur in dörflichen Regionen besteht, da es sich bei den meisten Kunden um Bauern und deren Angehörige handelt. Eine zunehmend heterogen (gemischte) Kundenstruktur findet sich jedoch in Großstädten wie Berlin oder Hamburg , auf Grund der Zusammensetzung aus Touristen, Geschäftsleuten und „trendbezogenen“ Menschen.

Die naheliegende Vermutung besteht in dem, dass die Bedürfnisse der Kunden umso homogener sind, je homogener die Kunden selbst sind. Das bedeutet auch gleichzeitig, dass hierbei eine geringere Varianz bei den Umfrageergebnissen zu erwarten ist. Demnach ist es sinnvoll eine kleinere Stichprobe in der dörflichen Region zu ziehen.

Nun wird auf eine dritte Möglichkeit der Stichprobenziehung verwiesen:

Zu beachten sei bei der Wahl nicht nur die Unterschiede in der Homo- oder Heterogenität, sondern ebenso die dafür anfallenden Kosten. Demnach sei darauf hinzuweisen, dass die Durchführung einer geschichteten Stichprobe in den einzelnen Schichten unterschiedlich viel kosten kann, was uns zur Kosten-idealen Aufteilung bringt.

Kostenideale Aufteilung

Bei der Beschaffung von Informationen aus der h-ten Schicht liegen die Kosten bei ca. $k_h,h=1,..,M.$

Für die Gesamtkosten der geschichteten Stichprobe fällt des Weiteren an: $K=k_0+k_1n_1+...+k_Mn_M.$

Die Fixkosten entsprechen hier $k_0.$ Schlussendlich bekommen wir für die kostenoptimale Aufteilung $n_{h,\mathit{kostenopt}}=\left[n\frac{\frac{N_hS_h}{\sqrt{k_h}}}{\sum _{h=1}^MN_hS_h/\sqrt{k_h}}\right]+1.$

Die Kosten betragen in der h-ten Schicht $n_{h,\mathit{kostenopt}}k_h.$

 

Beispiel

Hier klicken zum Ausklappen

Zur Beurteilung möglicher Risiken und Erfolgsfaktoren soll anlässlich der Einführung einer neuen Plattform eine Umfrage durchgeführt werden. Zunächst einmal kommt es zur Ziehung einer Stichprobe der neuen Plattform, welche im Jahr X gegründet wurde.  Die Ziehung der Stichrobe erfolgte in dem Jahr X+c [Jahr]. Bei der Umfrage sollen die Gründer der Plattform Erfolge und Misserfolge der letzten Jahre reflektieren. Anzunehmen ist hierbei, dass die Mitgründer, die bereits schon einmal Konkurs anmelden mussten, wenig motiviert sind sich dazu zu äußern, im Gegensatz zu denjenigen, die bereits schon einmal erfolgreich gewesen waren. Es erscheint demnach sinnvoll, eine Unterteilung in zwei Schichten auf dieser Grundlage vorzunehmen, indem die erfolgreichen und erfolglosen Mitgründer aufgeteilt werden. Ziel ist es dabei, den bereits wie zu vermutenden zurückhaltenden Äußerungen der erfolglosen Mitgründern entgegenzugehen.

Aufgabe zur Bestimmung des Stichprobenumfangs

Folgende Grundgesamtheit liegt vor:
$Y_1=23,\text{   }Y_2=12,\text{   }Y_3=10,\text{   }Y_4=20,\text{   }Y_5=11.$

a) Zu bestimmen ist die Unterteilung der Grundgesamtheit in Schichten.

b) Zu wählen ist dann ein geeigneter Stichprobenumfang, unter der Berücksichtigung dessen, dass erhebliche Unterschiede in den jeweiligen Schichten in Bezug auf die Varianz des zu untersuchenden Merkmals vorhanden sind.

c) Nun ist der geschichtete Schätzer zu berechnen.

d) Zu guter Letzt ist die Varianz zu bestimmen.
Kommentieren Die das daraus einhergegangene Ergebnis.

e) Wie bewerten Sie die Vorgehensweise?

Vertiefung

Hier klicken zum Ausklappen
Lösung:

Zu a): Die Werte machen deutlich, dass nur die aufgeführte Unterteilung sinnvoll ist:

Schicht 1

$Y_2=12$$Y_3=10$$Y_5=11$

Schicht 2

$Y_1=23$$Y_4=20$ 

Zu b): Die Wahl zur idealen-Unterteilung kann hier aufgrund dessen sofort erfolgen, da zwingend vorauszusetzen ist, dass erhebliche Unterschiede in den einzelnen Schichten in Bezug auf die Varianz des zu untersuchenden Merkmals vorliegen.

Aufgrund dessen, dass nur zwei Schichten bestehen, können nur die Werte eins oder zwei von h angenommen werden.

Aus der Berechnung von ${n_1,\mathit{opt}:}$ Für $S_1$ und $\sum _{h=1}^MN_hS_h$(h=1,2) bekommen wir:

Entsprechend der Schichten müssen die Indizes abgeändert werden.

Als erstes ist:

$\begin{gathered}S_1^2=\frac{\sum _{i=1}^{(N_1\text =)3}\left(Y_{1i}-\overline Y_1\right)^2} 3=\frac{(Y_{11}-\overline Y_1)^2} 3+\frac{(Y_{12}-\overline Y_1)^2} 3+\frac{(Y_{13}-\overline Y_1)^2} 3\\\text{ }\text =\frac{(12-10)^2} 3+\frac{(10-10)^2} 3+\frac{(11-10)^2} 3=\frac 4 3+\frac 0 3+\frac 1 3=\frac 5 3,\end{gathered}$

entsprechend auch:

$\begin{gathered}S_2^2=\frac{\sum _{i=1}^{(N_2\text =)2}\left(Y_{2i}-\overline Y_2\right)^2} 2=\frac{(Y_{21}-\overline Y_1)^2} 2+\frac{(Y_{22}-\overline Y_1)^2} 2\\\text{ }\text =\frac{(23-20)^2} 2+\frac{(20-20)^2} 2=\frac 9 2 \end{gathered}$

und

$\sum _{h=1}^{M=2}N_hS_h=N_1S_1+N_2S_2=3\ast \sqrt{\frac 5 3}+2\ast \sqrt{\frac 9 2}=\sqrt{15}+\sqrt{18}.$

Aufgrund des Stichprobenumfangs von n = 3 ist $n_{1,\mathit{opt}}\text{  }\text{und}\text{  }n_{2,\mathit{opt}}$ resultieren diese Werte: 
$n_{1,\mathit{opt}}=\left[n\frac{N_1S_1}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{3\sqrt{5/3}}{\sqrt{15}+\sqrt{18}}\right]+1=2.$

und $n_{2,\mathit{opt}}=\left[n\frac{N_2S_2}{\sum _{h=1}^2N_2S_2}\right]+1=\left[3\frac{2\ast \sqrt{9/2}}{\sqrt{15}+\sqrt{18}}\right]+1=2.$

In der zweiten Schicht ist die Durchführung einer Vollerhebung sinnvoll.

In der ersten Schicht reicht es, wenn zwei Elemente gezogen werden.

Zu c):

Es folgt für den geschichteten Schätzer:

Stichprobe 1: $\hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 510,5+\frac 2 521,5=14,9$

Stichprobe 2: $\hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 511+\frac 2 521,5=15,2$

Stichprobe 3: $\hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 511,5+\frac 2 521,5=15,5.$

Aus der geschichteten Stichprobe resultieren folgende Werte:

$Y_i$$Y_i$$\overline y_1$$\overline y_2$$\hat{\overline Y}_{{\mathit{GS}}_i}$

10 11

20 23

(10+11)/2=10,5

(20+23)/2=21,5

14,9

10 12

20 23

11

21,5

15,2

11 12

20 23

11,5

21,5

15,5

$E\left(\hat{\overline Y}_{\mathit{GS}}\right)\text =$   

15,2

Der geschichtete Schätzer entspricht dem Erwartungswert von: $E\left(\hat{\overline Y}_{\mathit{GS}}\right)=15,2.$

Zu d):

Zu berechnen ist die Varianz durch:
$\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)$
=$\frac 1 3\sum _{i=1}^3\left(\hat{\overline Y}_{{\mathit{GS}}_i}-15,2\right)^2$
=$\frac 1 3\left((14,9-15,2)^2\right)+\left((15,2-15,2)^2\right)+\left((15,5-15,2)^2\right)$
=$0,06.$

Mit Hilfe des geschichteten Schätzers konnte auch hier eine Varianzreduktion erzielt werden.

Zu e):

Bewiesen werden konnte bei diesem Beispiel die richtige Wahl des Stichprobenumfangs.