ZU DEN KURSEN!

Stichprobentheorie - Wahl des Stichprobenumfangs

Kursangebot | Stichprobentheorie | Wahl des Stichprobenumfangs

Stichprobentheorie

Wahl des Stichprobenumfangs

Wahl des Stichprobenumfangs

Bei Ziehung einer Stichprobe aus einer geschichteten Grundgesamtheit ist auch der Stichprobenumfang für die einzelnen Schichten von enorm großer Bedeutung.

Nach erfolgreicher Aufteilung der Population in Schichten ist somit im Anschluß unmittelbar der Stichprobenumfang auf die einzelnen Schichten festzulegen.

Im folgenden werden einige Möglichkeiten zur Aufteilung der Stichprobenziehung vorgestellt.

Proportionale Aufteilung

Liegen keine zusätzlichen Informationen vor, so ist die proportionale Aufteilung äußerst empfehlenswert.

Beachte

Merke

Falls es darum geht Zahlen zu runden, so wird dazu die Gaußklammer [] verwendet. Aus dem Kontext wird sich sofort ergeben, ob eine Gaußklammer vorliegt oder eine übliche. Die Gaußklammer besagt in diesem Skript immer, dass die entsprechende Zahl abgerundet wird.

Der Stichprobenumfang in den einzelnen Schichten hat dann je die Größe:

$n_{h,\mathit{opt}}={\left[n\frac{N_h} N\right]+1}.$

Dabei ist die Größe $\left[n\frac{N_h} N\right]$ die nächst kleinere ganze Zahl. Also zum Beispiel ist [4,4] = 4 und [5,8888] = 5.

Auch wenn diese Form der Aufteilung am meisten verwendet wird, ist sie manchmal nicht notwendigerweise optimal.

Optimale Aufteilung

Bei genauerer Betrachtung der Varianzformel wird sofort ersichtlich, dass die Varianz des geschichteten Schätzers sowohl von $N_h$ als auch von -der Streuung innerhalb einer Schicht- abhängt, nämlich $S_h$.
Somit gelangt man zu der Feststellung, dass die zufällige Stichprobe in einer Schicht mit geringer Streuung kleiner sein sollte als in einer Schicht mit großer Streuung.

Der Korrekturfaktor $\frac{N_h-n_h}{N_h}$ in der Varianzformel kann für die weiteren Betrachtungen vernachlässigt werden, so dass 

$\hat{\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)}=\sum _{h=1}^M\left(\frac{N_h} N\right)^2\frac{S_h^2}{n_h}.$

Es wird sofort ersichtlich, dass je größer der Ausdruck $N_hS_h$, desto größer die Varianz.

Die Wahl von $n_h$ proportional zu $H_hS_h$, liefert die optimale Aufteilung:

${n_{h,\mathit{opt}}=\left[n\frac{N_hS_h}{\sum _{h=1}^{M}N_hS_h}\right]+1}.$

Dabei bezeichnet die Klammer [] wieder die nächst kleinere Zahl.

Beispiel zur optimalen Aufteilung

Beispiel

Wir rufen uns das obige Beispiel 1 zur Verhältnisschätzung in Erinnerung. Dort war 

$Y_1=9,\text{ }Y_2=10,\text{ }Y_3=11,\text{ }Y_4=18,\text{ }Y_5=22,$

Schicht 1

$Y_1=9$ $Y_2=10$ $Y_3=11$

Schicht 2

$Y_4=18$ $Y_5=22$

Es liegen zwei Schichten vor, das heißt h kann nur die Werte eins und zwei annehmen. Wir wählen die optimale Aufteilung. Die Werte $n_1$ und $n_2$ ergeben sich folgendermaßen. Berechnung von $n_{1,\mathit{opt}}:$ Es wird die Größe $S_1$ und für $\sum _{h=1}^{M}N_hS_h$ h=1,2 benötigt.
Es ist

$\begin{gathered}S_1^2=\frac{\sum _{i=1}^{(N_1\text =)3}\left(Y_{1i}-\overline Y_1\right)^2} 3=\frac{(Y_{11}-\overline Y_1)^2} 3+\frac{(Y_{12}-\overline Y_1)^2} 3+\frac{(Y_{13}-\overline Y_1)^2} 3\\\text{     }\text =\frac{(9-10)^2} 3+\frac{(10-10)^2} 3+\frac{(11-10)^2} 3=\frac 1 3+\frac 0 3+\frac 1 3=\frac 2 3 \end{gathered}$

beziehungsweise
$\begin{gathered}S_2^2=\frac{\sum _{i=1}^{(N_2\text =)2}\left(Y_{2i}-\overline Y_2\right)^2} 2=\frac{(Y_{21}-\overline Y_1)^2} 2+\frac{(Y_{22}-\overline Y_1)^2} 2\\\text{ }\text =\frac{(18-20)^2} 2+\frac{(22-20)^2} 2=\frac 4 2+\frac 4 2=4\end{gathered}$

und
$\sum _{h=1}^{M=2}N_hS_h=N_1S_1+N_2S_2=3\ast \sqrt{\frac 2 3}+2\ast \sqrt 4=\sqrt 3\ast \sqrt 2+4.$

Da der Stichprobenumfang n = 3 beträgt, kann nun $n_{1,\mathit{opt}}\text{  }\text{und}\text{  }n_{2,\mathit{opt}}$ berechnet werden zu:
$n_{1,\mathit{opt}}=\left[n\frac{N_1S_1}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{3\sqrt{2/3}}{\sqrt 6+4}\right]+1=1.$ und $n_{2,\mathit{opt}}=\left[n\frac{N_2S_2}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{2\ast 2}{\sqrt 6+4}\right]+1=2.$

Somit wird ersichtlich, dass in Schicht zwei eine Vollerhebung durchgeführt werden sollte. In Schicht eins reicht das Ziehen eines Elements. Abschließend wird der geschichtete Schätzer bestimmt: Die benötigten Mittelwerte finden sich in der unmittelbar anchließenden Tabelle:

1. Stichprobe: $\hat{\overline Y}_{{\mathit{GS}}_1}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 59+\frac 2 520=13,4$

2. Stichprobe: $\hat{\overline Y}_{{\mathit{GS}}_2}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 510+\frac 2 520=14$

3. Stichprobe: $\hat{\overline Y}_{{\mathit{GS}}_3}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 511+\frac 2 520=14,6.$

Für die geschichtete Stichprobe ergeben sich somit folgende Werte:

$Y_i$

$Y_i$ $Y_j$

$\overline y_1$

$\overline y_2$

$\hat{\overline Y}_{{\mathit{GS}}_i}$

9

18  22

9

$\frac 1 2(18+22)=20$

13,4

10

18  22

10

20

14

11

18  22

11

20

14,6

$E\left(\hat{\overline Y}_{\mathit{GS}}\right)=\frac 1 3\sum _{i=1}^{3}\hat{\overline Y}_{{\mathit{GS}}_i}$

14

Auch die Varianz kann jetzt berechnet werden zu:

$\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)=\frac 1 3\sum _{i=1}^3\left(\hat{\overline Y}_{{\mathit{GS}}_i}-14\right)^2=\frac 1 3\left((13,4-14)^2\right)+\left((14-14)^2\right)+\left((14,6-14)^2\right)=0,24.$

Auch hier konnte dank des geschichteten Schätzers eine Varianzreduktion erreicht werden. Dies ist ein Beleg, dass der gewählte Ansatz zu einem optimalen Ansatz geführt hat.

Probleme

Eine Schwierigkeit bei dieser Vorgehensweise ist die, dass die Kenntnis von $S_h^2$ vorausgesetzt wird. Vor Stichprobenziehung ist dies aber meistens nicht der Fall.
Alternativ kann eine kleine Stichprobe gezogen werden, um die Größe $S_h^2$ zu schätzen.
In einigen Fällen ist dies mit zusätzlichen Kosten verbunden, welche eher unerwünscht sind.
Diese Vorgehensweise findet meistens dann Anwendung, wenn die Größe $S_h^2$ bereits aus vorherigen Studien vorliegt, welche nun verwendet werden kann.
Die optimale Aufteilung entspricht der proportionalen Aufteilung, wenn die Varianzen in den einzelnen Schichten gleich sind, das heißt $S_h^2=S^2.$

Folgende Herangehensweise empfiehlt sich.

Empehlung

Tipp

Methode

Bei begründeter Annahme der Gleichheit der Varianzen der einzelnen Schichten empfiehlt es sich, die optimale Aufteilung durch die proportionale Aufteilung zu ersetzen.

Tipp

Methode

Treten deutliche Unterschiede in den einzelnen Schichten bezüglich der Varianz des zu untersuchenden Merkmals auf oder sind die Schichten selbst in sich unterschiedlich homogen, so ist es sehr ratsam, die optimale Aufteilung zu benutzen.

Beispiel zur Empfehlung

Beispiel

Ein Unternehmen, welches aus vielen Supermärkten besteht möchte erfahren, ob die Kundenzufriedenheit gut ist. Auch möchte dieses Unternehmen wissen, ob die Kundenbedürfnisse gut berücksichtigt werden. Diesbezüglich soll eine Umfrage durchgeführt werden. Nun ist es so, dass das Unternehmen über mehrere Supermärkte in verschieden Regionen verfügt. An dieser Stelle kann sofort die Entscheidung getroffen werden, dass die Regionen die einzelnen Schichten darstellen. Die Supermärkte in den verschiedenen Regionen weisen eine unterschiedliche Kundenstruktur auf. Während einzelne Supermärkte aus ländlichen Regionen eine homogene (einseitige) Kundenstruktur aufweisen (meistens Bauern und deren Angehörige), so besitzt der Supermarkt in Großstädten wie z.B. München eine gemischte Kundenstruktur bestehend aus Touristen, Geschäftsleuten und „innovativen“Menschen. Es kommt sofort zur begründeten Annahme: Je homogener die Bedürfnisse der Kunden, desto homogener die Kundenstruktur. Dann wird es -in diesen Regionen- aber auch zu weniger Varianz bezüglich der durchzuführenden Umfrage geben. Somit ist es besser eine kleinere Stichprobe auf dem Land zu ziehen als in der Stadt.

Es wird nun die dritte Möglichkeit der Stichprobenziehung ermittelt.

Neben der Homogenität der einzelnen Schichten spielt auch der Kostenfaktor eine wichtige Rolle.

Es kann durchaus vorkommen, dass die Erhebung in den einzelnen Schichten unterschiedlich teuer ist. Dies führt dann sofort zu der Kosten-optimalen Aufteilung.

Kostenoptimale Aufteilung

Die Kosten für Beschaffung von Informationen über ein Individuum aus der h-ten Schicht lägen bei $k_h,h=1,..,M.$

Dann folgt sofort für die Gsamtkosten der geschichteten Stichprobe: $K=k_0+k_1n_1+...+k_Mn_M.$

Hier sind $k_0$ die Fixkosten. Schließlich erhält man für die Kostenoptimale Aufteilung
$n_{h,\mathit{kostenopt}}=\left[n\frac{\frac{N_hS_h}{\sqrt{k_h}}}{\sum _{h=1}^MN_hS_h/\sqrt{k_h}}\right]+1.$

In der h-ten Schicht belaufen sich die Kosten also auf $n_{h,\mathit{kostenopt}}k_h.$

Beispiel zur kostenoptimalen Aufteilung

Beispiel

Es wird eine Umfrage zur Beurteilung von Risiko und Erfolgsfaktoren von neuen Unternehmen durchgeführt. Zuerst wird eine Stichprobe von Unternehmen gezogen, die im Jahr X die Gründung anmeldeten. Die Stichprobe selbst ist im Jahr X+c [Jahr] gezogen worden. Dann wurden die Unternehmensgründer aufgefordert sich rückblickend zu Erfolg und Mißerfolg zu äußern. Hier besteht die begründete Annahme, dass Unternehmer, welche bereits Konkurs angemeldet haben, wenig Willens sind sich zu äußern. Andererseits werden diejenigen Unternehmer, welche weiterhin erfolgreich sind, sich gerne mitteilen. Deswegen ist es sehr nützlich im vorliegenden Beispiel eine Unterteilung der Unternehmer, in zwei Schichten, vorzunehmen. Einmal die erfolgreichen Unternehmer und zum anderen die erfolglosen Unternehmer. Anschließend sollte die Stichprobe so sein, dass überproportional viele erfolglose Unternehmer befragt werden sollten, Dies vor allem deswegen, um dem erwarteten zurückhaltenden Antwortverhalten der erfolglosen Unternehmer entgegenzukommen.

Aufgabe zur Wahl des Stichprobenumfangs

Es sei folgende Grundgesamtheit gegeben:
$Y_1=23,\text{   }Y_2=12,\text{   }Y_3=10,\text{   }Y_4=20,\text{   }Y_5=11.$

a) Wählen Sie eine angebrachte Unterteilung der Grundgesamtheit in Schichten.

b) Entscheiden Sie sich dann für den geeigneten Stichprobenumfang. Es ist vorauszusetzen, dass enorme Unterschiede in den einzelnen Schichten bezüglich der Varianz des zu untersuchenden Merkmals bestehen.

c) Berechnen Sie anschließend den geschichteten Schätzer.

d) In einem letzten Schritt können Sie die Varianz bestimmen. Tun Sie dies und kommentieren Sie das erhaltene Ergebnis der Varianz.

e) Was können Sie bezüglich der Vorgehensweise sagen ?

Lösung:

Zu a): Anhand der Werte ist ersichtlich, dass nur folgende Unterteilung empfehlenswert ist.

Schicht 1

$Y_2=12$ $Y_3=10$ $Y_5=11$

Schicht 2

$Y_1=23$ $Y_4=20$

Zu b): Da vorausgesetzt werden muss , dass enorme Unterschiede in den einzelnen Schichten bezüglich der Varianz des zu untersuchenden Merkmals bestehen, fällt sofort die Entscheidung für die optimale-Unterteilung.

Da zwei Schichten vorliegen kann h nur die Werte eins und zwei annehmen.

Berechnung von ${n_1,\mathit{opt}:}$ Für $S_1$ und $\sum _{h=1}^MN_hS_h$(h=1,2) erhalten wir:

Die Indizes müssen entsprechend der Schichten abgeändert werden.

Zunächst ist 

$\begin{gathered}S_1^2=\frac{\sum _{i=1}^{(N_1\text =)3}\left(Y_{1i}-\overline Y_1\right)^2} 3=\frac{(Y_{11}-\overline Y_1)^2} 3+\frac{(Y_{12}-\overline Y_1)^2} 3+\frac{(Y_{13}-\overline Y_1)^2} 3\\\text{ }\text =\frac{(12-10)^2} 3+\frac{(10-10)^2} 3+\frac{(11-10)^2} 3=\frac 4 3+\frac 0 3+\frac 1 3=\frac 5 3,\end{gathered}$

analog

$\begin{gathered}S_2^2=\frac{\sum _{i=1}^{(N_2\text =)2}\left(Y_{2i}-\overline Y_2\right)^2} 2=\frac{(Y_{21}-\overline Y_1)^2} 2+\frac{(Y_{22}-\overline Y_1)^2} 2\\\text{ }\text =\frac{(23-20)^2} 2+\frac{(20-20)^2} 2=\frac 9 2 \end{gathered}$

und

$\sum _{h=1}^{M=2}N_hS_h=N_1S_1+N_2S_2=3\ast \sqrt{\frac 5 3}+2\ast \sqrt{\frac 9 2}=\sqrt{15}+\sqrt{18}.$

Der Stichprobenumfang ist n = 3, so dass sich für $n_{1,\mathit{opt}}\text{  }\text{und}\text{  }n_{2,\mathit{opt}}$ folgende Werte ergeben: 
$n_{1,\mathit{opt}}=\left[n\frac{N_1S_1}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{3\sqrt{5/3}}{\sqrt{15}+\sqrt{18}}\right]+1=2.$

und $n_{2,\mathit{opt}}=\left[n\frac{N_2S_2}{\sum _{h=1}^2N_2S_2}\right]+1=\left[3\frac{2\ast \sqrt{9/2}}{\sqrt{15}+\sqrt{18}}\right]+1=2.$

In Schicht zwei sollte eine Vollerhebung durchgeführt werden.

In Schicht eins reicht das Ziehen zweier Elemente.

Zu c):

Für den geschichteten Schätzer folgt:

1 .Stichprobe: $hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 510,5+\frac 2 521,5=14,9$

2. Stichprobe: $\hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 511+\frac 2 521,5=15,2$

3. Stichprobe: $\hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 511,5+\frac 2 521,5=15,5.$

Insgesamt ergeben sich für die geschichtete Stichprobe folgende Werte:

$Y_i$ $Y_i$ $\overline y_1$ $\overline y_2$ $\hat{\overline Y}_{{\mathit{GS}}_i}$

10 11

20 23

(10+11)/2=10,5

(20+23)/2=21,5

14,9

10 12

20 23

11

21,5

15,2

11 12

20 23

11,5

21,5

15,5

$E\left(\hat{\overline Y}_{\mathit{GS}}\right)\text =$

15,2

Der geschichtete Schätzer hat also den Erwartungswert: $E\left(\hat{\overline Y}_{\mathit{GS}}\right)=15,2.$

Zu d):

Die Varianz kann berechnet werden durch:
$\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)$
=$\frac 1 3\sum _{i=1}^3\left(\hat{\overline Y}_{{\mathit{GS}}_i}-15,2\right)^2$
=$\frac 1 3\left((14,9-15,2)^2\right)+\left((15,2-15,2)^2\right)+\left((15,5-15,2)^2\right)$
=$0,06.$

Auch hier konnte dank des geschichteten Schätzers eine Varianzreduktion erreicht werden.

Zu e):

Dies ist ein Beleg für die korrekte Wahl des Stichprobenumfangs bei diesem Beispiel.