ZU DEN KURSEN!

Stichprobentheorie - Aufgaben, Beispiele und Berechnungen zu geschichteten Stichproben

Kursangebot | Stichprobentheorie | Aufgaben, Beispiele und Berechnungen zu geschichteten Stichproben

Stichprobentheorie

Aufgaben, Beispiele und Berechnungen zu geschichteten Stichproben

Aufgabe 1

Es sei eine Population von fünf Elementen gegeben.
$Y_1=23,\text{   }Y_2=12,\text{   }Y_3=10,\text{   }Y_4=20,\text{   }Y_5=11.$ Sämtliche Stichproben, welche gezogen werden sollen den Umfang n = 3 haben.

a) Berechnen Sie den Mittelwert der Grundgesamtheit.

b) Bestimmen Sie die Wahrscheinlichkeitsverteilung von $\overline y.$

c) Berechnen Sie aus den Werten den Erwartungswert und die Varianz.

d) Wählen Sie eine angebrachte Unterteilung der Population um folgende Fragen zu beantworten:

  • 1) Wie lauten je Schicht sämtliche Mittelwerte ?
  • 2) Wie lauten die Schätzer für die einzelnen Schichten ?
  • 3) Bestimmen sie den Erwartungswert und die Varianz des geschichteten Schätzers.
  • 4) Welche Aussagen können Sie abschließend über den geschichteten Schätzer machen ?
  • 5) Kommentieren Sie ausführlich das letzte Ergebnis.

Vertiefung

Hier klicken zum Ausklappen
Lösung:

Die Population hat insgesamt fünf Elemente: $Y_1=23$, $Y_2=12$, $Y_3=10$, $Y_4=20$, $Y_5=11$.

Zu a)

Der Mittelwert der Grundgesamtheit ist gegeben
$\overline Y=\frac 1 5(Y_1+Y_2+Y_3+Y_4+Y_5)=\frac 1 5(23+12+10+20+11)$=15,2.

Zu b) und c)

Aus der Population wird - nach Voraussetzung - je eine einfache Zufallsstichprobe vom Umfang n = 3 gezogen.

Dann ist sofort klar, dass jede mögliche Stichprobe mit gleicher Wahrscheinlichkeit eintritt, nämlich 0,1, da insgesamt zehn Zufallsstichproben vorliegen werden.

$\dbinom{5}{3}$ = ${5!}\over{3!2!}$ = ${4*5}\over 2$ = 10

Explizit ergeben sich folgende zehn mögliche Stichproben:

$Y_{i\text =}$

$Y_{i\text =}$

$Y_{i\text =}$

Mittelwert der Stichprobe $\overline y_i\text =$

Wahrscheinlichkeit

23

12

10

15

0,1

23

12

20

18,33

0,1

23

12

11

15,33

0,1

23

10

20

17,67

0,1

23

10

11

14,67

0,1

23

20

11

18

0,1

12

10

20

14

0,1

12

10

11

11

0,1

12

20

11

14,33

0,1

10

20

11

13,67

0,1

Der Mittelwert der ersten Stichprobe ergibt sich zu: $\frac 1 3(23+12+10)=\frac 1 3(9+10+11)=15.$

Alle übrigen wurden analog berechnet.

Weiter oben ist die Eintrittswahrscheinlichkeit bereits angesprochen und berechnet worden.

Für die Verteilung von $\overline y$ ergeben sich folgende Werte:

$\overline y_i$

15

18,33

15,33

17,67

14,67

18

14

11

14,33

13,67

$P(\overline y)$

0,1

0,1

0,1

0,1

0,1

0,1

0,1

0,1

0,1

0,1

$\overline y =$

15,2

Für den Erwartungswert von $\overline y$ erhält man:
$E(\overline y)=\frac 1{10}(15+18,33+15,33+17,67+14,67+18+14+11+14,33+13,67)=15,2.$
Entsprechend ergibt sich für die Varianz:
$\mathit{VAR}(\overline y)=\frac 1{10}\sum _{i=1}^{10}(\overline y_i-15,2)^2=\frac 1{10}\left((15-15,2)^2+(18,33-15,2)^2+...+(13,67-15,2)^2\right)=4,6253\approx 4,63.$

Zu d)

Durch geschickte Wahl von n = 3 Ziehungen kann - wie wir bereits gesehen haben - die Varianz verkleinert werden kann. Dazu wird angenommen, dass die Sekundärinformation die ist, dass die Population in zwei Schichten vorliegt. Die erste Schicht bestehe aus den Werten $Y_2$, $Y_3$ und $Y_5$. Die zweite entsprechend aus $Y_1$ und $Y_4$. Diese Aufteilung führt dazu, dass in jeder Gruppe die Werte $Y_i$ sich nahe kommen. An dieser Stelle kann zurecht behauptet werden, dass das Niveau von $Y_i$ deutlich von der Gruppe abhängt. Diese Zerlegung der Population in zwei Schichten stellt eine Schichtung dar.

Aus jeder Schicht wird nun eine geschichtete Stichprobe gezogen.

Entsprechend der Werte von $Y_i$ ergibt folgende Unterteilung in Schichten:

Schicht 1

$Y_2=12$$Y_3=10$$Y_5=11$

Schicht 2

$Y_1=23$$Y_4=20$

Approximativ entsprechend der Menge der vorkommenden Werte in den jeweiligen Schichten werden aus der ersten Schicht zwei Elemente und aus der zweiten Schicht wird ein Element gezogen.

Insgesamt ergeben sich folgende Möglichkeiten für die jeweiligen Ziehungen

Zu d) 1):

Schicht 1Schicht 2

Gezogene Indizes

Gezogene Indizes

Mittelwert der Stichprobe

Gezogene Indizes

Mittelwert der Stichprobe

12

10

11

20

20

12

11

11,5

23

23

10

11

10,5

Zu d) 2):

Die Hauptaufgabe ist es nun, dass die jeweiligen Mittelwerte realitätsnah miteinander, zu einem Schätzer, kombiniert werden. Dieser Schätzer soll das Populationsmittel $\overline Y$ schätzen.

Wir kommen unserem Ziel sehr nahe, wenn zunächst die Auswahlwahrscheinlichkeiten der einzelnen Individuen berechnet werden. Diese benötigen wir später.

Zunächst werden alle möglichen Stichproben in den beiden Schichten (zusammengenommen) aufgelistet:

Es ergeben sich folgende Möglichkeiten:

Gezogene Einheiten
(nach obiger Vereinbarung werden zwei Elemente (Einheiten) gezogen)
Gezogene Einheit
(nach obiger Vereinbarung wird genau ein Element (Einheit) gezogen)
Schicht 1Schicht 2

2  3

1

2  5

1

3  5

1

2  3

4

2  5

4

2  5

4

Nun berechnen wir je den Schätzer für die geschichtete Stichprobe. Wir erhalten

Gezogene Einheiten
(nach obiger Vereinbarung werden zwei Elemente (Einheiten) gezogen)
Gezogene Einheit
(nach obiger Vereinbarung wird ein Element (Einheit) gezogen)

Schicht 1

Schicht 2

$\overline y_1$$\overline y_2$$\hat{\overline Y}_{\mathit{GS}_i}$

12  10

23

1123$\frac 3 511+\frac 2 523=15,8$

12  11

23

11,523$\frac 3 511,5+\frac 2 523=16,1$

10  11

23

10,5

23$\frac 3 510,5+\frac 2 523=15,5$

12  10

20

1120$\frac 3 511+\frac 2 520=14,6$

12  11

20

11,520$\frac 3 511,5+\frac 2 520=14,9$

10  11

20

10,520$\frac 3 510,5+\frac 2 520=14,3$

Der Erwartungswert des geschichteten Schätzers $\hat{\overline Y}_{\mathit{GS}}$ kann sofort berechnet werden.

Dieser lautet: lautet: $E\left(\hat{\overline Y}_{\mathit{GS}}\right)=\frac 1 6\sum _{i=1}^6\hat{\overline Y}_{\mathit{GS}_i}=\frac 1 6(15,8+16,1+15,5+14,6+14,9+14,3)$= 15,2

Zu d) 3):

Nun sind wir in der Lage auch die Varianz von $\hat{\overline Y}_{\mathit{GS}}$ zu bestimmen.

Das heißt konkret: $\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)=\frac 1 6\sum _{i=1}^6\left(\hat{\overline Y}_{\mathit{GS}_i}-E\left(\hat{\overline Y}_{\mathit{GS}}\right)\right)^2=\frac 1 6\left((15,8-15,2)^2+(16,1-15,2)^2+...+(14,3-15,2)^2\right)=0,42.$

Zu d) 4):

Es wird sofort ersichtlich, dass der geschichtete Schätzer erwartungstreu ist für $\overline y$,

das heißt $E\left(\hat{\overline Y}_{\mathit{GS}}\right)=\overline y.$

Zu d) 5):

Diesen erwartungstreuen Schätzer haben wir letztendlich selbst konstruiert.

Aufgabe 2

Bei dieser Übungsaufgabe geht es darum von den angegebenen Antworten sich für die richtige(n) zu entscheiden. Durch den Entschluß des Ziehens einer geschichteten Stichprobe wird

a) rein zufällig eine Stichprobe von Schichten gezogen

b) nach einer legitimen Zerlegung der Population in Schichten aus jeder Schicht dann ein Zufallsstichprobe gezogen

c) zuerst eine zufällige Stichprobe von Schichten gezogen und dann innerhalb der entsprechenden Schichten eine weitere zufällige Stichprobe gezogen

d) eine Grundgesamtheit per Zufall in Schichten eingeteilt, aus denen dann eine Zufallsstichprobe gezogen werden kann.

Vertiefung

Hier klicken zum Ausklappen
Lösung:

Die richtige Antwort ist b).

Aufgabe 3

Welche der folgenden Größen sollte nicht als Schichtungsfaktor verwendet werden ?

Begründen Sie Ihre Antwort.

a) Wahlbezirk, Wohnregion, psychische Gesundheit, staatlich anerkannte bildende Institutionen.

b) Wie oft darf dasselbe Element -nach Zerlegung der Grundgesamtheit in Schichten- höchstens in den einzelnen Schichten vorkommen.

Vertiefung

Hier klicken zum Ausklappen
Lösung:

a) Die Grundgesamtheit kann dann in Schichten zerlegt werden, wenn Informationen über sie (die Grundgesamtheit) vorliegen Wesentliche Informationen können nahezu immer den Registern oder Datenbanken entnommen werden, welche für die Grundgesamtheit zur Verfügung stehen.

Dann wird sofort ersichtlich, dass es sinnlos ist eine Größe (Variable) als Schichtungsfaktor zu verwenden, bei der davon ausgegangen werden kann, dass nur wenige oder schwer zugängliche Informationen bezüglich der Grundgesamtheit vorliegen.

Die psychische Gesundheit scheidet somit aus.

b) Die Grundgesamtheit ist nach der Zerlegung in disjunkte Schichten eingeteilt. Jedes Element darf -bei richtiger Zerlegung-nur einmal in einer Schicht vorkommen. 

Aufgabe 4

Welche Vorteile hat die geschichtete Zufallsstichprobe ?

a) die bei ihr anfallenden Kosten sind die geringsten

b) Verbesserung der Schätzungen bezüglich aller vorkommenden Untersuchungsmerkmale

c) genauere Schätzung von Parametern der Population als bei einer einfachen Zufallsstichprobe

d) Optimierung der Gleichheit innerhalb der Schichten

e) auch kleinere Teilgesamtheiten werden ausreichend berücksichtigt.

Vertiefung

Hier klicken zum Ausklappen
Lösung:

Die korrekten Antworten lauten c), e).

Aufgabe 5

Beantworten Sie folgende Fragen.

a) Erklären Sie den Unterschied zwischen einer proportional geschichteten und einer nicht proportional geschichteten Zufallsstichprobe.

b) Was ist unter einer optimalen nicht proportionalen Aufteilung zu verstehen ? 

Vertiefung

Hier klicken zum Ausklappen
Lösung:
a) Eine proportional geschichtete Stichprobe liegt dann vor, wenn der Anteil einer Schicht an der Gesamtstichprobe gleich dem Anteil dieser Schicht an der Grundgesamtheit ist. Liegt eine Diskrepanz der Anteile eines Merkmals in der Grundgesamtheit und in der Stichprobe vor, so spricht man von einer nicht proportional geschichteten Stichprobe.b) Für einen gegebenen Stichprobenumfang n wird diejenige Zerlegung des gesamten Umfangs der Stichprobe auf die einzelnen Schichten so durchgeführt, dass Varianz des Schätzers minimal wird