Jetzt neu: Steuerrecht online lernen auf steuerkurse.de!
Kursangebot | Stichprobentheorie | Differenzenschätzung

Stichprobentheorie

Differenzenschätzung

Auszugehen ist davon, dass für das im Interesse stehende Merkmal Y noch ein Hilfsmittel X gegeben ist. Aus diesem Grund muss der Populationsmittelwert Y geschätzt werden, wenngleich der Mittelwert der Population X gegeben ist. Auszugehen ist auch davon, dass zwischen den beiden Merkmalen kaum Unterschiede bestehen. Das bedeutet soviel wie, dass eine geringe Streuung aufgrund der geringen Differenz zu vernehmen ist. Anders formuliert: X und Y weisen ähnliche Werte auf.

Das weitere Vorgehen in den Untersuchungen zielt auf das Merkmal: D = Y - X.

Auf der Grundlage der gegebenen Stichprobe, werden die zwei Merkmale erhoben und der Mittelwert $\overline D$ folgendermaßen geschätzt: $\hat{\overline D}=\overline d=\frac 1 n\sum _{i=1}^nd_i=\frac 1 n\sum _{i=1}^n(y_i-x_i)=\overline y-\overline x.$

Ebenso gilt gleichermaßen der Zusammenhang: $\overline Y=\overline X+\overline D.$

Durch die Schätzung von $\overline D$ durch $\overline d$ resultiert eine Schätzung für $\overline Y$

Schlussendlich erhält man den Differenzenschätzer $\hat{\overline Y}_D=\overline X+\overline d.$

 

Merke

Hier klicken zum Ausklappen

Zu beachten sei an diesem Punkt, dass der aus der Grundgesamtheit gegebene Mittelwert $\overline X,$ neben der Schätzung der Differenz $\overline d,$ zu berücksichtigen ist.

Mithilfe der notwendigen Umformulierung gelangen wir zu der folgenden Interpretation des Differenzschätzers:
$\hat{\overline Y}_D=\overline y+(\overline X-\overline x).$

Die erhaltene Schätzung (ohne Zusatzinformationen) wird folglich um die Abweichung $(\overline X-\overline x)$  zwischen der Stichprobe und Grundgesamtheit um das Merkmal X überarbeitet.

Das folgende Beispiel soll die Funktionsweise eines Differenzschätzers verdeutlichen:

 

Beispiel

Hier klicken zum Ausklappen

Es liegt eine Grundgesamtheit mit den folgenden Primär- und Sekundärinformationen vor:

Primärinformationen: $X_1=11\text{ }X_2=11\text{ }X_3=11\text{ }X_4=21\text{ }X_5=21$

Sekundärinformationen: $Y_1=9\text{ }Y_2=10\text{ }Y_3=11\text{ }Y_4=18\text{ }Y_5=22$

Für das arithmetische Mittel ist gegeben: $\overline X$ und $\overline Y.$ Daraus ergibt sich: $\overline X=\frac 1 5\sum _{i=1}^5X_i=\frac 1 5(11+...+21)=15$ und $\overline Y=\frac 1 5\sum _{i=1}^5Y_i=\frac 1 5(9+10+...+22)=14.$

Wir gehen davon aus, dass uns zwar das arithmetische Mittel $\overline X$ bekannt ist, welches berechnet wurde, jedoch die Stichprobenwerte unbekannt sind, da noch keine Stichprobe genommen wurde.
Demnach starten wir von Anfang an, indem zunächst die obigen Werte aus der Stichprobe entnommen werden. Der Stichprobenumfang soll n = 3 betragen. Für D = Y - X resultieren folgende Werte:
$D_1=Y_1-X_1=-2\text{ },D_2=-1\text{ },D_3=0\text{ },D_4=-3\text{ },D_5=1.$

Die Berechnung des ersten Werts erfolgt ausführlich. Demnach ist es: $\overline d_1=\frac 1 3(Y_1+Y_2+Y_3)-\frac 1 3(X_1+X_2+X_4)=\frac 1 3(9+10+11)-\frac 1 3(11+11+11)=-1.$

Es bestehen $\dbinom{10}{3}$ Möglichkeiten eine dreielementige Teilmenge aus einer 10-elementigen Obermenge zu schaffen, ohne dass die Reinfolge zu beachten ist oder zurückgelegt werden muss.

Stichprobe

Entnommene Werte in Bezug auf die Indizes

$\overline d_i=\overline y_i-\overline x_i$

$\overline X$

$\hat{\overline Y}_{D_i}=\overline X+d_i$

1

1 3 2

-1

15

14

2

1 4 2

-2

15

13

3

1 5 2

-2/3

15

14,33

4

1 4 3

-5/3

15

13,33

5

1 5 3

-1/3

15

14,66

6

1 5 4

-4/3

15

13,66

7

2 4 3

-4/3

15

13,66

8

2 5 3

0

15

15

9

2 5 4

-1

15

14

10

3 5 4

-2/3

15

14,33

  

$E(\overline d)\text =-1$

 

$E(\hat{\overline Y}_D)=\frac 1{10}\sum _{i=1}^{10}\hat{\overline Y}_{D_i}\text =14$

Somit stellt sich heraus, dass es sich um einen erwartungstreuen Differenzschätzer handelt für $\overline Y,$ weil $E(\hat{\overline Y}_D)=\overline Y=\frac 1 4(9+10+11+18+22)=14.$

Somit ist es: $\overline D=\frac 1 5(D_1+D_2+D_3+D_4)=\frac 1 5(-2-1+0-3+1)=\frac{-5} 5=-1.$

Aus der Tabelle geht hervor, dass $E(\overline d)=\overline D=-1.$
Für die Varianz von $\hat{\overline Y}_D$ resultiert der folgende Wert: $\mathit{VAR}(\hat{\overline Y}_D)=\frac 1{10}\sum _{i=1}^{10}\left(\hat{\overline Y}_{D_i}-E(\hat{\overline Y}_D)\right)=0,33.$

Für die Varianz ergibt sich somit eindeutig:

Stichprobe

Entnommene Werte in Bezug auf die Indizes

$Y_i$

$\overline Y_{\mathit{ES}}^i$

$E(\hat{\overline Y}_{\mathit{ES}})=\frac 1{10}\sum _{i=1}^{10}\overline Y_{\mathit{ES}}^i\text =$

1

1 3 2

9

10

13,87

2

1 4 2

10

12,33

13,43

3

1 5 2

11

12,33

13,43

4

1 4 3

18

12,67

13,43

5

1 5 3

22

14

13,43

6

1 5 4

 

16,33

13,43

7

2 4 3

 

13

13,43

8

2 5 3

 

14,33

13,43

9

2 5 4

 

16,67

13,43

10

3 5 4

 

17

13,43

$\mathit{VAR}(\hat{\overline Y}_{\mathit{ES}})=\frac 1{10}\sum _{i=1}^{10}\left(\overline Y_{\mathit{ES}}^i-E(\hat{\overline Y}_{\mathit{ES}})\right)=4,33.$


Verglichen werden nun die zwei berechneten Varianzen $\mathit{VAR}(\hat{\overline Y}_D)=0,33\text{   }\text{und}\text{   }\mathit{VAR}(\hat{\overline Y}_{\mathit{ES}})=4,33.$


Es wird direkt deutlich, dass $\mathit{VAR}(\hat{\overline Y}_D)$

Mit Hilfe der oberen Methode konnte eine deutliche Reduktion der Varianz erzielt werden. Die Ausprägungen des Differenzschätzers variiert demnach wesentlich geringer in Bezug auf den Mittelwert $\overline Y=14.$ 

Die Varianzreduktion beim Differenzenschätzer wird hier visuell dargestellt:

Abb. 9: x-Achse: Primärinformation; y-Achse: Sekundärinformation
Abb. 9: x-Achse: Primärinformation; y-Achse: Sekundärinformation
Abb. 10: x-Achse: Stichprobe i, i=1,...,10; y-Achse: berechneter Schätzer für den Mittelwert.
Abb. 10: x-Achse: Stichprobe i, i=1,...,10; y-Achse: berechneter Schätzer für den Mittelwert.
Abb. 11: x-Achse: Stichprobe i=1,...,10 ; y-Achse: Schätzer für den Mittelwert.
Abb. 11: x-Achse: Stichprobe i=1,...,10 ; y-Achse: Schätzer für den Mittelwert.



Die folgende Gültigkeit resultiert aus den vorhergegangen Herleitungen:

Merke

Hier klicken zum Ausklappen

Gegeben ist eine einfache Stichprobe von Sekundärinformationen $x_1,x_2,…,x_n.$ Die anlehnenden Primärinformationen liegen vor: }} $y_1,y_2,...,y_n.$ Gegeben ist auch der Mittelwert des Hilfsmerkmals in der Grundgesamtheit durch: $\overline X.$ Der Differenzenschätzer $\hat{\overline Y}_D=\overline X+\frac 1 n\sum _{i=1}^n(y_i-x_i)$ erweist sich dann als ein erwartungstreuer Schätzer für den Mittelwert $\overline Y.$

Durch $\hat{\mathit{VAR}(\hat{\overline Y}_D)}=\frac{N-n} N\frac 1{n(n-1)}\sum _{i=1}^n\left[(y_i-x_i)-(\overline y-\overline x)\right]^2$ kann die Varianz von $\hat{\overline Y}_D$ geschätzt werden.

Die Eigenschaften des Differenzenschätzers $\hat{\overline Y}_D$ und des Schätzers der einfachen Stichprobe $\hat{\overline Y}_{\mathit{ES}}$ werden miteinander verglichen. Als unversehrt erweisen sich sowohl $\overline d$ als auch $\hat{\overline Y}_D$. Das „unverzerrt“ bezieht sich auf $\hat{\overline Y}_D$ und bedeutet, dass für $E\left(\hat{\overline Y}_D\right)-\overline Y=0,$ $\overline d$ das Analoge gilt.

Das bedeutet, dass erhebliche Unterschiede in der Varianz vorliegen können. Die Streuung des Merkmals D ist für die Varianz des Differenzenschätzers $\hat{\overline Y}_D$ von entscheidender Bedeutung. Auch ist die Streuung von Y bei der Varianz von $\overline Y_{\mathit{ES}}$ ausschlaggebend.

Trotz fehlender Beweise kann schlussendlich festgehalten werden, dass wenn die Variation von D die Variation von Y in der Population unterschreitet, die Varianz des Differenzenschätzers geringer ist.

Durchführung einer Hochrechnung

Zu ermitteln ist der Wahlanteil $P_Y$ der Partei Neo. Die Wahlentscheidung des Wählers wird mit Y kenntlich gemacht. Somit bedeutet $Y_i=1,$ dass jeder i-te die Partei Neo wählte. Im anderen Fall $Y_i=0.$ Es wird ein Stichprobenumfang von n entnommen. Daraus resultieren die Beobachtungen $y_1,y_2,…,y_n.$ Im Falle einer einfachen Hochrechnung (ohne, dass Sekundärelemente berücksichtigt werden) ergibt sich als Schätzer $\hat P_Y=\overline y.$ Die Varianz entspricht dann $\mathit{VAR}(Y)=P_Y\frac{(1-P_Y)} n.$

Der Korrekturterm $\frac{N-n} n$ kann aus dem Grund außen vor gelassen werden, da es sich um eine sehr große Bevölkerung handelt (Tausende von Wählern).

Verglichen wird nun die Differenzschätzung mit dem oberen Ergebnis. Dabei kommt noch ein zusätzliches Merkmal X zu dem obigen Merkmal Y hinzu. An diesem Merkmal wird ersichtlich, ob eine Person auch schon bei der letzten Wahl für die Partei Neo stimmte.

Wenn festgestellt wird, dass sich das Wahlverhalten der Version nicht verändert hat, dann ist es $X_i=1$. Falls es sich verändert, ist es gleich null und demnach $X_i=0$.

Zusammengefasst werden kann dann das Wahlverhalten in dieser Tabelle:

    
 $Y_i=0$$Y_i=1$Σ
$X_i=0$$P_{00}$$P_{01}$$1-P_X$
$X_i=1$$P_{10}$$P_{11}$$P_X$

Σ

$1-P_Y$$P_Y$

1


Der Anteil der Wähler, welche die Partei Neo nicht gewählt haben und das auch dieses mal nicht vorhaben, werden mit $P_{00}$ beschrieben.

Der Anteil der Wähler, welche die Partei Neo beim letzten mal nicht gewählt haben, es jedoch dieses mal vorhaben, werden mit $P_{01}$ beschrieben.

Der Anteil der Wähler, welche die Partei Neo bereits beim letzten mal gewählt haben, es aber dieses mal nicht vorhaben, werden mit $P_{10}$ beschrieben.

Der Anteil der Wähler, welche die Partei Neo das letzte mal wählten und es auch wieder vorhaben, werden mit $P_{11}$ beschrieben.

Das Merkmal D = Y - X wird beschrieben, weil das Ergebnis mit Hilfe des Differenzenschätzers zu berechnen ist.

Werte aufgrund vorheriger Definition {-1;0;1}, mit den entsprechenden Wahrscheinlichkeiten $P_{10},$  $P_{00}+P_{11}$ und $P_{01}.$

Die Bestimmung der Varianz D ist notwendig, damit die Varianz des Differenzenschätzers zu bestimmen ist.

Ermittelt wird nun die Kovarianz von X und Y. Somit ist es $S_{\mathit{XY}}:=\mathit{COV}(X,Y)=E(\mathit{XY})-E(X)E(Y)=P_{11}-P_XP_Y,$ da $E(X)=1\ast P_{X=1}+0\ast P_{X=0}=P_X$ bzw. $E(Y)=1\ast P_{Y=1}+0\ast P_{Y=0}=P_Y$ und $
E(\mathit{XY})=\sum _{i=0}^1\sum _{j=0}^1x_iy_jP(X=x_i,Y=y_j)=0\ast P_{00}+0\ast P_{10}+1\ast P_{01}+1\ast P_{11}=P_{11}.$

Wenn der Korrekturterm außen vor gelassen wird, resultiert daraus die Varianz des Differenzenschätzers zu $
\mathit{VAR}(\hat{\overline Y})=\frac 1 n\left(\underbrace{P_Y(1-P_Y)}_{S^2_Y}+\underbrace{P_X(1-P_X)}_{S^2_X}-2\underbrace{(P_{11}-P_XP_Y)}_{S_{\mathit{XY}}}\right).$

Eine Reduktion der Varianz ist dann gegeben, wenn im Vergleich zu $\hat P_Y$ gilt, dass $S_X^2\leqslant 2S_{\mathit{XY}}.$

Mittels der oberen Formel erhalten wir die Ungleichung: $P_X(1-P_X)\leqslant 2(P_{11}-P_XP_Y)\text{{\textless}={\textgreater}}(1-P_X)\leqslant 2(\frac{P_{11}}{P_X}-P_Y).$

Der Anteil der Wähler, welche wiederholt die Partei Neo wählten, entspricht hier $\frac{P_{11}}{P_X}.$ Falls diese zu groß ist, wird eine Reduktion der Varianz vorgenommen. Bei Unabhängigkeit der Ergebnisse der letzten und zukünftigen Wahl gilt: $P_{11}=P_XP_Y.$ Dabei ist keine Varianzreduktion zu erzielen. Die Konsequenz ist die, dass die Sekundärinformation zweitrangig wird.

Beispiel (Hochrechnung)

Beispiel

Hier klicken zum Ausklappen

Folgende Werte kamen bei der Zufallsstichprobe von n = 1000 Personen raus:

 

$Y_i=0$

$Y_i=1$

Σ

$X_i=0$

570

10

580

$X_i=1$

80

340

420

Σ

650

350

1000

Die Werte des damaligen Ergebnisses ergeben die Sekundärinformation. Dabei wird deutlich, dass 40 % für die Partei Neo gestimmt haben, demnach $P_X=0,4.$
Ermittelt wir nun das 95 % -Konfidenzintervall der Wahlprognose $P_Y.$

Dazu muss erst einmal das richtige Schema ausgewählt werden. Gefragt ist der Anteil eines Dichotomien Merkmals in der Grundgesamtheit. Das „Baumschema“ gibt uns Auskunft darüber, dass das Schema 6 anzuwenden ist.

  1. Das Konfidenzniveau liegt vor: $1-\alpha =95\text{%}.$ Das Signifikanzniveau beträgt 5%.

  2. Weiter ist $1-\frac{0,05} 2=0,975.$

  3. Das arithmetische Mittel liegt vor durch: 0,35.

  4. Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch: z=1,96.
    Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
    Des Weiteren gilt: $1000\ast 0,35=350\geqslant 5\text{   }\text{und}\text{   }1000\ast 0,35=350\leqslant 995.$

  5. Der Wert der geschätzten Standardabweichung ist: $\hat{\sigma }=\sqrt{\overline x(1-\overline x)}=\sqrt{0,35\ast (1-0,35)}=0,48.$

  6. Die halbe Breite des Konfidenzintervalls liegt vor durch: $\frac{0,48\ast 1,96}{\sqrt{1000}}\approx 0,03.$

  7. Für das Konfidenzintervall der vorliegenden Stichprobe folgt schlussendlich:
    $\mathit{KI}=[0,35-0,03;0,35+0,03]=[0,32;0,38].$


Im Falle dessen, dass die gegebene Information X, welche dem Wähleranteil der damaligen Wahl $P_X=0,4\text )$ entspricht, verwendet wird, haben wir einen Differenzschätzer von: $\hat{\overline Y}=0,35+(0,4-0,42)=0,33.$

Die Varianz kann aus der beobachteten Verteilung von $d_k=y_k-x_k$ geschätzt werden.

Wenn $Y=0\text{  }\text{und}\text{  }X=1$ wird die Größe $d_k=-1$ angenommen. Die obige Tabelle zeigt uns an, dass das nur 80 mal passieren kann. Es kann dann ebenso festgestellt werden, dass wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1, die Größe $d_k=0$ angenommen wird. Geschehen tut dies dann: 570 + 340 = 910 mal. Es wird jedoch auch deutlich, dass der Wert $d_k=1$ nur dann realistisch sein kann, wenn Y = 1 und X = 0, d.h. 10 mal ist.

Wir halten das in der Tabelle fest:

 

$d_k$

-1

0

1

Häufigkeit

80

910

10

Bestimmt werden soll nun ein Konfidenzintervall für den Schätzer $\hat{\overline Y}_D.$
Gesucht ist ein Konfidenzintervall für die Wahlprognose. Es handelt sich dabei um eine beliebig verteilte Grundgesamtheit von n = 1000, weswegen Schema 5 anzuwenden ist.

  1. Das Konfidenzniveau liegt vor durch: $1-\alpha =95\text{%}\Leftrightarrow \alpha =0,05.$

  2. Folglich ist $1-\frac{0,05} 2=0,975.$

  3. Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch: z=1,96.
    Nach Voraussetzung gilt n>30.

  4. Das arithmetische Mittel liegt vor durch: $\overline d=\frac{-1\ast 80+0\ast 910+1\ast 10}{1000}=-0,07.$ Da die Varianz in der Grundgesamtheit nicht bekannt ist, berechnen wir die Größe $\hat{\sigma }^2=\sum _{i=1}^{1000}\frac{(d_i-\overline d)^2}{1000-1}=\sum _{i=1}^{1000}\frac{(d_i-\overline d)^2}{999}.$
    Es ist $\hat{\sigma }^2=\sum _{i=1}^{1000}\frac{(d_i-\overline d)^2}{1000-1}=\frac{80\ast (-1+0,07)^2+910\ast (0+0,07)^2+10\ast (1+0,07)^2}{999}\approx 0,085.$

  5. Für die halbe Breite des Konfidenzintervalls bekommen wir: $\frac{\sqrt{0,085}\ast 1,96}{\sqrt{1000}}\approx 0,018.$

  6. Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:
    $\mathit{KI}=[0,33-0,018;0,33+0,018]=[0,312;0,348].$

Übungsaufgaben zur Differenzenschätzung

1. Aufgabe:

Nachdem die Wähler ihre Stimmen abgegeben haben, soll eine Hochrechnung durchgeführt werden. Dazu werden 2000 Personen befragt. Daraus haben sich folgende Informationen ergeben:

  • Von den 2000 Personen äußerten sich 500 Personen, dass sie für Partei R stimmten, wohingegen 1500 Personen angaben, mit der Partei R nicht zufrieden gewesen zu sein, weswegen sie diese nicht noch einmal wählen würden.

  • Von den 500 Personen, welche für die Partei R stimmten, gaben 100 Personen an, dass sie bei der vorherigen Wahl nicht für diese gestimmt haben.

  • Außerdem erhielt man die Information, dass von den 1500 Wählern, welche mit der Partei R unzufrieden seien, nur 150 Personen diese bei der letzten Wahl gewählt haben.

  • Des Weiteren liegt die Information über das damalige Ergebnis vor, das besagt, dass 35 % für die Partei R gestimmt haben.

Zu berechnen ist nun das 95 % -Konfidenzintervall für die Wahlprognose $P_Y:$

1. Ohne den Einbezug der Sekundärinformation.

2. Mit Einbezug der Sekundärinformation.

Vertiefung

Hier klicken zum Ausklappen
Lösung:

Zu Beginn werden zugunsten der Übersicht, die wichtigsten Größen in einer Tabelle festgehalten:

 

$Y_{i}=0$

$Y_{i}=1$

 
$X_{i}=0$

1350

100

1450

$X_{i}=1$

150

400

550

 

1500

500

2000

Aufgrund der vorliegenen Sekundärinformation wird sofort deutlich, dass $P_X = 0,35$.

 

Zu 1.:

Zu Beginn ist zu ermitteln, welches Schema anzuwenden ist.
Gefragt ist nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit.
Das „Baumschema“ macht deutlich, dass Schema 6 anzuwenden ist.

 

  1. Das Konfidenzniveau liegt vor durch: $1-\alpha =95\text{\%}\text{{\textless}={\textgreater}}\alpha =0,05.$

  2. Folglich ist: $1-\frac{0,05} 2=0,975.$

  3. Das arithmetische Mittel liegt vor durch: $\frac{500}{2000}=0,25.$

  4. Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch: $z\approx 1,96.$
    Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
    Wesweiteren gilt: $2000\ast 0,25=500\geqslant 5\text{   }\text{und}\text{   }2000\ast 0,25=500\leqslant 1995.$

  5. Als Wert für die geschätzte Standardabweichung erhalten wir $\hat{\sigma }=\sqrt{\overline x(1-\overline x)}=\sqrt{0,25\ast (1-0,25)}\approx 0,43.$

  6. Die halbe Breite des Konfidenzintervalls liegt vor durch: $\frac{\sqrt{1/4\ast 3/4}\ast 1,96}{\sqrt{2000}}=\frac{\sqrt{3/16}\ast 1,96}{\sqrt{2000}}\approx 0,02.$

  7. Für das Konfidenzintervall der vorliegenden Stichprobe folgt schlussendlich:
    $\mathit{KI}=[0,25-0,02;0,25+0,02]=[0,23;0,27].$

 

Zu 2.

Im Falle dessen, dass die gegebene Information X, welche den Wähleranteil $P_X=0,35\text)$ der letzten Wahl angibt, verwendet wird, erhalten wir den Differenzenschätzer $\hat{\overline Y}_D=0,25+(0,35-0,275)=0,325.$

Die Varianz kann aus der beobachteten Verteilung von $d_k=y_k-x_k$  geschätzt werden.

Falls $Y=0\text{  }\text{und}\text{  }X=1$ wird von der Größe $d_k=-1$ ausgegangen. Die obige Tabelle verdeutlicht, dass es dazu nur 150 mal kommen kann.

Außerdem wird ersichtlich, dass dann von der Größe $d_k=0$ ausgegangen wird, wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1. Das kommt 1350 + 400 = 1750 mal vor.

Offensichtlich wird dann auch, dass der Wert $d_k=1$ durchführbar ist, wenn Y = 1 und X = 0, d.h. 100 mal.


Anschließend wird dies in eine Tabelle übertragen:

$d_k$

-1

0

1

Häufigkeit

150

1750

100

Des Weiteren ist nun ein Konfidenzintervall für den Schätzer $\hat{\overline Y}_D$ zu ermitteln.
Ein Konfidenzintervall für die Wahlprognose ist gesucht. Es handelt sich um eine beliebig verteilte Grundgesamtheit von n = 2000. Demnach ist Schema 5 anzuwenden. 

 

  1. Das Konfidenzniveau liegt vor durch: $1-\alpha =95\text{%}\Leftrightarrow \alpha =0,05.$

  2. Folglich ist: $1-\frac{0,05} 2=0,975.$

  3. Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch: $z\approx 1,96.$
    Nach Voraussetzung gilt: n>30.

  4. Das arithmetische Mittel liegt vor durch: $\overline d=\frac{-1\ast 150+0\ast 1750+1\ast 100}{2000}=-0,025.$
    Aufgrund der unbekannten Varianz in der Grundgesamtheit, wird die Größe berechnet $\hat{\sigma }^2=\sum _{i=1}^{2000}\frac{(d_i-\overline d)^2}{2000-1}=\sum _{i=1}^{2000}\frac{(d_i+0,025)^2}{1999}.$ Es ist
    $\hat{\sigma }^2=\sum _{i=1}^{2000}\frac{(d_i-\overline d)^2}{2000-1}=\frac{150\ast (-1+0,025)^2+1750\ast (0+0,025)^2+100\ast (1+0,025)^2}{1999}\approx 0,124.$

  5. Für die halbe Breite des Konfidenzintervalls bekommen wir: $\frac{\sqrt{0,124}\ast 1,96}{\sqrt{2000}}\approx 0,015.$

  6. Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:
    $\mathit{KI}=[0,325-0,015;0,325+0,015]=[0,31;0,34].$

2. Aufgabe:

Am Sonntag kam es zu einer Landratswahl im Kreis Südwestfalen Lippe , wozu eine unmittelbare Hochrechnung durchgeführt werden soll.
Dazu wurden 30000 Leute befragt, für wen sie stimmten.
Es kamen folgende Werte zustande:

  • Von den 30000 befragten gaben 25000 Personen an, für den Landrat X gestimmt zu haben. Auf der anderen Seite gaben 5000 Personen an, dass sie mit dem Landrat X unzufrieden waren und diesen nicht wiederholt wählen würden.

  • Von den 25000 Wählern, welche den Landrates X wählten, gaben 25000 an, dass sie den Landrat X auch schon letztes mal gewählt haben.

  • Es wurde außerdem bekannt, dass alle von den 5000 Personen, welche den Landrat X ablehnten, diesen auch damals gewählt haben.

  • Außerdem steht die Information des damaligen Ergebnisses zur Verfügung, welche angibt, dass 48 % für den Landrat X stimmten.


    Zu berechnen ist nun das 95 % -Konfidenzintervall für die Wahlprognose $P_Y:$

    1. Ohne den Einbezug der Sekundärinformation.

    2. Mit Einbezug der Sekundärinformation.

Vertiefung

Hier klicken zum Ausklappen
Lösung:

Auch hier werden die relevanten Größen in Form einer Tabelle dargestellt.

Dann ergibt sich folgende Übersicht:

 

$Y_i = 0$

$Y_i = 1$

 
$X_i = 0$

0

0

0

$X_i = 1$

5000

25000

30000

 

5000

25000

30000

Die Sekundärinformation ist, dass $P_X = 0,7.$

Zu 1.:

Zunächst einmal ist wieder zu entscheiden, welches Schema anzuwenden ist.
Gefragt wird hierbei nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit. Das Baumschema gibt Auskunft darüber, dass Schema 6 das richtige ist.

  1. Das Konfidenzniveau liegt vor durch: $1-\alpha =95\text{%}\Leftrightarrow \alpha =0,05.$

  2. Folglich ist: $1-\frac{0,05} 2=0,975.$

  3. Das arithmetische Mittel liegt vor durch: $\frac{25000}{30000}\approx 0,83.$

  4. Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch: $z\approx 1,96.$
    Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
    Wesweiteren gilt: $30000\ast 0,83=24900\geqslant 5\text{   }\text{und}\text{   }2000\ast 0,83=24900\leqslant 24995.$

  5. Als Wert für die geschätzte Standardabweichung erhalten wir: $\hat{\sigma }=\sqrt{\overline x(1-\overline x)}=\sqrt{0,83\ast (1-0,83)}\approx 0,38.$

  6. Für halbe Breite des Konfidenzintervalls erhalten wir: $\frac{\sqrt{(5/30)\ast (5/6)}\ast 1,96}{\sqrt{30000}}\approx 0,0042.$

  7. Demnach ist das Konfidenzintervall der vorliegenden Stichprobe: $\mathit{KI}=[0,83-0,0042;0,83+0,0042]=[0,8258;0,8342].$

 

Zu 2.:

Im Falle dessen, dass die gegebene Information X, welche den Wähleranteil $P_X=0,48\text)$ der letzten Wahl angibt, verwendet wird, erhalten wir den Differenzschätzer $\hat{\overline Y}=0,83+(0,7-1)=0,53.$

Die beobachtete Verteilung hilft dabei die Varianz zu schätzen.
Falls $Y=0\text{  }\text{und}\text{  }X=1$ wird die Größe $d_k=-1$ angenommen. Die obige Tabelle verdeutlicht, dass es dazu nur 5000 mal kommen kann.

Außerdem wird ersichtlich, dass dann von der Größe $d_k=0$ ausgegangen werden kann, wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1. Das kommt 25000 mal vor.

Offensichtlich wird dann auch, dass der Wert $d_k=1$ nur dann durchführbar ist, wenn Y = 1 und X = 0, d.h. 0 mal.

Anschließend wird dies in eine Tabelle übertragen:

$d_k$

-1

0

1

Häufigkeit

5000

25000

0

Des Weiteren ist nun ein Konfidenzintervall für den Schätzer $\hat{\overline Y}_D$ zu ermitteln.

Ein Konfidenzintervall für die Wahlprognose ist gesucht. Es handelt sich um eine beliebig verteilte Grundgesamtheit von n = 30000. Demnach ist Schema 5 anzuwenden.

  1. Das Konfidenzniveau liegt vor durch: $1-\alpha =95\text{%}\Leftrightarrow \alpha =0,05.$

  2. Folglich ist: $1-\frac{0,05} 2=0,975.$

  3. Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch: $z\approx 1,96.$
    Nach Voraussetzung gilt: $n\text{{\textgreater}}30$

  4. Das arithmetische Mittel liegt vor durch: $\overline d=\frac{-1\ast 5000+0\ast 25000+1\ast 0}{30000}=-0,16.$
    Aufgrund der unbekannten Varianz in der Grundgesamtheit, wird die Größe berechnet $\hat{\sigma }^2=\sum _{i=1}^{30000}\frac{(d_i-\overline d)^2}{30000-1}=\sum _{i=1}^{30000}\frac{(d_i+0,16)^2}{29999}.$
    Es ist $\begin{gathered}\hat{\sigma }^2=\sum _{i=1}^{30000}\frac{(d_i-\overline d)^2}{30000-1}=\frac{5000\ast (-1+0,16)^2+25000\ast (0+0,16)^2+0\ast (1+0,16)^2}{29999}\\\text{    }\text =\frac{3528+640+0}{29999}\approx 0,1389. \end{gathered}$

  5. Für die halbe Breite des Konfidenzintervalls bekommen wir: $\frac{\sqrt{0,1389}\ast 1,96}{\sqrt{30000}}\approx 0,0042.$

  6. Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:
    $\mathit{KI}=[0,53-0,0042;0,53+0,0042]=[0,5258;0,5342].$