wiwiweb
online lernen

Besser lernen mit Online-Kursen

NEU! Jetzt online lernen:
Stichprobentheorie
Den Kurs kaufen für:
einmalig 49,00 €
Zur Kasse

Differenzenschätzung

WebinarTerminankündigung:
 Am 08.12.2016 (ab 18:00 Uhr) findet unser nächstes Webinar statt.
Gratis-Webinar Diskrete und stetige Verteilungen in der Wahrscheinlichkeitsrechnung
- In diesem 60-minütigen Gratis-Webinar gehen wir darauf ein, welche diskreten und stetigen Verteilungen Sie in der Prüfung beherrschen müssen.
[weitere Informationen] [Terminübersicht]

Nun wird davon ausgegangen, dass neben dem interessierendem Merkmal Y ein Hilfsmittel X vorliegt. Es ist beabsichtigt, den Populationsmittelwert Y zu schätzen, wobei der Mittelwert der Population X bekannt ist. Von nun an wird davon ausgegangen, dass der Unterschied zwischen den beiden Merkmalen gering ist. Damit ist gemeint, das die Differenz zwischen beiden Merkmalen eine geringe Streuung aufweist. Qualitativ gsprochen ist damit gemeint, dass X und Y ähnliche Werte annehmen.

Die weiteren Untersuchungen richten sich somit auf das Merkmal: D = Y - X.

In der vorliegenden Stichprobe werden beide Merkmale erhoben, womit der Mittelwert $\overline D$ wie folgt geschätzt werden kann: $\hat{\overline D}=\overline d=\frac 1 n\sum _{i=1}^nd_i=\frac 1 n\sum _{i=1}^n(y_i-x_i)=\overline y-\overline x.$

Selbstverständlich gilt die Beziehung: $\overline Y=\overline X+\overline D.$

Damit ergibt sich eine Schätzung für $\overline Y,$ indem $\overline D$ durch $\overline d$ geschätzt wird..

Schließlich bekommt man den Differenzenschätzer $\hat{\overline Y}_D=\overline X+\overline d.$

Beachte

Merke

An dieser Stelle sei darauf aufmerksam gemacht, dass neben der Schätzung der Differenz $\overline d$ auch der aus der Grundgesamtheit bekannte Mittelwert $\overline X$ mit berücksichtigt wird.

Durch eine elementare Umformung kommt man zu folgender Interpretation des Differenzenschätzers:
$\hat{\overline Y}_D=\overline y+(\overline X-\overline x).$

Die ohne Zusatzinformation erhaltene Schätzung wird um die Abweichung $(\overline X-\overline x)$ zwischen Grundgesamtheit und Stichprobe bezüglich des Merkmals korrigiert.

Im Folgenden wird ein Beispiel betrachtet, welches die Funktionsweise eines Differenzenschätzers erklärt.

Beispiel:

Beispiel

Es ist eine Grundgesamtheit mit folgenden Primär -und Sekundärinformationen gegeben: 

Primärinformationen: $X_1=11\text{ }X_2=11\text{ }X_3=11\text{ }X_4=21\text{ }X_5=21,$

Sekundärinformationen: $Y_1=9\text{ }Y_2=10\text{ }Y_3=11\text{ }Y_4=18\text{ }Y_5=22.$

Für das arithmetische Mittel $\overline X$ und $\overline Y$ ergibt sich: $\overline X=\frac 1 5\sum _{i=1}^5X_i=\frac 1 5(11+...+21)=15$ und $\overline Y=\frac 1 5\sum _{i=1}^5Y_i=\frac 1 5(9+10+...+22)=14.$

Nun nehmen wir an, dass wir zwar das gerade berechnete arithmetische Mittel $\overline X$ kennen, aber die Werte der Stichprobe uns unbekannt sind, da wir in dem jetzigen Fall noch keine Stichprobe genommen haben. Es wird also von ganz vorne angefangen, d.h. die Stichprobe aus den obigen Werten wird erst jetzt gezogen. Die Stichprobe wird den Umfang n = 3 haben. Dann ergeben sich für D = Y - X folgende Werte:
$D_1=Y_1-X_1=-2\text{ },D_2=-1\text{ },D_3=0\text{ },D_4=-3\text{ },D_5=1.$

Den ersten Wert berechnen wir ausführlich. Es ist
$\overline d_1=\frac 1 3(Y_1+Y_2+Y_3)-\frac 1 3(X_1+X_2+X_4)=\frac 1 3(9+10+11)-\frac 1 3(11+11+11)=-1.$

Es gibt $\dbinom{10}{3}$ Möglichkeiten eine dreielementige Teilmenge aus einer 10-elementigen Obermenge zu bilden ohne zurücklegen und ohne beachten der Reihenfolge.

Stichprobe

Gezogene Werte bezogen auf die Indizes

$\overline d_i=\overline y_i-\overline x_i$

$\overline X$

$\hat{\overline Y}_{D_i}=\overline X+d_i$

1

1 3 2

-1

15

14

2

1 4 2

-2

15

13

3

1 5 2

-2/3

15

14,33

4

1 4 3

-5/3

15

13,33

5

1 5 3

-1/3

15

14,66

6

1 5 4

-4/3

15

13,66

7

2 4 3

-4/3

15

13,66

8

2 5 3

0

15

15

9

2 5 4

-1

15

14

10

3 5 4

-2/3

15

14,33

$E(\overline d)\text =-1$

$E(\hat{\overline Y}_D)=\frac 1{10}\sum _{i=1}^{10}\hat{\overline Y}_{D_i}\text =14$

Somit wird ersichtlich, dass der Differenzenschätzer erwartungstreu ist für $\overline Y,$ da $E(\hat{\overline Y}_D)=\overline Y=\frac 1 4(9+10+11+18+22)=14.$

Es ist: $\overline D=\frac 1 5(D_1+D_2+D_3+D_4)=\frac 1 5(-2-1+0-3+1)=\frac{-5} 5=-1.$
Anhand der Tabelle sehen wir dann, dass $E(\overline d)=\overline D=-1.$
Für die Varianz von $\hat{\overline Y}_D$ ergibt sich folgender Wert: $\mathit{VAR}(\hat{\overline Y}_D)=\frac 1{10}\sum _{i=1}^{10}\left(\hat{\overline Y}_{D_i}-E(\hat{\overline Y}_D)\right)=0,33.$ Konkret ergibt sich für diese Varianz:

Stichprobe

Gezogene Werte bezogen auf die Indizes

$Y_i$

$\overline Y_{\mathit{ES}}^i$

$E(\hat{\overline Y}_{\mathit{ES}})=\frac 1{10}\sum _{i=1}^{10}\overline Y_{\mathit{ES}}^i\text =$

1

1 3 2

9

10

13,87

2

1 4 2

10

12,33

13,43

3

1 5 2

11

12,33

13,43

4

1 4 3

18

12,67

13,43

5

1 5 3

22

14

13,43

6

1 5 4

16,33

13,43

7

2 4 3

13

13,43

8

2 5 3

14,33

13,43

9

2 5 4

16,67

13,43

10

3 5 4

17

13,43

$\mathit{VAR}(\hat{\overline Y}_{\mathit{ES}})=\frac 1{10}\sum _{i=1}^{10}\left(\overline Y_{\mathit{ES}}^i-E(\hat{\overline Y}_{\mathit{ES}})\right)=4,33.$

Nun vergleichen wir die beiden berechneten Varianzen $\mathit{VAR}(\hat{\overline Y}_D)=0,33\text{   }\text{und}\text{   }\mathit{VAR}(\hat{\overline Y}_{\mathit{ES}})=4,33.$

Es wird sofort ersichtlich, dass $\mathit{VAR}(\hat{\overline Y}_D)<\mathit{VAR}(\hat{\overline Y}_{\mathit{ES}}).$ 

Durch obige Methode ist somit eine deutliche Reduktion der Varianz erreicht worden. Somit schwanken die Ausprägungen des Differenzenschätzers deutlich weniger um den Mittelwert $\overline Y=14.$ 

Zur Veranschaulichung stellen wir die Varianzreduktion beim Differenzenschätzer anschaulich dar.

Abb. 9: x-Achse: Primärinformation; y-Achse: Sekundärinformation
Abb. 9: x-Achse: Primärinformation; y-Achse: Sekundärinformation
Abb. 10: x-Achse: Stichprobe i, i=1,...,10; y-Achse: berechneter Schätzer für den Mittelwert.
Abb. 10: x-Achse: Stichprobe i, i=1,...,10; y-Achse: berechneter Schätzer für den Mittelwert.
Abb. 11: x-Achse: Stichprobe i=1,...,10 ; y-Achse: Schätzer für den Mittelwert.
Abb. 11: x-Achse: Stichprobe i=1,...,10 ; y-Achse: Schätzer für den Mittelwert.

Nach einigen Herleitungen ergibt sich folgende Gültigkeit:

Merke:

Merke

Es liege eine einfache Stichprobe von Sekundärinformationen $x_1,x_2,...,x_n$ vor. Die daran anlehnende Primärinformation seien gegeben durch}} $y_1,y_2,...,y_n.$ Der Mittelwert des Hilfsmerkmals in der Grundgesamtheit sei gegeben durch $\overline X.$  Dann ist der Differenzenschätzer: $\hat{\overline Y}_D=\overline X+\frac 1 n\sum _{i=1}^n(y_i-x_i)$ ein erwartungstreuer Schätzer für den Mittelwert $\overline Y.$

Die Varianz von $\hat{\overline Y}_D$ kann geschätzt werden durch: $\hat{\mathit{VAR}(\hat{\overline Y}_D)}=\frac{N-n} N\frac 1{n(n-1)}\sum _{i=1}^n\left[(y_i-x_i)-(\overline y-\overline x)\right]^2.$

Nun wird ein Vergleich der Eigenschaften des Differenzenschätzers $\hat{\overline Y}_D$ und des Schätzers der einfachen Stichprobe $\hat{\overline Y}_{\mathit{ES}}$ getätigt. Da $\overline d$ unverzerrt ist, ist auch $\hat{\overline Y}_D$ unverzerrt.
Unverzerrt in Bezug auf $\hat{\overline Y}_D$ heißt, dass $E\left(\hat{\overline Y}_D\right)-\overline Y=0.$ Für $\overline d$ gilt das Analoge.

Somit kann der wesentliche Unterschied nur in der Varianz liegen. Bei der Varianz des Differenzenschätzers $\hat{\overline Y}_D$ ist die Streuung des Merkmals D von großer Bedeutung. Andererseits ist bei der Varianz von $\overline Y_{\mathit{ES}}$ die Streuung von Y ausschlaggebend..

Abschließend halten wir (ohne Beweis) fest, dass die Varianz des Differenzenschätzers kleiner ist, wenn die Variation von die Variation von in der Population unterschreitet.

Durchführung einer Hochrechnung

Der Wahlanteil$P_Y$ einer Partei A soll festgestellt werden. Mit Y wird die Entscheidung des Wählers notiert. Dabei heißt $Y_i=1,$ dass der i-te Wähler die Partei A gewählt hat. Andernfalls ist $Y_i=0.$ Es wird eine Stichprobe vom Umfang n gezogen. Es ergeben sich die Beobachtungen $y_1,y_2,...,y_n.$ Wenn eine einfache Hochrechnung – ohne Berücksichtigung von Sekundärelementen- stattfindet, so ergibt sich als Schätzer $\hat P_Y=\overline y.$ Die Varianz ist dann $\mathit{VAR}(Y)=P_Y\frac{(1-P_Y)} n.$
Die betrachtete Population (Millionen von Wählern) ist sehr groß, so dass der Korrekturterm $\frac{N-n} n$ vernachläßigt werden kann.

Jetzt wird obiges Ergebnis mit dem der Differenzenschätzung verglichen. Zusätzlich zum obigen Merkmal Y wird nun ein zweites Merkmal X eingeführt. Dieses Merkmal gibt an, ob eine Person bei der letzten Wahl dieselbe Partei gewählt hat, wie dieses mal. Hier ist dies Partei A.

Hat sich das Wahlverhalten der Person nicht geändert, so ist $X_i=1$ und ansonsten gleich null also $X_i=0$. Das gesamte Wahlverhalten kann dann in folgender Tabelle zusammengefasst werden:

$Y_i=0$ $Y_i=1$ Σ
$X_i=0$ $P_{00}$ $P_{01}$ $1-P_X$
$X_i=1$ $P_{10}$ $P_{11}$ $P_X$

Σ

$1-P_Y$ $P_Y$

1

Es ist $P_{00}$ der Anteil der Wähler, die Partei A nicht gewählt haben das letzte mal und auch nicht vorhaben Partei A zu wählen. Entsprechend ist $P_{01}$ der Anteil der Wähler, die Partei A früher nicht gewählt haben aber vorhaben nun Partei A zu wählen. Mit $P_{10}$ wird der Anteil der Wähler dargestellt, die Partei A vormals wählten aber es zukünftig nicht vorhaben. Schließlich bezeichnet $P_{11}$ den Anteil der Wähler, welche beim letzten mal Partei A wählten und auch vorhaben dies dieses mal zu tun.

Da ein Ergebnis mit Hilfe des Differenzenschätzers berechnet werden soll, wird folgendes Merkmal definiert:

D = Y - X. Dessen Werte sind aufgrund vorheriger Definitionen: {-1;0;1}, mit den dazugehörigen Wahrscheinlichkeiten $P_{10},$  $P_{00}+P_{11}$ und $P_{01}.$

Um die Varianz des Differenzenschätzers bestimmen zu können, ist die Bestimmung der Varianz von D nötig. Dazu wird nun die Kovarianz von X und Y berechnet.

Es ist $S_{\mathit{XY}}:=\mathit{COV}(X,Y)=E(\mathit{XY})-E(X)E(Y)=P_{11}-P_XP_Y,$ da $E(X)=1\ast P_{X=1}+0\ast P_{X=0}=P_X$ bzw. $E(Y)=1\ast P_{Y=1}+0\ast P_{Y=0}=P_Y$ und $
E(\mathit{XY})=\sum _{i=0}^1\sum _{j=0}^1x_iy_jP(X=x_i,Y=y_j)=0\ast P_{00}+0\ast P_{10}+1\ast P_{01}+1\ast P_{11}=P_{11}.$

Unter Vernachlässigung des Korrekturterms ergibt sich die Varianz des Differenzenschätzers zu $
\mathit{VAR}(\hat{\overline Y})=\frac 1 n\left(\underbrace{P_Y(1-P_Y)}_{S^2_Y}+\underbrace{P_X(1-P_X)}_{S^2_X}-2\underbrace{(P_{11}-P_XP_Y)}_{S_{\mathit{XY}}}\right).$

Eine Varianzreduktion liegt vor, wenn im Vergleich zu $\hat P_Y$ gilt, dass $S_X^2\leqslant 2S_{\mathit{XY}}.$

Mit obiger Formel erhalten wir folgende Ungleichung: $P_X(1-P_X)\leqslant 2(P_{11}-P_XP_Y)\text{{\textless}={\textgreater}}(1-P_X)\leqslant 2(\frac{P_{11}}{P_X}-P_Y).$

Es ist hier $\frac{P_{11}}{P_X}$ der Anteil der Wiederwähler der Partei A. Im Falle, dass dieser groß ist, kommt es zu einer Varianzreduktion. Bei Unabhängigkeit der Ereignisse vorherige Wahl und zukünftige Wahl gilt $P_{11}=P_XP_Y,$ womit keine Varianzreduktion erreicht werden kann. Dies hat unmittelbar zur Konsequenz, dass die Sekundärinformation dann keinen wichtigen Stellenwert hat.

Beispiel (Hochrechnung)

Beispiel

Eine Zufallsstichprobe von n = 1000 Personen ergab folgende Werte:

$Y_i=0$

$Y_i=1$

Σ

$X_i=0$

570

10

580

$X_i=1$

80

340

420

Σ

650

350

1000

Die Sekundärinformation ist die, dass man weiß wie das damalige Ergebnis war, nämlich 40 % haben für Partei A gestimmt. Also war $P_X=0,4.$ Das 95 % -Konfidenzintervall für die Wahlprognose $P_Y$ werden wir nun berechnen:

Zunächst werden wir prüfen, welches Kochrezept angewendet werden kann. Es ist nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit gefragt. Das „Baumschema“ führt uns sofort zu Kochrezept 6.

  1. SchrittDas Konfidenzniveau ist gegeben durch: $1-\alpha =95\text{%}.$ Damit liegt das Signifikanzniveau bei 5%.

  2. Schritt: Dann ist $1-\frac{0,05} 2=0,975.$

  3. Schritt: Das arithmetische Mittel ist gegeben durch: 0,35.

  4. Schritt: Das 0,975-Fraktil z der N(0;1) Verteilung ist gegeben durch: z=1,96.

    • Es liegt Fall a) vor, weil die Grundgesamtheit binomialverteilt ist.
    • Zudem gilt: $1000\ast 0,35=350\geqslant 5\text{   }\text{und}\text{   }1000\ast 0,35=350\leqslant 995.$
  5. Schritt: Als Schätzung für die Standardabweichung erhält man den Wert $\hat{\sigma }=\sqrt{\overline x(1-\overline x)}=\sqrt{0,35\ast (1-0,35)}=0,48.$

  6. Schritt: Die halbe Breite des Konfidenzintervalls ist gegeben durch: $\frac{0,48\ast 1,96}{\sqrt{1000}}\approx 0,03.$

  7. Schritt: Schließlich folgt für das Konfidenzintervall der vorliegenden Stichprobe:
    $\mathit{KI}=[0,35-0,03;0,35+0,03]=[0,32;0,38].$

Wenn nun die bekannte Information X (der Wähleranteil lag bei der letzten Wahl bei $P_X=0,4\text )$ ausgenutzt wird, so ergibt sich als Differenzenschätzer: $\hat{\overline Y}=0,35+(0,4-0,42)=0,33.$

Aus der beobachteten Verteilung von $d_k=y_k-x_k$ kann die Varianz geschätzt werden.

Die Größe $d_k=-1$ wird angenommen, wenn $Y=0\text{  }\text{und}\text{  }X=1.$ Anhand obiger Tabelle sehen wir, dass dies nur 80 mal geschehen kann. Genau so stellen wir fest, dass die Größe $d_k=0$ dann angenommen wird, wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1. Also geschieht dies 570 + 340 = 910 mal. Letztlich wird uns auch klar, dass der Wert $d_k=1$ nur dann realisiert wird, wenn Y = 1 und X = 0, d.h. 10 mal.

Zusammenfassend schreiben wir dies in eine Tabelle auf:

$d_k$

-1

0

1

Häufigkeit

80

910

10

Jetzt werden wir ein Konfidenzintervall für den Schätzer $\hat{\overline Y}_D$ bestimmen. Es ist ein Konfidenzintervall für die Wahlprognose gesucht. Die Grundgesamtheit ist nun beliebig verteilt mit n = 1000. Also kann Kochrezept 5 angewendet werden.

  1. SchrittDas Konfidenzniveau ist gegeben durch: $1-\alpha =95\text{%}\Leftrightarrow \alpha =0,05.$

  2. Schritt: Dann ist $1-\frac{0,05} 2=0,975.$

  3. SchrittDas 0,975-Fraktil z der N(0;1) Verteilung ist gegeben durch: z=1,96.

    Nach Voraussetzung gilt n>30.

  4. Schritt: Das arithmetische Mittel ist gegeben durch: $\overline d=\frac{-1\ast 80+0\ast 910+1\ast 10}{1000}=-0,07.$ Da die Varianz in der Grundgesamtheit nicht bekannt ist, berechnen wir die Größe $\hat{\sigma }^2=\sum _{i=1}^{1000}\frac{(d_i-\overline d)^2}{1000-1}=\sum _{i=1}^{1000}\frac{(d_i-\overline d)^2}{999}.$
    Es ist $\hat{\sigma }^2=\sum _{i=1}^{1000}\frac{(d_i-\overline d)^2}{1000-1}=\frac{80\ast (-1+0,07)^2+910\ast (0+0,07)^2+10\ast (1+0,07)^2}{999}\approx 0,085.$

  5. Schritt: Für die halbe Breite des Konfidenzintervalls erhalten wir: $\frac{\sqrt{0,085}\ast 1,96}{\sqrt{1000}}\approx 0,018.$

  6. Schritt: Das Konfidenzintervall der vorliegenden Stichprobe ist somit:
    $\mathit{KI}=[0,33-0,018;0,33+0,018]=[0,312;0,348].$

Aufgaben zur Differenzenschätzung

Aufgabe 1:

Es hat eine Wahl stattgefunden. Nun möchte man eine Hochrechnung durchführen. Diesbezüglich werden 2000 Personen befragt. Dabei haben sich folgende Werte ergeben:

Von den insgesamt 2000 befragten Personen gaben 500 Personen an die Partei W gewählt zu haben. Demgegenüber äußerten 1500 Wähler, dass sie mit der Partei W vollkommen unzufrieden waren und sie diesmal nicht wählten.

Von den 500 Befürwortern der Partei W äußerten nur 100, dass sie die Partei bei der letzten Wahl nicht gewählt haben. Man erfuhr zudem, dass bei den 1500 Wählern, welche die Partei W ablehnten, nur 150 sie das vorherige mal gewählt haben und der Rest auch das vorherige mal nicht..

Eine weitere Information ist die, dass man weiß wie das damalige Ergebnis war, nämlich 35 % haben für Partei W gestimmt. Berechnen Sie das 95 % -Konfidenzintervall für die Wahlprognose $P_Y:$

  1. ohne Berücksichtigung der Sekundärinformation

  2. mit Berücksichtigung der Sekundärinformation.

Lösung:

Zunächst werden die relevanten Größen in Form einer Tabelle dargestellt.

Dann ergibt sich folgende Übersicht:

$Y_{i}=0$

$Y_{i}=1$

$X_{i}=0$

1350

100

1450

$X_{i}=1$

150

400

550

1500

500

2000

Anhand der gegebenen Sekundärinformation wird sofort klar, dass $P_X = 0,35$.

Zu a):

Wir prüfen, welches Kochrezept angewendet werden kann.

Es ist nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit gefragt.

Das „Baumschema“ führt uns dann zu Kochrezept 6.

  1. Schritt: Das Konfidenzniveau ist gegeben durch: $1-\alpha =95\text{\%}\text{{\textless}={\textgreater}}\alpha =0,05.$

  2. Schritt: Dann ist: $1-\frac{0,05} 2=0,975.$

  3. Schritt: Das arithmetische Mittel ist gegeben durch: $\frac{500}{2000}=0,25.$

  4. Schritt: Das 0,975-Fraktil z der N(0;1) Verteilung ist gegeben durch: $z\approx 1,96.$

    • Es liegt Fall a) vor, weil die Grundgesamtheit binomialverteilt ist.
    • Zudem gilt: $2000\ast 0,25=500\geqslant 5\text{   }\text{und}\text{   }2000\ast 0,25=500\leqslant 1995.$
  5. Schritt: Als Schätzung für die Standardabweichung erhält man den Wert $\hat{\sigma }=\sqrt{\overline x(1-\overline x)}=\sqrt{0,25\ast (1-0,25)}\approx 0,43.$

  6. Schritt: Die halbe Breite des Konfidenzintervalls ist gegeben durch: $\frac{\sqrt{1/4\ast 3/4}\ast 1,96}{\sqrt{2000}}=\frac{\sqrt{3/16}\ast 1,96}{\sqrt{2000}}\approx 0,02.$

  7. Schritt: Schließlich folgt für das Konfidenzintervall der vorliegenden Stichprobe:
    $\mathit{KI}=[0,25-0,02;0,25+0,02]=[0,23;0,27].$

Zu b):

Wenn nun die bekannte Information X (der Wähleranteil lag bei der letzten Wahl bei $P_X=0,35\text )$ ausgenutzt wird, so ergibt sich als Differenzenschätzer $\hat{\overline Y}_D=0,25+(0,35-0,275)=0,325.$

Aus der beobachteten Verteilung von $d_k=y_k-x_k$ kann die Varianz geschätzt werden.

Die Größe $d_k=-1$ wird angenommen, wenn $Y=0\text{  }\text{und}\text{  }X=1.$ Anhand obiger Tabelle stellen wir fest , dass dies nur 150 mal geschehen kann.

Gleichermaßen sehen wir, dass die Größe $d_k=0$ dann angenommen wird, wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1. Dies tritt 1350 + 400 = 1750 mal ein.

Schließlich wird uns auch klar, dass der Wert $d_k=1$ nur dann realisiert wird, wenn Y = 1 und X = 0, d.h. 100 mal.

Zusammenfassend schreiben wir dies in eine Tabelle auf:

$d_k$

-1

0

1

Häufigkeit

150

1750

100

Nun werden wir ein Konfidenzintervall für den Schätzer $\hat{\overline Y}_D$ bestimmen.

Gesucht ist ein Konfidenzintervall für die Wahlprognose. Die Grundgesamtheit ist nun beliebig verteilt mit n = 2000. Also kann Kochrezept 5 angewendet werden.

  1. Schritt: Das Konfidenzniveau ist gegeben durch: $1-\alpha =95\text{%}\Leftrightarrow \alpha =0,05.$

  2. Schritt: Dann ist: $1-\frac{0,05} 2=0,975.$

  3. Schritt: Das 0,975-Fraktil z der N(0;1) Verteilung ist gegeben durch: $z\approx 1,96.$

    Nach Voraussetzung gilt n>30.

  4. Schritt: Das arithmetische Mittel ist gegeben durch: $\overline d=\frac{-1\ast 150+0\ast 1750+1\ast 100}{2000}=-0,025.$ Da die Varianz in der Grundgesamtheit nicht bekannt ist, berechnen wir die Größe $\hat{\sigma }^2=\sum _{i=1}^{2000}\frac{(d_i-\overline d)^2}{2000-1}=\sum _{i=1}^{2000}\frac{(d_i+0,025)^2}{1999}.$ Es ist
    $\hat{\sigma }^2=\sum _{i=1}^{2000}\frac{(d_i-\overline d)^2}{2000-1}=\frac{150\ast (-1+0,025)^2+1750\ast (0+0,025)^2+100\ast (1+0,025)^2}{1999}\approx 0,124.$

  5. Schritt: Für die halbe Breite des Konfidenzintervalls erhalten wir: $\frac{\sqrt{0,124}\ast 1,96}{\sqrt{2000}}\approx 0,015.$

  6. Schritt: Das Konfidenzintervall der vorliegenden Stichprobe ist somit:
    $\mathit{KI}=[0,325-0,015;0,325+0,015]=[0,31;0,34].$

Aufgabe 2:

Nach einer Parlamentswahl möchte man nun unmittelbar eine Hochrechnung durchführen. Diesbezüglich werden 30000 Personen befragt. Dabei haben sich folgende Werte ergeben:

Von den insgesamt 30000 befragten Personen gaben 25000 Personen an die Partei T gewählt zu haben. Andererseits äußerten 5000 Wähler, dass sie mit der Partei T vollkommen unzufrieden waren und sie somit dieser Partei nicht ihre Stimme gaben.

Von den 25000 Befürwortern der Partei T äußerten alle 25000, dass sie die Partei bei der letzten Wahl auch gewählt haben. Man erfuhr zudem, dass bei den 5000 Wählern, welche die Partei T ablehnten, alle 5000 sie das vorherige mal gewählt haben.

Eine weitere Information ist die, dass man weiß wie das damalige Ergebnis war, nämlich 48 % haben für Partei T gestimmt. Berechnen Sie das 95 % -Konfidenzintervall für die Wahlprognose $P_Y:$

  1. ohne Berücksichtigung der Sekundärinformation

  2. mit Berücksichtigung der Sekundärinformation.

Lösung:

Auch hier werden die relevanten Größen in Form einer Tabelle dargestellt.

Dann ergibt sich folgende Übersicht:

$Y_i = 0$

$Y_i = 1$

$X_i = 0$

0

0

0

$X_i = 1$

5000

25000

30000

5000

25000

30000

Die Sekundärinformation ist, dass $P_X = 0,7.$

Zu a):

Wir stellen uns die Frage, welches Kochrezept angewendet werden kann.

Es ist nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit gefragt.

Mit dem „Baumschema“ gelangen wir dann zu Kochrezept 6.

  1. Schritt: Das Konfidenzniveau ist gegeben durch: $1-\alpha =95\text{%}\Leftrightarrow \alpha =0,05.$

  2. Schritt: Dann ist: $1-\frac{0,05} 2=0,975.$

  3. Schritt: Das arithmetische Mittel ist gegeben durch: $\frac{25000}{30000}\approx 0,83.$

  4. Schritt: Das 0,975-Fraktil z der N(0;1) Verteilung ist gegeben durch: $z\approx 1,96.$

    • Es liegt Fall a) vor, weil die Grundgesamtheit binomialverteilt ist.
    • Zudem gilt: $30000\ast 0,83=24900\geqslant 5\text{   }\text{und}\text{   }2000\ast 0,83=24900\leqslant 24995.$
  5. Schritt: Als Schätzung für die Standardabweichung erhält man den Wert $\hat{\sigma }=\sqrt{\overline x(1-\overline x)}=\sqrt{0,83\ast (1-0,83)}\approx 0,38.$

  6. Schritt: Die halbe Breite des Konfidenzintervalls ist gegeben durch: $\frac{\sqrt{(5/30)\ast (5/6)}\ast 1,96}{\sqrt{30000}}\approx 0,0042.$

  7. Schritt: Schließlich folgt für das Konfidenzintervall der vorliegenden Stichprobe:
    $\mathit{KI}=[0,83-0,0042;0,83+0,0042]=[0,8258;0,8342].$

Zu b):

Wenn nun die bekannte Information X (der Wähleranteil lag bei der letzten Wahl bei $P_X=0,48\text )$ ausgenutzt wird, so ergibt sich als Differenzenschätzer:
$\hat{\overline Y}=0,83+(0,7-1)=0,53.$

Aus der beobachteten Verteilung vonkann die Varianz geschätzt werden.

Die Größe $d_k=-1$ wird angenommen, wenn $Y=0\text{  }\text{und}\text{  }X=1.$ Anhand obiger Tabelle stellen wir fest , dass dies nur 5000 mal geschehen kann.

Gleichermaßen sehen wir, dass die Größe $d_k=0$ dann angenommen wird, wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1. Dies tritt 25000 mal ein.

Schließlich wird uns auch klar, dass der Wert $d_k=1$ nur dann realisiert wird, wenn Y = 1 und X = 0, d.h. 0 mal.

Zusammenfassend schreiben wir dies in eine Tabelle auf:

$d_k$

-1

0

1

Häufigkeit

5000

25000

0

Nun werden wir ein Konfidenzintervall für den Schätzer $\hat{\overline Y}_D$ bestimmen.

Gesucht ist ein Konfidenzintervall für die Wahlprognose. Die Grundgesamtheit ist nun beliebig verteilt mit n = 30000. Also kann Kochrezept 5 angewendet werden.

  1. Schritt: Das Konfidenzniveau ist gegeben durch: $1-\alpha =95\text{%}\Leftrightarrow \alpha =0,05.$

  2. Schritt: Dann ist: $1-\frac{0,05} 2=0,975.$

  3. Schritt: Das 0,975-Fraktil z der N(0;1) Verteilung ist gegeben durch: $z\approx 1,96.$

    Nach Voraussetzung gilt: $n\text{{\textgreater}}30.$

  4. Schritt: Das arithmetische Mittel ist gegeben durch: $\overline d=\frac{-1\ast 5000+0\ast 25000+1\ast 0}{30000}=-0,16.$

    Da die Varianz in der Grundgesamtheit nicht bekannt ist, berechnen wir die Größe $\hat{\sigma }^2=\sum _{i=1}^{30000}\frac{(d_i-\overline d)^2}{30000-1}=\sum _{i=1}^{30000}\frac{(d_i+0,16)^2}{29999}.$
    Es ist $\begin{gathered}\hat{\sigma }^2=\sum _{i=1}^{30000}\frac{(d_i-\overline d)^2}{30000-1}=\frac{5000\ast (-1+0,16)^2+25000\ast (0+0,16)^2+0\ast (1+0,16)^2}{29999}\\\text{    }\text =\frac{3528+640+0}{29999}\approx 0,1389. \end{gathered}$

  5. Schritt: Für die halbe Breite des Konfidenzintervalls erhalten wir: $\frac{\sqrt{0,1389}\ast 1,96}{\sqrt{30000}}\approx 0,0042.$

  6. Schritt: Das Konfidenzintervall der vorliegenden Stichprobe ist somit:
    $\mathit{KI}=[0,53-0,0042;0,53+0,0042]=[0,5258;0,5342].$

Multiple-Choice

Was lässt sich über die Stichprobe des Untersuchungsmerkmals X und des Hilfsmerkmals Y aussagen?

0/0
Lösen

Hinweis:

Bitte kreuzen Sie die richtigen Aussagen an. Es können auch mehrere Aussagen richtig oder alle falsch sein. Nur wenn alle richtigen Aussagen angekreuzt und alle falschen Aussagen nicht angekreuzt wurden, ist die Aufgabe erfolgreich gelöst.

Bild von Autor Daniel Lambert

Autor: Daniel Lambert

Dieses Dokument Differenzenschätzung ist Teil eines interaktiven Online-Kurses zum Thema Stichprobentheorie.

Dipl.-Math. Dipl.-Kfm. Daniel Lambert gibt seit vielen Jahren Kurse zur Prüfungsvorbereitung. Er unterrichtet stets orientiert an alten Prüfungen und weiß aus langjähriger Erfahrung, wie sich komplexe Sachverhalte am besten aufbereiten und vermitteln lassen. Daniel Lambert ist Repetitor aus Leidenschaft seit nunmehr 20 Jahren.
Vorstellung des Online-Kurses StichprobentheorieStichprobentheorie
Dieser Inhalt ist Bestandteil des Online-Kurses

Stichprobentheorie

wiwiweb - Interaktive Online-Kurse (wiwiweb.de)
Diese Themen werden im Kurs behandelt:

[Bitte auf Kapitelüberschriften klicken, um Unterthemen anzuzeigen]

  • Übersicht über auftretende Symbole
    • Einleitung zu Übersicht über auftretende Symbole
  • Schätzen
    • Schätzfunktionen
      • Einleitung zu Schätzfunktionen
      • Aufgaben, Beispiele und Berechnungen zu Schätzfunktionen
    • Eigenschaften von Schätzfunktionen
      • Einleitung zu Eigenschaften von Schätzfunktionen
      • Aufgaben, Beispiele und Berechnungen zur Erwartungstreue
    • Asymptotische Erwartungstreue
    • Effizienz
    • Konsistenz
    • Konfidenzintervalle
      • Einleitung zu Konfidenzintervalle
      • Vorgehensweisen, Kochrezepte zur Bestimmung des entsprechenden Konfidenzintervalls
      • Anwendung der Kochrezepte auf Beispiele
      • Aufgaben, Berechnungen und Beispiele zu Konfidenzintervallen
      • Notwendiger Stichprobenumfang
  • Testtheorie
    • Einleitung zu Testtheorie
    • Signifikanztests bei einfachen Stichproben
    • Mehrstichprobentests bei unabhängigen Stichproben
    • Tests bei zwei verbundenen Stichproben
    • Fehlerarten
    • Hypothesenauswahl
      • Einleitung zu Hypothesenauswahl
      • Funktionsweise eines Tests am Beispiel des Einstichproben-Gaußtests
    • Testverteilungen
  • Hochrechnung
    • Einleitung zu Hochrechnung
    • Differenzenschätzung
      • Einleitung zu Differenzenschätzung
      • Verhältnisschätzung (Quotientenschätzer)
    • Klumpen und geschichtete Stichproben
      • Einleitung zu Klumpen und geschichtete Stichproben
      • Geschichtete Stichproben
        • Einleitung zu Geschichtete Stichproben
        • Aufgaben, Beispiele und Berechnungen zu geschichteten Stichproben
      • Wahl des Stichprobenumfangs
  • Regressionsrechnung (Regressionsschätzer)
    • Einleitung zu Regressionsrechnung (Regressionsschätzer)
  • Gemischte Übungsaufgaben zur Stichprobentheorie (Aufgaben 1 bis 5)
    • Einleitung zu Gemischte Übungsaufgaben zur Stichprobentheorie (Aufgaben 1 bis 5)
    • Aufgaben 6 bis 10 zur Stichprobentheorie
    • Aufgaben 11 bis 15 zur Stichprobentheorie
    • Aufgaben 16 bis 20 zur Stichprobentheorie
    • Aufgaben 21 bis 25 zur Stichprobentheorie
    • Aufgaben 26 bis 30 zur Stichprobentheorie
    • Aufgaben 31 bis 35 zur Stichprobentheorie
    • Aufgaben 36 bis 40 zur Stichprobentheorie
    • Aufgaben 41 bis 45 zur Stichprobentheorie
    • Aufgaben 46 bis 50 zur Stichprobentheorie
    • Aufgaben 51 bis 55 zur Stichprobentheorie
  • 40
  • 24
  • 144
  • 21
einmalig 49,00
umsatzsteuerbefreit gem. § 4 Nr. 21 a bb) UStG
Online-Kurs Top AngebotTrusted Shop

Unsere Nutzer sagen:

  • Gute Bewertung für Stichprobentheorie

    Ein Kursnutzer am 28.12.2015:
    "sehr gut erklärt und vorgelesen "

  • Gute Bewertung für Stichprobentheorie

    Ein Kursnutzer am 04.07.2015:
    "super kurs"

NEU! Sichere dir jetzt die perfekte Prüfungsvorbereitung und spare 10% bei deiner Kursbuchung!

10% Coupon: lernen10

Zu den Online-Kursen