Kursangebot | Stichprobentheorie | Differenzenschätzung

Stichprobentheorie

Differenzenschätzung

Auszugehen ist davon, dass für das im Interesse stehende Merkmal Y noch ein Hilfsmittel X gegeben ist. Aus diesem Grund muss der Populationsmittelwert Y geschätzt werden, wenngleich der Mittelwert der Population X gegeben ist. Auszugehen ist auch davon, dass zwischen den beiden Merkmalen kaum Unterschiede bestehen. Das bedeutet soviel wie, dass eine geringe Streuung aufgrund der geringen Differenz zu vernehmen ist. Anders formuliert: X und Y weisen ähnliche Werte auf.

Das weitere Vorgehen in den Untersuchungen zielt auf das Merkmal: D = Y - X.

Auf der Grundlage der gegebenen Stichprobe, werden die zwei Merkmale erhoben und der Mittelwert folgendermaßen geschätzt:

Ebenso gilt gleichermaßen der Zusammenhang:

Durch die Schätzung von durch resultiert eine Schätzung für

Schlussendlich erhält man den Differenzenschätzer 

 

Merke

Hier klicken zum Ausklappen

Zu beachten sei an diesem Punkt, dass der aus der Grundgesamtheit gegebene Mittelwert neben der Schätzung der Differenz zu berücksichtigen ist.

Mithilfe der notwendigen Umformulierung gelangen wir zu der folgenden Interpretation des Differenzschätzers:


Die erhaltene Schätzung (ohne Zusatzinformationen) wird folglich um die Abweichung   zwischen der Stichprobe und Grundgesamtheit um das Merkmal X überarbeitet.

Das folgende Beispiel soll die Funktionsweise eines Differenzschätzers verdeutlichen:

 

Beispiel

Hier klicken zum Ausklappen

Es liegt eine Grundgesamtheit mit den folgenden Primär- und Sekundärinformationen vor:

Primärinformationen: 

Sekundärinformationen:

Für das arithmetische Mittel ist gegeben:  und Daraus ergibt sich: und

Wir gehen davon aus, dass uns zwar das arithmetische Mittel bekannt ist, welches berechnet wurde, jedoch die Stichprobenwerte unbekannt sind, da noch keine Stichprobe genommen wurde.
Demnach starten wir von Anfang an, indem zunächst die obigen Werte aus der Stichprobe entnommen werden. Der Stichprobenumfang soll n = 3 betragen. Für D = Y - X resultieren folgende Werte:


Die Berechnung des ersten Werts erfolgt ausführlich. Demnach ist es:

Es bestehen Möglichkeiten eine dreielementige Teilmenge aus einer 10-elementigen Obermenge zu schaffen, ohne dass die Reinfolge zu beachten ist oder zurückgelegt werden muss.

Stichprobe

Entnommene Werte in Bezug auf die Indizes

1

1 3 2

-1

15

14

2

1 4 2

-2

15

13

3

1 5 2

-2/3

15

14,33

4

1 4 3

-5/3

15

13,33

5

1 5 3

-1/3

15

14,66

6

1 5 4

-4/3

15

13,66

7

2 4 3

-4/3

15

13,66

8

2 5 3

0

15

15

9

2 5 4

-1

15

14

10

3 5 4

-2/3

15

14,33

  

 

Somit stellt sich heraus, dass es sich um einen erwartungstreuen Differenzschätzer handelt für weil

Somit ist es:

Aus der Tabelle geht hervor, dass
Für die Varianz von resultiert der folgende Wert:

Für die Varianz ergibt sich somit eindeutig:

Stichprobe

Entnommene Werte in Bezug auf die Indizes

1

1 3 2

9

10

13,87

2

1 4 2

10

12,33

13,43

3

1 5 2

11

12,33

13,43

4

1 4 3

18

12,67

13,43

5

1 5 3

22

14

13,43

6

1 5 4

 

16,33

13,43

7

2 4 3

 

13

13,43

8

2 5 3

 

14,33

13,43

9

2 5 4

 

16,67

13,43

10

3 5 4

 

17

13,43




Verglichen werden nun die zwei berechneten Varianzen


Es wird direkt deutlich, dass

Mit Hilfe der oberen Methode konnte eine deutliche Reduktion der Varianz erzielt werden. Die Ausprägungen des Differenzschätzers variiert demnach wesentlich geringer in Bezug auf den Mittelwert  

Die Varianzreduktion beim Differenzenschätzer wird hier visuell dargestellt:

Abb. 9: x-Achse: Primärinformation; y-Achse: Sekundärinformation
Abb. 10: x-Achse: Stichprobe i, i=1,...,10; y-Achse: berechneter Schätzer für den Mittelwert.
Abb. 11: x-Achse: Stichprobe i=1,...,10 ; y-Achse: Schätzer für den Mittelwert.



Die folgende Gültigkeit resultiert aus den vorhergegangen Herleitungen:

Merke

Hier klicken zum Ausklappen

Gegeben ist eine einfache Stichprobe von Sekundärinformationen Die anlehnenden Primärinformationen liegen vor: }} Gegeben ist auch der Mittelwert des Hilfsmerkmals in der Grundgesamtheit durch: Der Differenzenschätzer erweist sich dann als ein erwartungstreuer Schätzer für den Mittelwert

Durch kann die Varianz von geschätzt werden.

Die Eigenschaften des Differenzenschätzers und des Schätzers der einfachen Stichprobe werden miteinander verglichen. Als unversehrt erweisen sich sowohl als auch . Das „unverzerrt“ bezieht sich auf und bedeutet, dass für das Analoge gilt.

Das bedeutet, dass erhebliche Unterschiede in der Varianz vorliegen können. Die Streuung des Merkmals D ist für die Varianz des Differenzenschätzers von entscheidender Bedeutung. Auch ist die Streuung von Y bei der Varianz von ausschlaggebend.

Trotz fehlender Beweise kann schlussendlich festgehalten werden, dass wenn die Variation von D die Variation von Y in der Population unterschreitet, die Varianz des Differenzenschätzers geringer ist.

Durchführung einer Hochrechnung

Zu ermitteln ist der Wahlanteil der Partei Neo. Die Wahlentscheidung des Wählers wird mit Y kenntlich gemacht. Somit bedeutet dass jeder i-te die Partei Neo wählte. Im anderen Fall Es wird ein Stichprobenumfang von n entnommen. Daraus resultieren die Beobachtungen Im Falle einer einfachen Hochrechnung (ohne, dass Sekundärelemente berücksichtigt werden) ergibt sich als Schätzer Die Varianz entspricht dann

Der Korrekturterm  kann aus dem Grund außen vor gelassen werden, da es sich um eine sehr große Bevölkerung handelt (Tausende von Wählern).

Verglichen wird nun die Differenzschätzung mit dem oberen Ergebnis. Dabei kommt noch ein zusätzliches Merkmal X zu dem obigen Merkmal Y hinzu. An diesem Merkmal wird ersichtlich, ob eine Person auch schon bei der letzten Wahl für die Partei Neo stimmte.

Wenn festgestellt wird, dass sich das Wahlverhalten der Version nicht verändert hat, dann ist es . Falls es sich verändert, ist es gleich null und demnach .

Zusammengefasst werden kann dann das Wahlverhalten in dieser Tabelle:

    
 Σ

Σ

1


Der Anteil der Wähler, welche die Partei Neo nicht gewählt haben und das auch dieses mal nicht vorhaben, werden mit beschrieben.

Der Anteil der Wähler, welche die Partei Neo beim letzten mal nicht gewählt haben, es jedoch dieses mal vorhaben, werden mit beschrieben.

Der Anteil der Wähler, welche die Partei Neo bereits beim letzten mal gewählt haben, es aber dieses mal nicht vorhaben, werden mit beschrieben.

Der Anteil der Wähler, welche die Partei Neo das letzte mal wählten und es auch wieder vorhaben, werden mit beschrieben.

Das Merkmal D = Y - X wird beschrieben, weil das Ergebnis mit Hilfe des Differenzenschätzers zu berechnen ist.

Werte aufgrund vorheriger Definition {-1;0;1}, mit den entsprechenden Wahrscheinlichkeiten   und

Die Bestimmung der Varianz D ist notwendig, damit die Varianz des Differenzenschätzers zu bestimmen ist.

Ermittelt wird nun die Kovarianz von X und Y. Somit ist es da bzw. und

Mittels der oberen Formel erhalten wir die Ungleichung:

Der Anteil der Wähler, welche wiederholt die Partei Neo wählten, entspricht hier Falls diese zu groß ist, wird eine Reduktion der Varianz vorgenommen. Bei Unabhängigkeit der Ergebnisse der letzten und zukünftigen Wahl gilt: Dabei ist keine Varianzreduktion zu erzielen. Die Konsequenz ist die, dass die Sekundärinformation zweitrangig wird.

Beispiel (Hochrechnung)

Beispiel

Hier klicken zum Ausklappen

Folgende Werte kamen bei der Zufallsstichprobe von n = 1000 Personen raus:

 

Σ

570

10

580

80

340

420

Σ

650

350

1000

Die Werte des damaligen Ergebnisses ergeben die Sekundärinformation. Dabei wird deutlich, dass 40 % für die Partei Neo gestimmt haben, demnach
Ermittelt wir nun das 95 % -Konfidenzintervall der Wahlprognose

Dazu muss erst einmal das richtige Schema ausgewählt werden. Gefragt ist der Anteil eines Dichotomien Merkmals in der Grundgesamtheit. Das „Baumschema“ gibt uns Auskunft darüber, dass das Schema 6 anzuwenden ist.

  1. Das Konfidenzniveau liegt vor: Das Signifikanzniveau beträgt 5%.

  2. Weiter ist

  3. Das arithmetische Mittel liegt vor durch: 0,35.

  4. Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch: z=1,96.
    Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
    Des Weiteren gilt:

  5. Der Wert der geschätzten Standardabweichung ist:

  6. Die halbe Breite des Konfidenzintervalls liegt vor durch:

  7. Für das Konfidenzintervall der vorliegenden Stichprobe folgt schlussendlich:


Im Falle dessen, dass die gegebene Information X, welche dem Wähleranteil der damaligen Wahl entspricht, verwendet wird, haben wir einen Differenzschätzer von:

Die Varianz kann aus der beobachteten Verteilung von geschätzt werden.

Wenn wird die Größe angenommen. Die obige Tabelle zeigt uns an, dass das nur 80 mal passieren kann. Es kann dann ebenso festgestellt werden, dass wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1, die Größe angenommen wird. Geschehen tut dies dann: 570 + 340 = 910 mal. Es wird jedoch auch deutlich, dass der Wert nur dann realistisch sein kann, wenn Y = 1 und X = 0, d.h. 10 mal ist.

Wir halten das in der Tabelle fest:

 

-1

0

1

Häufigkeit

80

910

10

Bestimmt werden soll nun ein Konfidenzintervall für den Schätzer
Gesucht ist ein Konfidenzintervall für die Wahlprognose. Es handelt sich dabei um eine beliebig verteilte Grundgesamtheit von n = 1000, weswegen Schema 5 anzuwenden ist.

  1. Das Konfidenzniveau liegt vor durch:

  2. Folglich ist

  3. Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch: z=1,96.
    Nach Voraussetzung gilt n>30.

  4. Das arithmetische Mittel liegt vor durch: Da die Varianz in der Grundgesamtheit nicht bekannt ist, berechnen wir die Größe
    Es ist

  5. Für die halbe Breite des Konfidenzintervalls bekommen wir:

  6. Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:

Übungsaufgaben zur Differenzenschätzung

1. Aufgabe:

Nachdem die Wähler ihre Stimmen abgegeben haben, soll eine Hochrechnung durchgeführt werden. Dazu werden 2000 Personen befragt. Daraus haben sich folgende Informationen ergeben:

  • Von den 2000 Personen äußerten sich 500 Personen, dass sie für Partei R stimmten, wohingegen 1500 Personen angaben, mit der Partei R nicht zufrieden gewesen zu sein, weswegen sie diese nicht noch einmal wählen würden.

  • Von den 500 Personen, welche für die Partei R stimmten, gaben 100 Personen an, dass sie bei der vorherigen Wahl nicht für diese gestimmt haben.

  • Außerdem erhielt man die Information, dass von den 1500 Wählern, welche mit der Partei R unzufrieden seien, nur 150 Personen diese bei der letzten Wahl gewählt haben.

  • Des Weiteren liegt die Information über das damalige Ergebnis vor, das besagt, dass 35 % für die Partei R gestimmt haben.

Zu berechnen ist nun das 95 % -Konfidenzintervall für die Wahlprognose

1. Ohne den Einbezug der Sekundärinformation.

2. Mit Einbezug der Sekundärinformation.

Vertiefung

Hier klicken zum Ausklappen
Lösung:

Zu Beginn werden zugunsten der Übersicht, die wichtigsten Größen in einer Tabelle festgehalten:

 

 

1350

100

1450

150

400

550

 

1500

500

2000

Aufgrund der vorliegenen Sekundärinformation wird sofort deutlich, dass .

 

Zu 1.:

Zu Beginn ist zu ermitteln, welches Schema anzuwenden ist.
Gefragt ist nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit.
Das „Baumschema“ macht deutlich, dass Schema 6 anzuwenden ist.

 

  1. Das Konfidenzniveau liegt vor durch:

  2. Folglich ist:

  3. Das arithmetische Mittel liegt vor durch:

  4. Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch:
    Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
    Wesweiteren gilt:

  5. Als Wert für die geschätzte Standardabweichung erhalten wir

  6. Die halbe Breite des Konfidenzintervalls liegt vor durch:

  7. Für das Konfidenzintervall der vorliegenden Stichprobe folgt schlussendlich:

 

Zu 2.

Im Falle dessen, dass die gegebene Information X, welche den Wähleranteil der letzten Wahl angibt, verwendet wird, erhalten wir den Differenzenschätzer

Die Varianz kann aus der beobachteten Verteilung von   geschätzt werden.

Falls wird von der Größe ausgegangen. Die obige Tabelle verdeutlicht, dass es dazu nur 150 mal kommen kann.

Außerdem wird ersichtlich, dass dann von der Größe ausgegangen wird, wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1. Das kommt 1350 + 400 = 1750 mal vor.

Offensichtlich wird dann auch, dass der Wert durchführbar ist, wenn Y = 1 und X = 0, d.h. 100 mal.


Anschließend wird dies in eine Tabelle übertragen:

-1

0

1

Häufigkeit

150

1750

100

Des Weiteren ist nun ein Konfidenzintervall für den Schätzer zu ermitteln.
Ein Konfidenzintervall für die Wahlprognose ist gesucht. Es handelt sich um eine beliebig verteilte Grundgesamtheit von n = 2000. Demnach ist Schema 5 anzuwenden. 

 

  1. Das Konfidenzniveau liegt vor durch:

  2. Folglich ist:

  3. Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch:
    Nach Voraussetzung gilt: n>30.

  4. Das arithmetische Mittel liegt vor durch:
    Aufgrund der unbekannten Varianz in der Grundgesamtheit, wird die Größe berechnet Es ist


  5. Für die halbe Breite des Konfidenzintervalls bekommen wir:

  6. Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:

2. Aufgabe:

Am Sonntag kam es zu einer Landratswahl im Kreis Südwestfalen Lippe , wozu eine unmittelbare Hochrechnung durchgeführt werden soll.
Dazu wurden 30000 Leute befragt, für wen sie stimmten.
Es kamen folgende Werte zustande:

  • Von den 30000 befragten gaben 25000 Personen an, für den Landrat X gestimmt zu haben. Auf der anderen Seite gaben 5000 Personen an, dass sie mit dem Landrat X unzufrieden waren und diesen nicht wiederholt wählen würden.

  • Von den 25000 Wählern, welche den Landrates X wählten, gaben 25000 an, dass sie den Landrat X auch schon letztes mal gewählt haben.

  • Es wurde außerdem bekannt, dass alle von den 5000 Personen, welche den Landrat X ablehnten, diesen auch damals gewählt haben.

  • Außerdem steht die Information des damaligen Ergebnisses zur Verfügung, welche angibt, dass 48 % für den Landrat X stimmten.


    Zu berechnen ist nun das 95 % -Konfidenzintervall für die Wahlprognose

    1. Ohne den Einbezug der Sekundärinformation.

    2. Mit Einbezug der Sekundärinformation.

Vertiefung

Hier klicken zum Ausklappen
Lösung:

Auch hier werden die relevanten Größen in Form einer Tabelle dargestellt.

Dann ergibt sich folgende Übersicht:

 

 

0

0

0

5000

25000

30000

 

5000

25000

30000

Die Sekundärinformation ist, dass

Zu 1.:

Zunächst einmal ist wieder zu entscheiden, welches Schema anzuwenden ist.
Gefragt wird hierbei nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit. Das Baumschema gibt Auskunft darüber, dass Schema 6 das richtige ist.

  1. Das Konfidenzniveau liegt vor durch:

  2. Folglich ist:

  3. Das arithmetische Mittel liegt vor durch:

  4. Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch:
    Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
    Wesweiteren gilt:

  5. Als Wert für die geschätzte Standardabweichung erhalten wir:

  6. Für halbe Breite des Konfidenzintervalls erhalten wir:

  7. Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:

 

Zu 2.:

Im Falle dessen, dass die gegebene Information X, welche den Wähleranteil der letzten Wahl angibt, verwendet wird, erhalten wir den Differenzschätzer

Die beobachtete Verteilung hilft dabei die Varianz zu schätzen.
Falls wird die Größe angenommen. Die obige Tabelle verdeutlicht, dass es dazu nur 5000 mal kommen kann.

Außerdem wird ersichtlich, dass dann von der Größe ausgegangen werden kann, wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1. Das kommt 25000 mal vor.

Offensichtlich wird dann auch, dass der Wert nur dann durchführbar ist, wenn Y = 1 und X = 0, d.h. 0 mal.

Anschließend wird dies in eine Tabelle übertragen:

-1

0

1

Häufigkeit

5000

25000

0

Des Weiteren ist nun ein Konfidenzintervall für den Schätzer zu ermitteln.

Ein Konfidenzintervall für die Wahlprognose ist gesucht. Es handelt sich um eine beliebig verteilte Grundgesamtheit von n = 30000. Demnach ist Schema 5 anzuwenden.

  1. Das Konfidenzniveau liegt vor durch:

  2. Folglich ist:

  3. Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch:
    Nach Voraussetzung gilt:

  4. Das arithmetische Mittel liegt vor durch:
    Aufgrund der unbekannten Varianz in der Grundgesamtheit, wird die Größe berechnet
    Es ist

  5. Für die halbe Breite des Konfidenzintervalls bekommen wir:

  6. Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:
Lerne erfolgreich mit unseren Online-Kursen

This browser does not support the video element.

Sichere dir jetzt das kompakte Wissen mit unserem Vollzugriff Komplettpaket für wiwi-Studenten


  • Alle Lernmaterialien komplett mit 470 Videos, 3814 interaktiven Übungsaufgaben und 1747 Lerntexten
  • Günstiger als bei Einzelbuchung nur 14,90 € mtl. bei 1 Monaten Mindestvertragslaufzeit
Jetzt entdecken

This browser does not support the video element.

Einzelkurs: Stichprobentheorie


  • Die besten Lernmaterialien: 40 Texte, 34 Abbildungen, 18 Videos und 159 Übungsaufgaben.
Jetzt entdecken

This browser does not support the video element.

Webinare: Du brauchst Hilfe? Frage unsere Dozenten im Webinar!


  • Perfekt vorbereitet auf die Präsentation in der mündlichen Prüfung
  • Am 10.05.2024 ab 18:00 Uhr
  • In diesem zweistündigen Webinar gibt Ihnen CMA Natalia Menzel einen Überblick über die Vorbereitungen auf die mündliche Prüfung.
Jetzt teilnehmen