Inhaltsverzeichnis
Auszugehen ist davon, dass für das im Interesse stehende Merkmal Y noch ein Hilfsmittel X gegeben ist. Aus diesem Grund muss der Populationsmittelwert Y geschätzt werden, wenngleich der Mittelwert der Population X gegeben ist. Auszugehen ist auch davon, dass zwischen den beiden Merkmalen kaum Unterschiede bestehen. Das bedeutet soviel wie, dass eine geringe Streuung aufgrund der geringen Differenz zu vernehmen ist. Anders formuliert: X und Y weisen ähnliche Werte auf.
Das weitere Vorgehen in den Untersuchungen zielt auf das Merkmal: D = Y - X.
Auf der Grundlage der gegebenen Stichprobe, werden die zwei Merkmale erhoben und der Mittelwert
Ebenso gilt gleichermaßen der Zusammenhang:
Durch die Schätzung von
Schlussendlich erhält man den Differenzenschätzer
Merke
Zu beachten sei an diesem Punkt, dass der aus der Grundgesamtheit gegebene Mittelwert
Mithilfe der notwendigen Umformulierung gelangen wir zu der folgenden Interpretation des Differenzschätzers:
Die erhaltene Schätzung (ohne Zusatzinformationen) wird folglich um die Abweichung
Das folgende Beispiel soll die Funktionsweise eines Differenzschätzers verdeutlichen:
Beispiel
Es liegt eine Grundgesamtheit mit den folgenden Primär- und Sekundärinformationen vor:
Primärinformationen:
Sekundärinformationen:
Für das arithmetische Mittel ist gegeben:
Wir gehen davon aus, dass uns zwar das arithmetische Mittel
Demnach starten wir von Anfang an, indem zunächst die obigen Werte aus der Stichprobe entnommen werden. Der Stichprobenumfang soll n = 3 betragen. Für D = Y - X resultieren folgende Werte:
Die Berechnung des ersten Werts erfolgt ausführlich. Demnach ist es:
Es bestehen
Stichprobe | Entnommene Werte in Bezug auf die Indizes | |||
1 | 1 3 2 | -1 | 15 | 14 |
2 | 1 4 2 | -2 | 15 | 13 |
3 | 1 5 2 | -2/3 | 15 | 14,33 |
4 | 1 4 3 | -5/3 | 15 | 13,33 |
5 | 1 5 3 | -1/3 | 15 | 14,66 |
6 | 1 5 4 | -4/3 | 15 | 13,66 |
7 | 2 4 3 | -4/3 | 15 | 13,66 |
8 | 2 5 3 | 0 | 15 | 15 |
9 | 2 5 4 | -1 | 15 | 14 |
10 | 3 5 4 | -2/3 | 15 | 14,33 |
Somit stellt sich heraus, dass es sich um einen erwartungstreuen Differenzschätzer handelt für
Somit ist es:
Aus der Tabelle geht hervor, dass
Für die Varianz von
Für die Varianz ergibt sich somit eindeutig:
Stichprobe | Entnommene Werte in Bezug auf die Indizes | |||
1 | 1 3 2 | 9 | 10 | 13,87 |
2 | 1 4 2 | 10 | 12,33 | 13,43 |
3 | 1 5 2 | 11 | 12,33 | 13,43 |
4 | 1 4 3 | 18 | 12,67 | 13,43 |
5 | 1 5 3 | 22 | 14 | 13,43 |
6 | 1 5 4 | 16,33 | 13,43 | |
7 | 2 4 3 | 13 | 13,43 | |
8 | 2 5 3 | 14,33 | 13,43 | |
9 | 2 5 4 | 16,67 | 13,43 | |
10 | 3 5 4 | 17 | 13,43 |
Verglichen werden nun die zwei berechneten Varianzen
Es wird direkt deutlich, dass
Mit Hilfe der oberen Methode konnte eine deutliche Reduktion der Varianz erzielt werden. Die Ausprägungen des Differenzschätzers variiert demnach wesentlich geringer in Bezug auf den Mittelwert
Die Varianzreduktion beim Differenzenschätzer wird hier visuell dargestellt:
Die folgende Gültigkeit resultiert aus den vorhergegangen Herleitungen:
Merke
Gegeben ist eine einfache Stichprobe von Sekundärinformationen
Durch
Die Eigenschaften des Differenzenschätzers
Das bedeutet, dass erhebliche Unterschiede in der Varianz vorliegen können. Die Streuung des Merkmals D ist für die Varianz des Differenzenschätzers
Trotz fehlender Beweise kann schlussendlich festgehalten werden, dass wenn die Variation von D die Variation von Y in der Population unterschreitet, die Varianz des Differenzenschätzers geringer ist.
Durchführung einer Hochrechnung
Zu ermitteln ist der Wahlanteil
Der Korrekturterm
Verglichen wird nun die Differenzschätzung mit dem oberen Ergebnis. Dabei kommt noch ein zusätzliches Merkmal X zu dem obigen Merkmal Y hinzu. An diesem Merkmal wird ersichtlich, ob eine Person auch schon bei der letzten Wahl für die Partei Neo stimmte.
Wenn festgestellt wird, dass sich das Wahlverhalten der Version nicht verändert hat, dann ist es
Zusammengefasst werden kann dann das Wahlverhalten in dieser Tabelle:
Σ | |||
Σ | 1 |
Der Anteil der Wähler, welche die Partei Neo nicht gewählt haben und das auch dieses mal nicht vorhaben, werden mit
Der Anteil der Wähler, welche die Partei Neo beim letzten mal nicht gewählt haben, es jedoch dieses mal vorhaben, werden mit
Der Anteil der Wähler, welche die Partei Neo bereits beim letzten mal gewählt haben, es aber dieses mal nicht vorhaben, werden mit
Der Anteil der Wähler, welche die Partei Neo das letzte mal wählten und es auch wieder vorhaben, werden mit
Das Merkmal D = Y - X wird beschrieben, weil das Ergebnis mit Hilfe des Differenzenschätzers zu berechnen ist.
Werte aufgrund vorheriger Definition {-1;0;1}, mit den entsprechenden Wahrscheinlichkeiten
Die Bestimmung der Varianz D ist notwendig, damit die Varianz des Differenzenschätzers zu bestimmen ist.
Ermittelt wird nun die Kovarianz von X und Y. Somit ist es
Mittels der oberen Formel erhalten wir die Ungleichung:
Der Anteil der Wähler, welche wiederholt die Partei Neo wählten, entspricht hier
Beispiel (Hochrechnung)
Beispiel
Folgende Werte kamen bei der Zufallsstichprobe von n = 1000 Personen raus:
Σ | |||
570 | 10 | 580 | |
80 | 340 | 420 | |
Σ | 650 | 350 | 1000 |
Die Werte des damaligen Ergebnisses ergeben die Sekundärinformation. Dabei wird deutlich, dass 40 % für die Partei Neo gestimmt haben, demnach
Ermittelt wir nun das 95 % -Konfidenzintervall der Wahlprognose
Dazu muss erst einmal das richtige Schema ausgewählt werden. Gefragt ist der Anteil eines Dichotomien Merkmals in der Grundgesamtheit. Das „Baumschema“ gibt uns Auskunft darüber, dass das Schema 6 anzuwenden ist.
- Das Konfidenzniveau liegt vor:
Das Signifikanzniveau beträgt 5%. - Weiter ist
- Das arithmetische Mittel liegt vor durch: 0,35.
- Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch: z=1,96.
Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
Des Weiteren gilt: - Der Wert der geschätzten Standardabweichung ist:
- Die halbe Breite des Konfidenzintervalls liegt vor durch:
- Für das Konfidenzintervall der vorliegenden Stichprobe folgt schlussendlich:
Im Falle dessen, dass die gegebene Information X, welche dem Wähleranteil der damaligen Wahl
Die Varianz kann aus der beobachteten Verteilung von
Wenn
Wir halten das in der Tabelle fest:
-1 | 0 | 1 | |
Häufigkeit | 80 | 910 | 10 |
Bestimmt werden soll nun ein Konfidenzintervall für den Schätzer
Gesucht ist ein Konfidenzintervall für die Wahlprognose. Es handelt sich dabei um eine beliebig verteilte Grundgesamtheit von n = 1000, weswegen Schema 5 anzuwenden ist.
- Das Konfidenzniveau liegt vor durch:
- Folglich ist
- Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch: z=1,96.
Nach Voraussetzung gilt n>30. - Das arithmetische Mittel liegt vor durch:
Da die Varianz in der Grundgesamtheit nicht bekannt ist, berechnen wir die Größe
Es ist - Für die halbe Breite des Konfidenzintervalls bekommen wir:
- Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:
Übungsaufgaben zur Differenzenschätzung
1. Aufgabe:
Nachdem die Wähler ihre Stimmen abgegeben haben, soll eine Hochrechnung durchgeführt werden. Dazu werden 2000 Personen befragt. Daraus haben sich folgende Informationen ergeben:
- Von den 2000 Personen äußerten sich 500 Personen, dass sie für Partei R stimmten, wohingegen 1500 Personen angaben, mit der Partei R nicht zufrieden gewesen zu sein, weswegen sie diese nicht noch einmal wählen würden.
- Von den 500 Personen, welche für die Partei R stimmten, gaben 100 Personen an, dass sie bei der vorherigen Wahl nicht für diese gestimmt haben.
- Außerdem erhielt man die Information, dass von den 1500 Wählern, welche mit der Partei R unzufrieden seien, nur 150 Personen diese bei der letzten Wahl gewählt haben.
- Des Weiteren liegt die Information über das damalige Ergebnis vor, das besagt, dass 35 % für die Partei R gestimmt haben.
Zu berechnen ist nun das 95 % -Konfidenzintervall für die Wahlprognose
1. Ohne den Einbezug der Sekundärinformation.
2. Mit Einbezug der Sekundärinformation.
Vertiefung
Lösung:
Zu Beginn werden zugunsten der Übersicht, die wichtigsten Größen in einer Tabelle festgehalten:
1350 | 100 | 1450 | |
150 | 400 | 550 | |
1500 | 500 | 2000 |
Aufgrund der vorliegenen Sekundärinformation wird sofort deutlich, dass
Zu 1.:
Zu Beginn ist zu ermitteln, welches Schema anzuwenden ist.
Gefragt ist nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit.
Das „Baumschema“ macht deutlich, dass Schema 6 anzuwenden ist.
- Das Konfidenzniveau liegt vor durch:
- Folglich ist:
- Das arithmetische Mittel liegt vor durch:
- Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch:
Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
Wesweiteren gilt: - Als Wert für die geschätzte Standardabweichung erhalten wir
- Die halbe Breite des Konfidenzintervalls liegt vor durch:
- Für das Konfidenzintervall der vorliegenden Stichprobe folgt schlussendlich:
Zu 2.
Im Falle dessen, dass die gegebene Information X, welche den Wähleranteil
Die Varianz kann aus der beobachteten Verteilung von
Falls
Außerdem wird ersichtlich, dass dann von der Größe
Offensichtlich wird dann auch, dass der Wert
Anschließend wird dies in eine Tabelle übertragen:
-1 | 0 | 1 | |
Häufigkeit | 150 | 1750 | 100 |
Des Weiteren ist nun ein Konfidenzintervall für den Schätzer
Ein Konfidenzintervall für die Wahlprognose ist gesucht. Es handelt sich um eine beliebig verteilte Grundgesamtheit von n = 2000. Demnach ist Schema 5 anzuwenden.
- Das Konfidenzniveau liegt vor durch:
- Folglich ist:
- Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch:
Nach Voraussetzung gilt: n>30. - Das arithmetische Mittel liegt vor durch:
Aufgrund der unbekannten Varianz in der Grundgesamtheit, wird die Größe berechnetEs ist
- Für die halbe Breite des Konfidenzintervalls bekommen wir:
- Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:
2. Aufgabe:
Am Sonntag kam es zu einer Landratswahl im Kreis Südwestfalen Lippe , wozu eine unmittelbare Hochrechnung durchgeführt werden soll.
Dazu wurden 30000 Leute befragt, für wen sie stimmten.
Es kamen folgende Werte zustande:
- Von den 30000 befragten gaben 25000 Personen an, für den Landrat X gestimmt zu haben. Auf der anderen Seite gaben 5000 Personen an, dass sie mit dem Landrat X unzufrieden waren und diesen nicht wiederholt wählen würden.
- Von den 25000 Wählern, welche den Landrates X wählten, gaben 25000 an, dass sie den Landrat X auch schon letztes mal gewählt haben.
- Es wurde außerdem bekannt, dass alle von den 5000 Personen, welche den Landrat X ablehnten, diesen auch damals gewählt haben.
- Außerdem steht die Information des damaligen Ergebnisses zur Verfügung, welche angibt, dass 48 % für den Landrat X stimmten.
Zu berechnen ist nun das 95 % -Konfidenzintervall für die Wahlprognose
1. Ohne den Einbezug der Sekundärinformation.
2. Mit Einbezug der Sekundärinformation.
Vertiefung
Lösung:
Auch hier werden die relevanten Größen in Form einer Tabelle dargestellt.
Dann ergibt sich folgende Übersicht:
0 | 0 | 0 | |
5000 | 25000 | 30000 | |
5000 | 25000 | 30000 |
Die Sekundärinformation ist, dass
Zu 1.:
Zunächst einmal ist wieder zu entscheiden, welches Schema anzuwenden ist.
Gefragt wird hierbei nach dem Anteil eines dichotomen Merkmals in der Grundgesamtheit. Das Baumschema gibt Auskunft darüber, dass Schema 6 das richtige ist.
- Das Konfidenzniveau liegt vor durch:
- Folglich ist:
- Das arithmetische Mittel liegt vor durch:
- Gegeben ist das 0,975-Fraktil z der N(0;1) Verteilung durch:
Da es sich um eine binominalverteilte Grundgesamtheit handelt, liegt Fall a) vor.
Wesweiteren gilt: - Als Wert für die geschätzte Standardabweichung erhalten wir:
- Für halbe Breite des Konfidenzintervalls erhalten wir:
- Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:
Zu 2.:
Im Falle dessen, dass die gegebene Information X, welche den Wähleranteil
Die beobachtete Verteilung hilft dabei die Varianz zu schätzen.
Falls
Außerdem wird ersichtlich, dass dann von der Größe
Offensichtlich wird dann auch, dass der Wert
Anschließend wird dies in eine Tabelle übertragen:
-1 | 0 | 1 | |
Häufigkeit | 5000 | 25000 | 0 |
Des Weiteren ist nun ein Konfidenzintervall für den Schätzer
Ein Konfidenzintervall für die Wahlprognose ist gesucht. Es handelt sich um eine beliebig verteilte Grundgesamtheit von n = 30000. Demnach ist Schema 5 anzuwenden.
- Das Konfidenzniveau liegt vor durch:
- Folglich ist:
- Das 0,975-Fraktil z der N(0;1) Verteilung liegt vor durch:
Nach Voraussetzung gilt: - Das arithmetische Mittel liegt vor durch:
Aufgrund der unbekannten Varianz in der Grundgesamtheit, wird die Größe berechnet
Es ist - Für die halbe Breite des Konfidenzintervalls bekommen wir:
- Demnach ist das Konfidenzintervall der vorliegenden Stichprobe:
Weitere interessante Inhalte zum Thema
-
Grundlagen der Häufigkeitsverteilung
Vielleicht ist für Sie auch das Thema Grundlagen der Häufigkeitsverteilung (Häufigkeitsverteilungen) aus unserem Online-Kurs Deskriptive Statistik interessant.