ZU DEN KURSEN!

Stichprobentheorie - Aufgaben 11 bis 15 zur Stichprobentheorie

Kursangebot | Stichprobentheorie | Aufgaben 11 bis 15 zur Stichprobentheorie

Stichprobentheorie

Aufgaben 11 bis 15 zur Stichprobentheorie

11. Aufgabe

Am Stammtisch eines Lokals sitzen wie immer die Angestellten der Unternehmen Lipa (L) und Riga (R). In einer Diskussionsrunde wird über die durchschnittlichen Monatseinkommen gesprochen. Der Angestellte des Unternehmens Lipa behautet daraufhin, dass es ihm möglich sei, anhand von 61 Angestellten des Unternehmens Riga das durchschnittliche Monatseinkommen aller Angestellten aus (R) zu schätzen.

Aufgabe:
a) Ermitteln Sie, ob das tatsächlich möglich ist. Es wird sich auf eine Zuverlässigkeit von 95 % verständigt. Es liegt eine Standardabweichung von 300 € vor. Geschätzt werden soll das monatliche Durchschnittseinkommen bis auf 75 € genau.

b) Welche Veränderung kommt zustande, wenn das Konfidenzniveau auf 99 % steigt?

Vertiefung

Hier klicken zum Ausklappen
Lösung

Das Durchschnittseinkommen der Angestellten des Unternehmens Riga (R) wird mit $\overline x$ gekennzeichnet.
Das tatsächliche, durchschnittliche Monatseinkommen der Angestellten sei $\mu $

Zu a):
Aufgrund des in der Aufgabenstellung gegebenen Konfidenzniveau zu $1-\alpha =0,95\alpha =0,05,$                 ist es möglich $1-\frac{\alpha } 2$ 0,975 zu bestimmen.

Durch: $z_{0,975}=1,96$ liegt das 0,975 -Fraktil der Standardnormalverteilung vor.

Da das Monatseinkommen auf 75€ mehr oder weniger zu schätze ist, entspricht L = 150.
Für den benötigten Stichprobenumfang wird die passende Formel verwendet. Draus ergibt sich:

$n\geqslant \left(\frac{2\sigma z} L\right)^2=\left(\frac{300\ast 1,96}{75}\right)^2=61,47.$

Um das durchschnittliche Monatseinkommen der Angestellten aus dem Unternehmen Riga (R) auf $\pm 75\text €$ genau schätzten zu können, müssen mindestens 62 Angestellte befragt werden.

Zu b): Das Konfidenzniveau liegt vor durch:

$1-\alpha =0,99\alpha =0,01.$

Wir bekommen: $1-\frac{\alpha } 2=0,995.$
Entnommen werden kann das 0,995-Fraktil der Standardnormalverteilng zu 2,57 aus der Tabelle.

Durch das Einsetzen in die Formel ergibt sich:

$n\geqslant \left(\frac{2\sigma z} L\right)^2=\left(\frac{300\ast 2,57}{75}\right)^2=105,68.$

Damit das durchschnittliche Monatseinkommen aus dem Unternehmen Riga (R) auf $\pm 75\text €$ genau geschätzt werden kann, müssen mindestens 106 Angestellte nach ihrem monatlichen Einkommen befragt werden.

12. Aufgabe

Der Landwirt A stellt fest, dass die Nachfrage nach seinen Äpfeln in letzter Zeit regional erheblich angestiegen ist und seine drei Apfelbäume nicht mehr ausreichen. Aus diesem Grund kauft er zusätzlich von einem bekannten Landwirt B sechs Apfelbäume ab. Die Bäume selbst haben zwar den Eigentümer gewechselt, der ursprüngliche Standort bleibt allerdings bestehen. Demnach steht die Ernte dem Landwirt A zu, wenngleich sich die Bäume auf dem Grundstück von Landwirt B befinden. Aufgrund der langjährigen Erfahrung sind die Erträge der Bäume normalverteilt.

In den ersten beiden Jahren führt der Landwirt A eine genaue Übersicht über den Ertrag der Bäume. Es resultieren daraus die folgenden Ergebnisse der dazu erworbenen Bäume:

Baum

1

2

3

4

5

6

7

8

9

Jahr u

32,5

33,5

34

35,5

34

32

33,5

32,5

34

Jahr v

33

34

34,5

38

37,5

35

35,5

38

36

Bei der Betrachtung dessen fällt dem Landwirt A auf, dass in der Auflistung Abweichungen vorliegen. Jedoch ist ihm auch bewusst, dass die Ernte je nach Wetterbedingungen unterschiedlich ausfallen kann. Um sich jedoch dessen sicher zu sein, möchte der Landwirt A einen entsprechenden Test veranlassen.

Aufgabe: Um aufzuzeigen, dass die Witterung der Grund für den unterschiedlichen Ernteausfall ist, soll ein entsprechender Test durchgeführt werden. Es liegt ein Signifikanzniveau von 0,05% vor.

Vertiefung

Hier klicken zum Ausklappen
Lösung

Getestet werden soll hierbei, ob die verschiedenen Wetterbedingungen „Schuld“ an der Ertragsänderung sind.

Darzustellen sind die Einflussgrößen der unterschiedlichen Witterung mittels der Differenz der einzelnen Erträge, d.h.

Baum123456789
Jahr u32,533,53435,5343233,532,534
Jahr v333434,53837,53535,538

36

Differenz $d_i$-0,5-0,5-0,5-2,5-3,5-3-2-5,5-2-2,22

Gegeben sind zwei verbundene Stichproben, da sich die Erträge (U,V) der letzten zwei Jahre auf die selben Bäume beziehen.

Im Falle dessen, dass die Witterungsverhältnisse Einfluß auf die Erträge der Bäume haben, ist $\mu _d$   ungleich null.

Falls dem nicht so ist, wird $\mu _d$    gleich null sein.

Nach dieser Transformation bekommen wir zwei verbundene Stichproben mit

$\overline d=\overline x_1=\frac 1 9\sum _{i=1}^9d_i=-2,22\text{ }\text{ }\text{und}\text{ }\text{ }\overline x_2=0.$

Auswahl des richtigen Tests

1. Wie viele Stichproben sind gegeben?
-> Gegeben sind zwei verbundene Stichproben nach Voraussetzung. Es wurden für die selben Bäume für zwei Jahre Stichproben durchgeführt.
-> Folglich ist Schema c) anzuwenden.

2. Bezieht sich die Hypothese auf eine Verteilung oder einen Parameter?
-> Die Hypothese betrifft die Erwartungswerte. 
-> Folglich sind die Tests  3.4.1-3.4.5 anwendbar.

4. Um welche Verteilung der Grundgesamtheiten handelt es sich?
-> Es handelt sich bei beiden um normalverteilte Grundgesamtheiten.
-> Folglich sei der Test  3.4.1 unter Vorbehalt anzuwenden.

5. Um welchen Vergleich soll es gehen?
-> Zu vergleichen sind die jeweiligen Erwartungswerte, d.h.  $\mu _1=\mu _d\text{ }\text{und}\text{ }\mu _2.$
-> Folglich ist sicher Test  3.4.1 anzuwenden.


 1. Anwendungsvoraussetzungen

Ersichtlich wird, dass die Anwendungsvoraussetzungen gegeben sind.

 2. Wahl der Hypothese

    a)  $H_0:\mu _d=0$              gegen    $H_1:\mu _d\neq 0$ 

 3. Signifikanzniveau

$\alpha =0,05.$

 4. Testfunktionswert

$\text v=\frac{-2,22-0}{\sqrt{\frac 1{9-1}\sum _{i=1}^9(d_i-0-(\overline x_1-0))^2}}\sqrt 9$

$\text =\frac{-2,22-0}{\sqrt{\frac 1 8\sum _{i=1}^9(d_i+2,22)^2}}\sqrt 9=\frac{-2,22-0}{\sqrt{2,7569}}\ast \sqrt 9=-4,01.$

 5. Verwerfungsbereich

a) $B=\text (-\infty ;-t_{0,975}\text )\cup \text (t_{0,975};\infty \text )=\text (-\infty ;-2,31\text )\cup \text (2,31;\infty \text )$

 6. Testentscheidung

Weil $\text v\in \mathit{B.}$ wird $H_0$  verworfen.

7. Deutung

Auf der Grundlage eines 5 %-igen Signifikanzniveaus konnte nicht gezeigt werden, dass die Ursache für die verschiedenen Erträge die Witterungsverhältnisse sind.

13. Aufgabe

Aufgrund des Interesses am Wahlergebnisses der aktuellen Bundestagswahl, soll unmittelbar nach den Wahlen eine Hochrechnung durchgeführt werden. Hierzu werden 50000 Personen gefragt, wem sie ihre Stimme gaben.

Bei der Umfrage kam heraus, dass 30000 der befragten Personen für die Partei S stimmten. Des Weiteren gaben 20000 Personen an, dass die Partei S nicht ihren Vorstellungen entspricht und sie deshalb nicht ihre Stimme dafür abgeben würden.

Von den Personen, welche der Partei S aktuell ihre Stimme gaben, kam heraus, dass 15000 von ihnen auch schon bei der letzten Wahl für diese stimmten. Bekannt wurde außerdem, dass von den 20000 die nicht für die Partei S stimmten bzw. diese nicht für gut heißen, 10000 diese bei der letzten Wahl wählten.

Bekannt ist, dass bei der vorherigen Bundeswahl insgesamt 55 % ihre Stimme für die Partei S abgegeben haben. Zu berechnen ist nun das 95 % -ige Konfidenzintervall für die Wahlprognose.

1. Unter Einbezug der Sekundärinformation.

2. Ohne Einbezug der Sekundärinformation.

Vertiefung

Hier klicken zum Ausklappen
Lösung

Eine Zufallsstichprobe von n = 50000 ist gegeben. Dargestellt werden kann das Wahlverhalten in der folgenden Tabelle. Die Sekundärinformation liegt vor durch: $P_X=55\text{\%}.$

 $Y_i=0$      $Y_i=1$      
$X_i=0$     100001500025000
$X_i=1$     100001500025000
200003000050000

Zu a):
Zu ermitteln ist das 95 % -Konfidenzintervall für die Wahlprognose   $P_Y$  

Welches Schema ist anzuwenden?
Gesucht ist der Anteil eines dichotomen Merkmals in der Grundgesamtheit.

Mit Hilfe des „Baumschemas“ gelangen wir zu Schema 6.

1. Das Konfidenzniveau liegt vor durch:

2. Folglich ist:  $1-\frac{0,05} 2=0,975.$

3. Gegeben ist das arithmetische Mittel durch:   $\frac{30000}{50000}=0,6.$

4.  Durch: z = 1,96 liegt das 0,975-Fraktil z der N(0;1) Verteilung vor.

Da die Grundgesamtheit binomialverteilt ist, handelt es sich um Fall a).
Darüber hinaus gilt: 
$50000\ast 0,6=30000\geqslant 5\text{ }\text{und}\text{ }30000\ast 0,6=30000\leqslant 49995.$

5. Man bekommt den Wert für die Schätzung der Standardabweichung:

$\hat{\sigma }=\sqrt{\overline x(1-\overline x)}=\sqrt{0,6\ast (1-0,6)}\approx 0,49$                

6. Die halbe Breite des Konfidenzintervalls liegt vor durch:

$\frac{0,49\ast 1,96}{\sqrt{50000}}\approx 0,0042$

7. Für das Konfidenzintervall der vorliegenden Stichprobe ist gegeben:

$\mathit{KI}=[0,6-0,0042;0,6+0,0042]=[0,5958;0,60042]$

Zu b):
Wird nun die gegebene Information X (die letzte Wahl ergab einen Wähleraneil von    $P_X=0,55\text )$        verwendet, erhalten wir als Differenzenschätzer: $\hat{\overline Y}_D=0,6+(0,55-0,5)=0,65.$

Aus der resultierten Verteilung von  $d_k=y_k-x_k$        ist die Varianz zu schätzen.
Wenn $Y=0\text{ }\text{und}\text{ }X=1$  wird die Größe $d_k=-1$ angenommen.

Die obige Tabelle verdeutlicht, dass dies 10000 mal passieren kann.
Es wird ebenso ersichtlich, dass die Größe     $d_k=0$      dann angenommen wird, wenn X = 0 und Y = 0 oder wenn X = 1 und Y = 1. Demnach passiert dies 10000+15000=25000 mal.

Schlussendlich wird deutlich, dass der Wert $d_k=1$  nur dann verwirklicht wird, wenn Y = 1 und X = 0,
d.h. 15000 mal.

Dies wird gebündelt in einer Tabelle festgehalten:

$d_k$    -101
Häufigkeit100002500015000

Ermittelt werden kann nun das Konfidenzintervall für den Schätzer $\hat{\overline Y}_D$  

Zu bestimmen ist das Konfidenzintervall für die Wahlprognose. Es handelt sich um eine beliebig verteilte Grundgesamtheit mit  n = 50000. Demnach ist Schema 5 anzuwenden.

1. Das Konfidenzniveau liegt vor durch: 

$1-\alpha =95{\%}\text\alpha =0,05$

2. Folglich ist: $1-\frac{0,05} 2=0,975.$

3. Durch: z = 1,96 liegt das 0,975-Fraktil z der N(0;1) Verteilung vor.

Nach Voraussetzung gilt: $n\text > 30.$

4. Das arithmetische Mittel liegt vor durch:

$$\overline d=\frac{-1\ast 10000+0\ast 25000+1\ast 15000}{50000}=0,1.$$

Zu berechnen ist die Größe $\hat{\sigma }^2=\sum _{i=1}^{50000}\frac{(d_i-\overline d)^2}{50000-1}=\sum _{i=1}^{50000}\frac{(d_i-0,1)^2}{49999}$       da die Varianz in der Grundgesamtheit unbekannt ist.


Demnach ist 

$\begin{gathered}\hat{\sigma }^2=\sum _{i=1}^{1000}\frac{(d_i-0,1)^2}{1000-1}
=\frac{10000\ast (-1-0,1)^2+25000\ast (0-0,1)^2+15000\ast (1-0,1)^2}{49999}\\\text{ }
=\frac{12100+250+12150}{49999}\approx 0,49.\end{gathered}$

5. Wir bekommen für die halbe Breite des Konfidenzintervalls:

$\frac{\sqrt{0,49}\ast 1,96}{\sqrt{50000}}\approx 0,0061.$

6. Das Konfidenzintervall der vorliegenden Stichprobe ist somit:

$\mathit{KI}=[0,65-0,0061;0,65+0,0061]=[0,6439;0,6561]$

Aufgabe 14

Ein Gymnasium interessiert sich dafür, wie hoch das Taschengeld der SchülerInnen in der 9. Klasse ist. Dazu soll eine Studie durchgeführt werden. Außerdem soll unabhängig davon, die unterschiedlichen Körpergrößen der neuntklässler ermittelt werden. Die neunte Klasse umfasst insgesamt sechs Klassen.

Für die SchülerInnen am Gymnasium hat sich in den entsprechenden Klassen einer Stufe folgende Anzahl ergeben:

Klassse

Σ

Klasse 1

64

Klasse 2

75

Klasse 3

82

Klasse 4

87

Klasse 5

137

Klasse 6

114

Aus den unterschiedlichen Körpergrößen der SchülerInnen resultieren die folgenden Werte. Dabei wird mit $\mathit{KL}_i1$ die Größe der i-ten gezogenen SchülerInnen in der ersten Klasse gekennzeichnet.

Lösung Aufgabe 14_Teil 1a

Ermittelt werden konnten die folgenden Werte für die Höhe des Taschengeldes in €.

Lösung Aufgabe 14_Teil 1b

Aufgrund der Budgetknappheit konnten von der Gesamtanzahl der SchülerInnen nur 50 aus den gewählten Schichten interviewt werden. Soweit es möglich ist, sollen die Angaben der Körpergrößen so gewählt werden, dass sich diese voneinander unterscheiden. Dabei soll es zu einem optimalen Ergebnis kommen.

1. Welche Schichten sind zu wählen?

2. Zu ziehen ist eine geschichtete Stichprobe. Zu beachten sei allerding, dass größere Schichten einen höheren Anteil in der Stichprobe einnehmen.

3. Der geschichtete Schätzer ist festzulegen.

Die gleichen Schritte sind ebenso für das Taschengeld durchzuführen. Dabei sind ebenso die gleichen Annahmen und Voraussetzungen gegeben wie oben genannt.

Vertiefung

Hier klicken zum Ausklappen
Lösung

Im ersten Schritt sind für das weitere Vorgehen die einzelnen Werte zusammenzurechnen. Das bedeutet:

1.
Zu a)

Klasse

Σ

Klasse 1

64

Klasse 2

75

Klasse 3

82

Klasse 4

87

Klasse 5

137

Klasse 6

114

Σ

559

Es ergaben sich für die Körpergrößen in den einzelnen Klassen die unten stehenden Werte. Mit $\mathit{KL}_i1$ wird die Größe des i-ten gezogenen Schülers in der Klasse 1 gekennzeichnet. Zu bestimmen ist hierbei die Größe der jeweiligen Stichprobe $\mathit{KL}_i1$
Aus finanziellen Gründen sind ein paar SchülerInnen aus der Stichprobe rauszunehmen, welche durch Unterstreichungen gekennzeichnet werden. Zu empfehlen sei hierbei die proportionale Aufteilung. In der 9. Zeile sind die jeweiligen Anteile der Stichprobe berechnet bzw. die jeweiligen Stichprobengrößen.

Nun ist es möglich den geschichteten Schätzer zu ermitteln. Dieser liegt vor durch:

$\hat{\overline Y}_{\mathit{GS}}$

=$\frac 1{559}(64\ast 160,86+75\ast 161,38+82$

$\ast 168,75+87\ast 172,78+137\ast 173,54+114\ast 183,82)$

=171,73.

2:

Zu a): Die einzelnen Klassen entsprechen den Schichten.

Zu b):

Auch hier müssen wegen des Kostenfaktors möglicherweise einige SchülerInnen rausgenommen werden. Diese werden analog zum obigen Beispiels unterstrichen dargestellt. 
Auch hier wählen wir die proportionale Aufteilung. Die entsprechenden Anteile der Stichproben sind in der neunten Zeile berechnet. Das heißt die jeweilige Stichprobengröße.

Aufgrund der finanziellen Situation sind auch hier wahrscheinlich ein paar Schüler rauszunehmen. Diese werden gleichermaßen unterstrichen. Zu wählen ist auch hier die proportionale Aufteilung. In der 9. Zeile sind die dazugehörigen Anteile der Stichprobe berechnet bzw. die jeweilige Stichprobengröße.

Zu c):

Gleich wie oben wird der geschichtete Schätzer dazu ermittelt

$\hat{\overline Y}_{\mathit{GS}}$
=$\frac 1{559}\left(64\ast 3,67+75\ast 4,13+82\ast 9,25+87\ast 7,67+137\ast 17,54+114\ast 9,82\right)$

=9,83

15. Aufgabe

Der Leiter eines Modelabels nimmt an, dass sein Modehaus in der Stadt einen schlechten Ruf hat. Grund dafür sei, dass dem Modehaus unterstellt wird, minderwertige Qualität zu verkaufen und eine schlechte Kundenbetreuung zu haben. Deswegen möchte der Leiter eine Umfrage dazu bei den Kunden durchzuführen in einem Zeitraum von 31 Tagen. Die Kunden sollen kurz vor dem Verlassen des Modehauses dazu befragt werden, wie sie die Ware finden und ob sie mit der Kundenberatung zufrieden waren.
Die dadurch zustande gekommenen Werte wurden vor Feierabend notiert.

Für die Kunden, welche nicht zufrieden waren, kamen die folgenden Werte raus, die von links nach rechts, vom ersten bis zum letzten Tag chronologische geordnet sind:

50

60

55

20

30

110

80

40

60

66

59

40

76

57

40

46

50

85

75

60

62

87

79

80

65

59

45

44

39

2

5

 

a) Repräsentiert werden soll die Kundenzufriedenheit in den jeweiligen Modehäusern.

b) Wie hoch ist die Anzahl der unzufriedenen Kunden pro Tag?

c) Wie viel entspricht die Standardabweichung der Verteilung der Mittelwerte?

Vertiefung

Hier klicken zum Ausklappen
Lösung

Zu a):

Zu Beginn werden die Werte in einer Tabelle festgehalten. Daraus entsteht:

$x_i$ steht für die Zahl der am i-ten Tag unzufriedene Kunden.

Deutlich wird sofort, dass   $\hat{\mu }=\frac 1{31}\sum _{i=1}^{31}x_i=\frac{1726}{31}=55,68.$

Zu b):
Die geschätzte Populationsvarianz liegt vor durch:

$\hat{\sigma }^2=\frac 1{31-1}\sum _{i=1}^{32}(50-55,68)^2+(60-55,68)^2+...+(6-55,68)^2$

$\approx 547,49$

Zu c):

Der Standardfehler des Mittelwertes liegt dann vor durch:

$\sigma _{\overline x}=\sqrt{\frac{\hat{\sigma }^2}{31}}\approx 4,2.$