ZU DEN KURSEN!

Stichprobentheorie - Aufgaben 51 bis 55 zur Stichprobentheorie

Kursangebot | Stichprobentheorie | Aufgaben 51 bis 55 zur Stichprobentheorie

Stichprobentheorie

Aufgaben 51 bis 55 zur Stichprobentheorie

Aufgabe 51

Liegen Beobachtungseinheiten vor, welche sich in wichtigen Eigenschaften ähneln, so werden diese zusammengefasst in einer Schicht. Was ist konkret daran vorteilhaft ?

1. Dank dieser Vorgehensweise kann der systematische Fehler gänzlich vernachläßigt werden.
2. Es können überschaubare Gruppen gebildet werden.
3. Es kann eine Minimierung des zufälligen Fehlers erreicht werden.
4. Allem in allem wird der Versuchsfehler kleiner.
5. Die Schichten werden übersichtlicher bezüglich der Unterschiede.

a) Selbstverständlich eins bis fünf.
b) Das können nur die Antworten zwei und drei sein.
c) Bei genauer Betrachtung zwei bis vier.
d) Zwei bis fünf.
e) Bei ganz genauer Prüfung eins und drei.
                                                                                                                                                                                   Zufälliger Fehler: Auch bei völliger Ausschaltung aller systematischen Fehler ergeben sich bei mehrmaliger Messung der gleichen physikalischen Größe gering unterschiedliche Messergebnisse. Das ist aber gerade der zufällige Fehler.
                                                                                                                                                                       Versuchsfehler: Dieser setzt sich hier zusammen aus dem systematischen und zufälligen Fehler.

Lösung

Wenn Schichten vorliegen, so ist eine bessere Übersicht über die Gruppen gegeben.
Des Weiteren sind die Unterschiede in den Gruppen minimal (Schichtungsprinzip). Es kann Homogenität in den Gruppen erreicht werden (Schichtungsprinzip). Dadurch kommt es auch zu einer Reduzierung des zufälligen Fehlers. Dann ist sofort ersichtlich, dass der Versuchsfehler insgesamt reduziert wird, da sich dieser aus dem systematischen und zufälligen Fehler zusammensetzt.
Wenn wir die obigen Feststellungen uns anschauen sehen wir sofort, dass selbstverständlich Unterschiede zwischen den Schichten besser erkennbar werden.
Also sind die Antworten  zwei bis fünf richtig.
Die richtige Antwort ist d).

Aufgabe 52

Bei einer Untersuchung in einer  Stadt möchte man nach drei Merkmalen schichten:

1. Nach Geschlecht (m/w),
2. Nach Alter (drei Klassen von jeweils 20 Jahren (bis 20, bis 40, bis 60).
3. Nach Wohlstand (durchschnittlich situiert (ds), gut situiert (gs) und sehr gut situiert (sgs) ).
                                                                                                                                                         
Wie viele Schichten ergeben sich nach diesem Verfahren?

a) Nach sorgfältiger Überlegung neun.
b) Logischerweise 17.
c) acht
d) Auf jeden Fall 18.

Lösung

Die richtige Lösung ist d). Also ergeben sich bei diesen Kriterien 18 Schichten.

Anschaulich kann dies folgendermaßen dargestellt werden: Es wird hier die
Schichtung für ein Geschlecht (w) dargestellt. Die für das andere sieht genauso aus.

Lösung Aufgabe 52

Für das weibliche Geschlecht ergeben sich neuen Schichten und somit insgesamt 2 * 9 = 18 Schichten.

Aufgabe 53

Wodurch wird am ehesten eine zufällige Zuteilung auf zwei Gruppen erreicht?

a) Durch einen Würfel oder eine Zufallszahl.
b) Dadurch, dass man eine Person entscheiden lässt in welche Gruppe sie möchte.
c) Wenn eine qualifizierte und kompetente Person dies entscheidet
d) Dadurch, dass eine Person eine Zahl zwischen eins und acht wählt und dann eine kompetente
Person die Einteilung in die entsprechende Gruppe vornimmt.
Zum Beispiel Gruppe eins ungerade Gruppe zwei gerade.

Lösung

Nur der Würfel (oder erzeugen einer Zufallszahl) sorgt für eine zufällige Einteilung in die entsprechende Gruppe.
Also Antwortmöglichkeit a).
Bei allen anderen Vorgehensweisen handelt es sich mehr um eine Zuteilung nach einem zugrundeliegenden System.
Etwaige „Gruppenzuteiler“ oder zukünftige Gruppenzugehörige unterliegen (unbewußten) subjektiven Einflüßen.
Daher sind die Antworten b) und c) falsch.
Aus statistischen Beobachtungen weiß man, dass die Zahl sieben am Häufigsten gewählt wird, wenn man eine Person auffordert eine Zahl zwischen eins und acht zu wählen. Deswegen ist auch d) falsch.

Aufgabe 54

Bei einer Krankenkasse werden in einem gewissen Jahr 25000 Rechnungen eingereicht. Es werden zufällig 125 davon ausgewählt. Anschließend wird überprüft wieviel die Krankenkasse von den Rechnungen gewährleistet. Die Krankenkasse verfügt über Einkommensinformationen von  ihren Mitgliedern. Zu jeder Einkommensgruppe wird ein anderes Berechnungsschema verwendet.                                           
Anhand der Stichprobe ergeben sich folgende Werte:


  • $\overline x=80000\text{€}$
  • $s=20000\text{€}$
  • 25 von den 125 Einkommen sind unter 60000 €.

                                                                                                                                                                                  Nun geht es darum aus der Grundgesamtheit der 25000 eingereichten Rechnungen, ein 95 %-iges Konfidenzintervall für

a) Das durchschnittlich auftretende Einkommen.
b) Das insgesamt auftretende Einkommen.
c) Den Anteil der zu berücksichtigten Einkommen unter 60000 €.
d) Die Gesamtzahl der zu versteuernden Einkommen unter 60000€.

Lösung

Zu a):
Wir schauen uns das „Baumschema“ an und stellen fest, dass hier das Lambert-Kochrezept  5  angewendet werden kann.

1. Schritt: Das Konfidenzniveau beträgt:  $1-\alpha =95{\%}<=>\alpha =5{\%}.$

2. Schritt: Also $1-\frac{0,05} 2=0,975.$

3. Schritt: Bestimmung des 0,975-Fraktils z der N(0,1) -Verteilung. z ist gegeben durch: z= 1,96.

4. Schritt: Gegeben $\overline x=80000\text{€}.$
Da die Varianz in der Grundgesamtheit nicht  bekannt ist, wird $\hat{\sigma }=20000\text{€}$ verwendet.

5. Schritt:.Berechnung der halben Breite des Konfidenzintervalls, d.h.

$\frac{20000\ast 1,96}{\sqrt{125}}$         =3506,15.

6. Schritt: Abschließend ergibt sich das Konfidenzintervall für die vorliegende Stichprobe zu:

$\mathit{KI}=\left[80000-3506,15;80000+3506,15\right]=[76493,85;83506,15]$

Zu b):
Zunächst stellen wir ohne jegliche Schwierigkeiten fest, dass der Erwartungswert der Grundgesamtheit (N) gegeben ist durch: $\mu =\frac{\mathit{Summe}\mathit{aller}\mathit{Einkommen}} N.$

Dies können wir natürlich folgendermaßen schreiben:

$\mathit{Summe}\mathit{aller}\mathit{Enkommen}=N\frac{\mathit{Summe}\mathit{aller}\mathit{Einkommen}} N=N\mu$
 
Die Schätzfunktion für $N\mu $   kann sofort angegeben werden zu:    $N\overline X.$

Es gilt offensichtlich:

$E(N\overline x)=NE(\overline x)=N\mu \text{ }\text{und}\text{ }\mathit{VAR}(N\overline x)=N^2\mathit{VAR}(\overline x)=N^2\frac{\sigma ^2} n.$

Dabei ist: $\overline x$    das arithmetische Mittel.  

Also ist die Schätzfunktion nach dem zentralen Grenzwertsatz näherungsweise

$\left(N\ast \mu ;\frac{N\ast s}{\sqrt n}\right)$        - normalverteilt.

Wir interessieren uns für ein Kofidenzintervall für $N\mu $   bei normalverteilter Grundgesamtheit und bekannter Varianz.

Wir können somit das Lambert-Kochrezept 1 anwenden.

Also folgt für das Konfidenzintervall für $N\mu$   zum Konfidenzniveau 95 %.

1. Schritt: $1-\alpha =95{\%}<=>\alpha =5{\%}.$

2. Schritt:  $1-\frac{\alpha } 2=0,975.$

3. Schritt: Das 0,975-Fraktil z der Standardnormalverteilung ist  z = 1,96.

4. Schritt: Wir ermitteln das arithmetische Mittel zu

$N\overline x=25000\ast 80000$                 =2000000000.

5. Schritt: $\frac{\sigma Nz}{\sqrt n}=20000\ast 25000\frac{1,96}{\sqrt{125}}$                      =87653864,72.

6. Schritt:

$\mathit{KI}=\left[2000000000-87653864,72;2000000000-87653864,72\right]$              
=[1912346135,28;2087653864,72].

Zu c):
Der Anteil $\gamma $  des zu versteuernden Einkommens unter 60000 €  in der Grundgesamtheit kann mittels des Lambert-Kochrezepts 6 ermittelt werden.

1. Schritt: $1-\alpha =95{\%}.$

2. Schritt: $1-\frac{5{\%}} 2=0,975.$

3. Schritt: $\overline x=\frac{25}{125}=0,2,$          nach Voraussetzung.

4. Schritt: Das 0,975-Fraktil der Standardardnormalverteilung ist gegeben durch z= 1,96.

Es gilt:  $n\overline x=125\ast 80000\geqslant 5\text{ }\text{und}\text{ }125\ast 80000\leqslant 80000-5=79995.$

5. Schritt:  $\hat{\sigma }=\sqrt{0,2(1-0,2)}=0,4.$    

6.  Schritt: $\frac{\hat{\sigma }z}{\sqrt n}=\frac{0,4\ast 1,96}{\sqrt{125}}$        =0,07.

7. Schritt: Nun erhalten wir für das Konfidenzintervall der vorliegenden Stichprobe:

KI=[0,2-0,07;0,2+0,07] =[0,13;0,27].  

Der Anteil der zu berücksichtigten Einkommen unter 60000 € liegt zwischen 13 % und 27 %.


Zu d):
Insgesamt beträgt sie Zahl der zu versteuernden Einkommen unter 60000€  in der Grundgesamtheit:  $N\gamma .$
Dieser Wert kann geschätzt werden durch die Funktion $N\overline X.$   Diese Funktion ist nach dem zentralen Grenzwertsatz approximativ $N\left(N\overline X;N\sqrt{\frac{\overline X(1-\overline X)} n}\right).$
Zum Signifikanzniveau 5% ergibt sich für das  Konfidenzintervall für $N\gamma :$

$\mathit{KI}=[N\ast \overline x-z\ast N\sqrt{\frac{\overline x(1-\overline x)} n};N\ast \overline x+z\ast N\sqrt{\frac{\overline x(1-\overline x)} n}]$

$\mathit{KI}=[25000\ast 0,2-1,96\ast 25000\ast 0,07;25000\ast 0,2+1,96\ast 25000\ast 0,07]$       
= [1570;8430].

Die Gesamtzahl der zu versteuernden Einkommen unter 60000 € liegt zwischen 1570 und 8430.

Aufgabe 55

In einer Umfrage werden zufällig 300 Personen nach ihren Interessen befragt. Dabei ergaben sich folgende Werte:

Frauen:

Politik 20
Journale 100
Kultur 30
Freizeit 10
Sport 25

Männer:

Politik 40
Journale 5
Kultur 10
Freizeit 20
Sport 40

Welches Testverfahren eignet sich, um nachzuweisen, dass Frauen und Männer unterschiedliche Interessen haben. Nachdem Sie zu einer Entscheidung gekommen sind - über das entsprechende Testverfahren - wenden Sie dieses an. Das Signifikanzniveau wird auf fünf Prozent festgesetzt.

Lösung

Natürlich ist der Chi-quadrat-Unabhängigkeitstest sehr empfehlenswert.

Zur besseren Übersicht ordnen wir die einzelnen Werte in einer Tabelle an, so dass

Interesse Frauen Männer
Politik 20 40
Journale 100 5
Kultur 30 10
Freizeit 10 20
Sport 25 40

Auswahl des richtigen Tests

1. Frage: Wie viele Stichproben liegen vor ?
Antwort: Es liegen nach Voraussetzung zwei verbundene Stichproben vor.
Das Interesse zu den Gebieten hängt nun mal vom Geschlecht ab.

Folgerung: Das heißt Schema c).

2. Frage: Betrifft die Hypothese einen Parametervergleich von Verteilungen oder bezieht sie sich auf die Abhängigkeit der beiden Merkmale X und Y ?
Antwort: Die Hypothese  bezieht sich auf die Abhängigkeit der beiden Merkmale X und Y.
Folgerung: Es kommen Tests 3.4.4  und 3.4.5  in Betracht.

3. Frage: Was soll getestet werden ?
Antwort: Es soll getestet werden, ob X und Y unabhängig sind.
Folgerung: Test 3.4.4.

1. Schritt: Anwendungsvoraussetzungen

Da beide Grundgesamtheiten beliebig verteilt sind, sind sämtliche Voraussetzungen erfüllt.

2. Schritt: Hypothesenwahl

$H_0:$    Die beiden Merkmale Geschlecht X und Interesse Y der Grundgesamtheit sind unabhängig.

$H_1:$    Die beiden Merkmale sind abhängig.

3. Schritt: Signifikanzniveau

$\alpha =5{\%}.$

4. Schritt: Kontingenztabelle

Die zugehörige Kontingenztabelle lautet:

Lösung Tabelle Aufgabe 55

Dann erhalten wir für die Prüfgröße v:

$\begin{gathered}v=\frac{(20-37)^2}{37}+\frac{(100-64,75)^2}{64,75}+\frac{(30-24,67)^2}{24,67}+\frac{(10-18,5)^2}{18,5}+\frac{(25-40,1)^2}{40,1}\\\text{ }\text +\frac{(40-23)^2}{23}+\frac{(5-40,25)^2}{40,25}+\frac{(10-15,33)^2}{15,33}+\frac{(20-11,5)^2}{11,5}+\frac{(40-24,91)^2}{24,91} \end{gathered}$

= 98,46

5. Schritt: Verwerfungsbereich

Es liegen zwei Merkmale vor, nämlich männlich und weiblich.
Die Ausprägungen gehen von Politik bis hin zu Sport. Also insgesamt fünf.
Das heißt: k = 5 und l = 2.

$B=\text (x_{1-\alpha };\infty \text ).$

Es ist x das Fraktil der $\chi _{0,95}^2((5-1)(2-1))=\chi ^2(4)$                  -Verteilung.

Also $B=\text (9,49;\infty \text ).$

6. Schritt: Testentscheidung

$H_0$       wird verworfen, da  $98,46=v\in \mathit{B.}$

Interpretation:

Auf einem Signifikanzniveau von fünf Prozent kann nicht gezeigt werden, dass  die beiden Merkmale Geschlecht X und Interesse Y der Grundgesamtheit unabhängig sind. Wir akzeptieren, dass Geschlecht X und Interesse Y abhängig sind.