wiwiweb
online lernen

Besser lernen mit Online-Kursen

NEU! Jetzt online lernen:
Stichprobentheorie
Den Kurs kaufen für:
einmalig 49,00 €
Zur Kasse
Hochrechnung > Klumpen und geschichtete Stichproben:

Wahl des Stichprobenumfangs

WebinarTerminankündigung aus unserem Online-Kurs Volks- und Betriebswirtschaft:
 Am 12.01.2017 (ab 18:00 Uhr) findet unser nächstes Webinar statt.
Gratis-Webinar Grundbegriffe der Bilanzierung
- In diesem 60-minütigen Gratis-Webinar gibt Daniel Lambert einen Überblick über die zentralen Begriffe der Bilanzierung - hier im Besonderen dem Bilanzausweis.
[weitere Informationen] [Terminübersicht]

Wahl des Stichprobenumfangs

Bei Ziehung einer Stichprobe aus einer geschichteten Grundgesamtheit ist auch der Stichprobenumfang für die einzelnen Schichten von enorm großer Bedeutung.

Nach erfolgreicher Aufteilung der Population in Schichten ist somit im Anschluß unmittelbar der Stichprobenumfang auf die einzelnen Schichten festzulegen.

Im folgenden werden einige Möglichkeiten zur Aufteilung der Stichprobenziehung vorgestellt.

Proportionale Aufteilung

Liegen keine zusätzlichen Informationen vor, so ist die proportionale Aufteilung äußerst empfehlenswert.

Beachte

Merke

Falls es darum geht Zahlen zu runden, so wird dazu die Gaußklammer [] verwendet. Aus dem Kontext wird sich sofort ergeben, ob eine Gaußklammer vorliegt oder eine übliche. Die Gaußklammer besagt in diesem Skript immer, dass die entsprechende Zahl abgerundet wird.

Der Stichprobenumfang in den einzelnen Schichten hat dann je die Größe:

$n_{h,\mathit{opt}}={\left[n\frac{N_h} N\right]+1}.$

Dabei ist die Größe $\left[n\frac{N_h} N\right]$ die nächst kleinere ganze Zahl. Also zum Beispiel ist [4,4] = 4 und [5,8888] = 5.

Auch wenn diese Form der Aufteilung am meisten verwendet wird, ist sie manchmal nicht notwendigerweise optimal.

Optimale Aufteilung

Bei genauerer Betrachtung der Varianzformel wird sofort ersichtlich, dass die Varianz des geschichteten Schätzers sowohl von $N_h$ als auch von -der Streuung innerhalb einer Schicht- abhängt, nämlich $S_h$.
Somit gelangt man zu der Feststellung, dass die zufällige Stichprobe in einer Schicht mit geringer Streuung kleiner sein sollte als in einer Schicht mit großer Streuung.

Der Korrekturfaktor $\frac{N_h-n_h}{N_h}$ in der Varianzformel kann für die weiteren Betrachtungen vernachlässigt werden, so dass 

$\hat{\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)}=\sum _{h=1}^M\left(\frac{N_h} N\right)^2\frac{S_h^2}{n_h}.$

Es wird sofort ersichtlich, dass je größer der Ausdruck $N_hS_h$, desto größer die Varianz.

Die Wahl von $n_h$ proportional zu $H_hS_h$, liefert die optimale Aufteilung:

${n_{h,\mathit{opt}}=\left[n\frac{N_hS_h}{\sum _{h=1}^{M}N_hS_h}\right]+1}.$

Dabei bezeichnet die Klammer [] wieder die nächst kleinere Zahl.

Beispiel zur optimalen Aufteilung

Beispiel

Wir rufen uns das obige Beispiel 1 zur Verhältnisschätzung in Erinnerung. Dort war 

$Y_1=9,\text{ }Y_2=10,\text{ }Y_3=11,\text{ }Y_4=18,\text{ }Y_5=22,$

Schicht 1

$Y_1=9$ $Y_2=10$ $Y_3=11$

Schicht 2

$Y_4=18$ $Y_5=22$

Es liegen zwei Schichten vor, das heißt h kann nur die Werte eins und zwei annehmen. Wir wählen die optimale Aufteilung. Die Werte $n_1$ und $n_2$ ergeben sich folgendermaßen. Berechnung von $n_{1,\mathit{opt}}:$ Es wird die Größe $S_1$ und für $\sum _{h=1}^{M}N_hS_h$ h=1,2 benötigt.
Es ist

$\begin{gathered}S_1^2=\frac{\sum _{i=1}^{(N_1\text =)3}\left(Y_{1i}-\overline Y_1\right)^2} 3=\frac{(Y_{11}-\overline Y_1)^2} 3+\frac{(Y_{12}-\overline Y_1)^2} 3+\frac{(Y_{13}-\overline Y_1)^2} 3\\\text{     }\text =\frac{(9-10)^2} 3+\frac{(10-10)^2} 3+\frac{(11-10)^2} 3=\frac 1 3+\frac 0 3+\frac 1 3=\frac 2 3 \end{gathered}$

beziehungsweise
$\begin{gathered}S_2^2=\frac{\sum _{i=1}^{(N_2\text =)2}\left(Y_{2i}-\overline Y_2\right)^2} 2=\frac{(Y_{21}-\overline Y_1)^2} 2+\frac{(Y_{22}-\overline Y_1)^2} 2\\\text{ }\text =\frac{(18-20)^2} 2+\frac{(22-20)^2} 2=\frac 4 2+\frac 4 2=4\end{gathered}$

und
$\sum _{h=1}^{M=2}N_hS_h=N_1S_1+N_2S_2=3\ast \sqrt{\frac 2 3}+2\ast \sqrt 4=\sqrt 3\ast \sqrt 2+4.$

Da der Stichprobenumfang n = 3 beträgt, kann nun $n_{1,\mathit{opt}}\text{  }\text{und}\text{  }n_{2,\mathit{opt}}$ berechnet werden zu:
$n_{1,\mathit{opt}}=\left[n\frac{N_1S_1}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{3\sqrt{2/3}}{\sqrt 6+4}\right]+1=1.$ und $n_{2,\mathit{opt}}=\left[n\frac{N_2S_2}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{2\ast 2}{\sqrt 6+4}\right]+1=2.$

Somit wird ersichtlich, dass in Schicht zwei eine Vollerhebung durchgeführt werden sollte. In Schicht eins reicht das Ziehen eines Elements. Abschließend wird der geschichtete Schätzer bestimmt: Die benötigten Mittelwerte finden sich in der unmittelbar anchließenden Tabelle:

1. Stichprobe: $\hat{\overline Y}_{{\mathit{GS}}_1}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 59+\frac 2 520=13,4$

2. Stichprobe: $\hat{\overline Y}_{{\mathit{GS}}_2}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 510+\frac 2 520=14$

3. Stichprobe: $\hat{\overline Y}_{{\mathit{GS}}_3}=\sum _{h=1}^{M}\frac{N_h} N\overline y_h=\frac 3 511+\frac 2 520=14,6.$

Für die geschichtete Stichprobe ergeben sich somit folgende Werte:

$Y_i$

$Y_i$ $Y_j$

$\overline y_1$

$\overline y_2$

$\hat{\overline Y}_{{\mathit{GS}}_i}$

9

18  22

9

$\frac 1 2(18+22)=20$

13,4

10

18  22

10

20

14

11

18  22

11

20

14,6

$E\left(\hat{\overline Y}_{\mathit{GS}}\right)=\frac 1 3\sum _{i=1}^{3}\hat{\overline Y}_{{\mathit{GS}}_i}$

14

Auch die Varianz kann jetzt berechnet werden zu:

$\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)=\frac 1 3\sum _{i=1}^3\left(\hat{\overline Y}_{{\mathit{GS}}_i}-14\right)^2=\frac 1 3\left((13,4-14)^2\right)+\left((14-14)^2\right)+\left((14,6-14)^2\right)=0,24.$

Auch hier konnte dank des geschichteten Schätzers eine Varianzreduktion erreicht werden. Dies ist ein Beleg, dass der gewählte Ansatz zu einem optimalen Ansatz geführt hat.

Probleme

Eine Schwierigkeit bei dieser Vorgehensweise ist die, dass die Kenntnis von $S_h^2$ vorausgesetzt wird. Vor Stichprobenziehung ist dies aber meistens nicht der Fall.
Alternativ kann eine kleine Stichprobe gezogen werden, um die Größe $S_h^2$ zu schätzen.
In einigen Fällen ist dies mit zusätzlichen Kosten verbunden, welche eher unerwünscht sind.
Diese Vorgehensweise findet meistens dann Anwendung, wenn die Größe $S_h^2$ bereits aus vorherigen Studien vorliegt, welche nun verwendet werden kann.
Die optimale Aufteilung entspricht der proportionalen Aufteilung, wenn die Varianzen in den einzelnen Schichten gleich sind, das heißt $S_h^2=S^2.$

Folgende Herangehensweise empfiehlt sich.

Empehlung

Tipp

Methode

Bei begründeter Annahme der Gleichheit der Varianzen der einzelnen Schichten empfiehlt es sich, die optimale Aufteilung durch die proportionale Aufteilung zu ersetzen.

Tipp

Methode

Treten deutliche Unterschiede in den einzelnen Schichten bezüglich der Varianz des zu untersuchenden Merkmals auf oder sind die Schichten selbst in sich unterschiedlich homogen, so ist es sehr ratsam, die optimale Aufteilung zu benutzen.

Beispiel zur Empfehlung

Beispiel

Ein Unternehmen, welches aus vielen Supermärkten besteht möchte erfahren, ob die Kundenzufriedenheit gut ist. Auch möchte dieses Unternehmen wissen, ob die Kundenbedürfnisse gut berücksichtigt werden. Diesbezüglich soll eine Umfrage durchgeführt werden. Nun ist es so, dass das Unternehmen über mehrere Supermärkte in verschieden Regionen verfügt. An dieser Stelle kann sofort die Entscheidung getroffen werden, dass die Regionen die einzelnen Schichten darstellen. Die Supermärkte in den verschiedenen Regionen weisen eine unterschiedliche Kundenstruktur auf. Während einzelne Supermärkte aus ländlichen Regionen eine homogene (einseitige) Kundenstruktur aufweisen (meistens Bauern und deren Angehörige), so besitzt der Supermarkt in Großstädten wie z.B. München eine gemischte Kundenstruktur bestehend aus Touristen, Geschäftsleuten und „innovativen“Menschen. Es kommt sofort zur begründeten Annahme: Je homogener die Bedürfnisse der Kunden, desto homogener die Kundenstruktur. Dann wird es -in diesen Regionen- aber auch zu weniger Varianz bezüglich der durchzuführenden Umfrage geben. Somit ist es besser eine kleinere Stichprobe auf dem Land zu ziehen als in der Stadt.

Es wird nun die dritte Möglichkeit der Stichprobenziehung ermittelt.

Neben der Homogenität der einzelnen Schichten spielt auch der Kostenfaktor eine wichtige Rolle.

Es kann durchaus vorkommen, dass die Erhebung in den einzelnen Schichten unterschiedlich teuer ist. Dies führt dann sofort zu der Kosten-optimalen Aufteilung.

Kostenoptimale Aufteilung

Die Kosten für Beschaffung von Informationen über ein Individuum aus der h-ten Schicht lägen bei $k_h,h=1,..,M.$

Dann folgt sofort für die Gsamtkosten der geschichteten Stichprobe: $K=k_0+k_1n_1+...+k_Mn_M.$

Hier sind $k_0$ die Fixkosten. Schließlich erhält man für die Kostenoptimale Aufteilung
$n_{h,\mathit{kostenopt}}=\left[n\frac{\frac{N_hS_h}{\sqrt{k_h}}}{\sum _{h=1}^MN_hS_h/\sqrt{k_h}}\right]+1.$

In der h-ten Schicht belaufen sich die Kosten also auf $n_{h,\mathit{kostenopt}}k_h.$

Beispiel zur kostenoptimalen Aufteilung

Beispiel

Es wird eine Umfrage zur Beurteilung von Risiko und Erfolgsfaktoren von neuen Unternehmen durchgeführt. Zuerst wird eine Stichprobe von Unternehmen gezogen, die im Jahr X die Gründung anmeldeten. Die Stichprobe selbst ist im Jahr X+c [Jahr] gezogen worden. Dann wurden die Unternehmensgründer aufgefordert sich rückblickend zu Erfolg und Mißerfolg zu äußern. Hier besteht die begründete Annahme, dass Unternehmer, welche bereits Konkurs angemeldet haben, wenig Willens sind sich zu äußern. Andererseits werden diejenigen Unternehmer, welche weiterhin erfolgreich sind, sich gerne mitteilen. Deswegen ist es sehr nützlich im vorliegenden Beispiel eine Unterteilung der Unternehmer, in zwei Schichten, vorzunehmen. Einmal die erfolgreichen Unternehmer und zum anderen die erfolglosen Unternehmer. Anschließend sollte die Stichprobe so sein, dass überproportional viele erfolglose Unternehmer befragt werden sollten, Dies vor allem deswegen, um dem erwarteten zurückhaltenden Antwortverhalten der erfolglosen Unternehmer entgegenzukommen.

Aufgabe zur Wahl des Stichprobenumfangs

Es sei folgende Grundgesamtheit gegeben:
$Y_1=23,\text{   }Y_2=12,\text{   }Y_3=10,\text{   }Y_4=20,\text{   }Y_5=11.$

a) Wählen Sie eine angebrachte Unterteilung der Grundgesamtheit in Schichten.

b) Entscheiden Sie sich dann für den geeigneten Stichprobenumfang. Es ist vorauszusetzen, dass enorme Unterschiede in den einzelnen Schichten bezüglich der Varianz des zu untersuchenden Merkmals bestehen.

c) Berechnen Sie anschließend den geschichteten Schätzer.

d) In einem letzten Schritt können Sie die Varianz bestimmen. Tun Sie dies und kommentieren Sie das erhaltene Ergebnis der Varianz.

e) Was können Sie bezüglich der Vorgehensweise sagen ?

Lösung:

Zu a): Anhand der Werte ist ersichtlich, dass nur folgende Unterteilung empfehlenswert ist.

Schicht 1

$Y_2=12$ $Y_3=10$ $Y_5=11$

Schicht 2

$Y_1=23$ $Y_4=20$

Zu b): Da vorausgesetzt werden muss , dass enorme Unterschiede in den einzelnen Schichten bezüglich der Varianz des zu untersuchenden Merkmals bestehen, fällt sofort die Entscheidung für die optimale-Unterteilung.

Da zwei Schichten vorliegen kann h nur die Werte eins und zwei annehmen.

Berechnung von ${n_1,\mathit{opt}:}$ Für $S_1$ und $\sum _{h=1}^MN_hS_h$(h=1,2) erhalten wir:

Die Indizes müssen entsprechend der Schichten abgeändert werden.

Zunächst ist 

$\begin{gathered}S_1^2=\frac{\sum _{i=1}^{(N_1\text =)3}\left(Y_{1i}-\overline Y_1\right)^2} 3=\frac{(Y_{11}-\overline Y_1)^2} 3+\frac{(Y_{12}-\overline Y_1)^2} 3+\frac{(Y_{13}-\overline Y_1)^2} 3\\\text{ }\text =\frac{(12-10)^2} 3+\frac{(10-10)^2} 3+\frac{(11-10)^2} 3=\frac 4 3+\frac 0 3+\frac 1 3=\frac 5 3,\end{gathered}$

analog

$\begin{gathered}S_2^2=\frac{\sum _{i=1}^{(N_2\text =)2}\left(Y_{2i}-\overline Y_2\right)^2} 2=\frac{(Y_{21}-\overline Y_1)^2} 2+\frac{(Y_{22}-\overline Y_1)^2} 2\\\text{ }\text =\frac{(23-20)^2} 2+\frac{(20-20)^2} 2=\frac 9 2 \end{gathered}$

und

$\sum _{h=1}^{M=2}N_hS_h=N_1S_1+N_2S_2=3\ast \sqrt{\frac 5 3}+2\ast \sqrt{\frac 9 2}=\sqrt{15}+\sqrt{18}.$

Der Stichprobenumfang ist n = 3, so dass sich für $n_{1,\mathit{opt}}\text{  }\text{und}\text{  }n_{2,\mathit{opt}}$ folgende Werte ergeben: 
$n_{1,\mathit{opt}}=\left[n\frac{N_1S_1}{\sum _{h=1}^2N_hS_h}\right]+1=\left[3\frac{3\sqrt{5/3}}{\sqrt{15}+\sqrt{18}}\right]+1=2.$

und $n_{2,\mathit{opt}}=\left[n\frac{N_2S_2}{\sum _{h=1}^2N_2S_2}\right]+1=\left[3\frac{2\ast \sqrt{9/2}}{\sqrt{15}+\sqrt{18}}\right]+1=2.$

In Schicht zwei sollte eine Vollerhebung durchgeführt werden.

In Schicht eins reicht das Ziehen zweier Elemente.

Zu c):

Für den geschichteten Schätzer folgt:

1 .Stichprobe: $hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 510,5+\frac 2 521,5=14,9$

2. Stichprobe: $\hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 511+\frac 2 521,5=15,2$

3. Stichprobe: $\hat{\overline Y}_{\mathit{GS}}=\sum _{h=1}^M\frac{N_h} N\overline y_h=\frac 3 511,5+\frac 2 521,5=15,5.$

Insgesamt ergeben sich für die geschichtete Stichprobe folgende Werte:

$Y_i$ $Y_i$ $\overline y_1$ $\overline y_2$ $\hat{\overline Y}_{{\mathit{GS}}_i}$

10 11

20 23

(10+11)/2=10,5

(20+23)/2=21,5

14,9

10 12

20 23

11

21,5

15,2

11 12

20 23

11,5

21,5

15,5

$E\left(\hat{\overline Y}_{\mathit{GS}}\right)\text =$

15,2

Der geschichtete Schätzer hat also den Erwartungswert: $E\left(\hat{\overline Y}_{\mathit{GS}}\right)=15,2.$

Zu d):

Die Varianz kann berechnet werden durch:
$\mathit{VAR}\left(\hat{\overline Y}_{\mathit{GS}}\right)$
=$\frac 1 3\sum _{i=1}^3\left(\hat{\overline Y}_{{\mathit{GS}}_i}-15,2\right)^2$
=$\frac 1 3\left((14,9-15,2)^2\right)+\left((15,2-15,2)^2\right)+\left((15,5-15,2)^2\right)$
=$0,06.$

Auch hier konnte dank des geschichteten Schätzers eine Varianzreduktion erreicht werden.

Zu e):

Dies ist ein Beleg für die korrekte Wahl des Stichprobenumfangs bei diesem Beispiel.

Multiple-Choice

Welche der folgenden Aussagen kommt der Wahrheit am nächsten?

0/0
Lösen

Hinweis:

Bitte kreuzen Sie die richtigen Aussagen an. Es können auch mehrere Aussagen richtig oder alle falsch sein. Nur wenn alle richtigen Aussagen angekreuzt und alle falschen Aussagen nicht angekreuzt wurden, ist die Aufgabe erfolgreich gelöst.

Bild von Autor Daniel Lambert

Autor: Daniel Lambert

Dieses Dokument Wahl des Stichprobenumfangs ist Teil eines interaktiven Online-Kurses zum Thema Stichprobentheorie.

Dipl.-Math. Dipl.-Kfm. Daniel Lambert gibt seit vielen Jahren Kurse zur Prüfungsvorbereitung. Er unterrichtet stets orientiert an alten Prüfungen und weiß aus langjähriger Erfahrung, wie sich komplexe Sachverhalte am besten aufbereiten und vermitteln lassen. Daniel Lambert ist Repetitor aus Leidenschaft seit nunmehr 20 Jahren.
Vorstellung des Online-Kurses StichprobentheorieStichprobentheorie
Dieser Inhalt ist Bestandteil des Online-Kurses

Stichprobentheorie

wiwiweb - Interaktive Online-Kurse (wiwiweb.de)
Diese Themen werden im Kurs behandelt:

[Bitte auf Kapitelüberschriften klicken, um Unterthemen anzuzeigen]

  • Übersicht über auftretende Symbole
    • Einleitung zu Übersicht über auftretende Symbole
  • Schätzen
    • Schätzfunktionen
      • Einleitung zu Schätzfunktionen
      • Aufgaben, Beispiele und Berechnungen zu Schätzfunktionen
    • Eigenschaften von Schätzfunktionen
      • Einleitung zu Eigenschaften von Schätzfunktionen
      • Aufgaben, Beispiele und Berechnungen zur Erwartungstreue
    • Asymptotische Erwartungstreue
    • Effizienz
    • Konsistenz
    • Konfidenzintervalle
      • Einleitung zu Konfidenzintervalle
      • Vorgehensweisen, Kochrezepte zur Bestimmung des entsprechenden Konfidenzintervalls
      • Anwendung der Kochrezepte auf Beispiele
      • Aufgaben, Berechnungen und Beispiele zu Konfidenzintervallen
      • Notwendiger Stichprobenumfang
  • Testtheorie
    • Einleitung zu Testtheorie
    • Signifikanztests bei einfachen Stichproben
    • Mehrstichprobentests bei unabhängigen Stichproben
    • Tests bei zwei verbundenen Stichproben
    • Fehlerarten
    • Hypothesenauswahl
      • Einleitung zu Hypothesenauswahl
      • Funktionsweise eines Tests am Beispiel des Einstichproben-Gaußtests
    • Testverteilungen
  • Hochrechnung
    • Einleitung zu Hochrechnung
    • Differenzenschätzung
      • Einleitung zu Differenzenschätzung
      • Verhältnisschätzung (Quotientenschätzer)
    • Klumpen und geschichtete Stichproben
      • Einleitung zu Klumpen und geschichtete Stichproben
      • Geschichtete Stichproben
        • Einleitung zu Geschichtete Stichproben
        • Aufgaben, Beispiele und Berechnungen zu geschichteten Stichproben
      • Wahl des Stichprobenumfangs
  • Regressionsrechnung (Regressionsschätzer)
    • Einleitung zu Regressionsrechnung (Regressionsschätzer)
  • Gemischte Übungsaufgaben zur Stichprobentheorie (Aufgaben 1 bis 5)
    • Einleitung zu Gemischte Übungsaufgaben zur Stichprobentheorie (Aufgaben 1 bis 5)
    • Aufgaben 6 bis 10 zur Stichprobentheorie
    • Aufgaben 11 bis 15 zur Stichprobentheorie
    • Aufgaben 16 bis 20 zur Stichprobentheorie
    • Aufgaben 21 bis 25 zur Stichprobentheorie
    • Aufgaben 26 bis 30 zur Stichprobentheorie
    • Aufgaben 31 bis 35 zur Stichprobentheorie
    • Aufgaben 36 bis 40 zur Stichprobentheorie
    • Aufgaben 41 bis 45 zur Stichprobentheorie
    • Aufgaben 46 bis 50 zur Stichprobentheorie
    • Aufgaben 51 bis 55 zur Stichprobentheorie
  • 40
  • 24
  • 144
  • 21
einmalig 49,00
umsatzsteuerbefreit gem. § 4 Nr. 21 a bb) UStG
Online-Kurs Top AngebotTrusted Shop

Unsere Nutzer sagen:

  • Gute Bewertung für Stichprobentheorie

    Ein Kursnutzer am 28.12.2015:
    "sehr gut erklärt und vorgelesen "

  • Gute Bewertung für Stichprobentheorie

    Ein Kursnutzer am 04.07.2015:
    "super kurs"

NEU! Sichere dir jetzt die perfekte Prüfungsvorbereitung und spare 10% bei deiner Kursbuchung!

10% Coupon: lernen10

Zu den Online-Kursen