ZU DEN KURSEN!

Stichprobentheorie - Regressionsrechnung (Regressionsschätzer)

Kursangebot | Stichprobentheorie | Regressionsrechnung (Regressionsschätzer)

Stichprobentheorie

Regressionsrechnung (Regressionsschätzer)

Inhaltsverzeichnis

Beachte

Merke

Sowohl beim Differenzenschätzer als auch beim Quotientenschätzer wurde ausgenutzt, dass die Sekundärinformation zur Annäherung der Primärinformation dienen kann.

Zur Erinnerung wird erwähnt dass beim Quotientenschätzer dies bedeutet, dass die Größen X und Y annährend proportional zueinander sind.

Beachte

Merke

Nun kommt es zur Verallgemeinerung. Das heißt, dass nun die Sekundärinformation X auf die uns interessierende Primärinformation Y einen Einfluß hat. Der Einfluß wird mittels einer Regression formuliert. Dies bedeutet konkret, dass angenommen wird, dass A + BX als Approximation für Y dienen kann.

Dies wird nun an einem Beispiel verdeutlicht.

Beispiel

Beispiel

Aufgrund der Einführung eines neuen Produkts plant ein Unternehmen eine Marktanalyse durchzuführen. Der Grund für diese Vorgehensweise ist der, dass Hinweise darauf deuten, dass das Produkt von verschiedenen Altersgruppen unterschiedlich stark akzeptiert (gekauft) wird. Auch wird begründet davon Ausgegangen, dass das Produkt von Männern anders angesehen wird als von Frauen. Anhand von, im Unternehmen geführten, Statistiken liegen Sekundärinformationen über die Population vor. So ist die Altersverteilung pro Geschlecht bekannt. Nun beginnt das Unternehmen seine Umfrage, indem es zufällig Individuen aus der Population auswählt mittels einer einfachen ZufallsStichprobe und die Individuen nach der Akzeptanz des Produkts fragt. Ist es nun so, dass die Alters- oder Geschlechtsstruktur in der Stichprobe zufällig anders als in der Population ist, so kann und sollte das Stichprobenergebnis diesbezüglich korrigiert werden. Es könnte zum Beispiel der Fall eintreten, dass in der Stichprobe der Frauenanteil geringer ist als der in der Bevölkerung oder Frauen dem Produkt mehr abgeneigt sind als Männer. Dann muss natürlich das Stichprobenergebnis (die Stichprobe) korrigiert werden.

Aus Gründen der Einfachheit wird davon ausgegangen, dass eine eindimensionale Sekundärinformation X vorliegt. Dies war beim Quotientenschätzer und Differenzenschätzer auch der Fall.

Konkret ergeben sich folgende Gesetzmäßigkeiten

Regressionsschätzer

Es sei eine einfache Zufallsstichprobe mit den Sekundärinformationen $x_1,...,x_n.$ und den Primärinformationen $y_1,...,y_n.$ gegeben.

Der Mittelwert $\overline X$ des Sekundärmekmals in der Grundgesamtheit sei bekannt.

Dann ist der Regressionsschätzer für den Mittelwert gegeben durch:

$\hat{\overline Y}_{\mathit{REG}}=\overline y+\hat B(\overline X-\overline x),$
wobei

$\hat B=\frac{\sum _{i=1}^n(x_i-\overline x)(y_i-\overline y)}{\sum _{i=1}^n(x_i-\overline x)^2}=\frac{S_{\mathit{XY}}}{S_X^2}.$

Für die Schätzung der Varianz von $\hat{\overline Y}_{\mathit{REG}}$ gilt:

$\hat{\mathit{VAR}\left(\hat{\overline Y}_{\mathit{REG}}\right)}=\frac{N-n} N\frac 1{n(n-2)}\sum _{i=1}^n\left[(y_i-\overline y)-\hat B(x_i-\overline x)\right]^2.$

Auch hier vertiefen wir die Theorie mittels eines Beispiels.

Beispiel

Beispiel

In einer Schule möchte der Lehrer die Schüler der 13 -ten Klasse über das Fach Statistik informieren. Er stellt ein konkretes Themengebiet vor. Das Interesse für die Theorie ist gering. Sofort im Anschluß möchte er den Schülern anhand eines Beispiels die Möglichkeiten dieser Theorie vor Augen führen. Zunächst fragt der Lehrer, ob er die Schüler nach ihrem Geld, welches sie dabei haben fragen darf. Alle Schüler beantworten diese Frage mit „Ja“. Nun kann der Versuch beginnen. Das Ziel ist es zu erfahren, wieviel Geld ein Schüler im Mittel bei sich hat. Erst werden, die leicht zu erfahrenden Sekundärinformationen beschafft. Dies geschieht dadurch, dass die Schüler zuerst schätzen sollen, wieviel Geld sie in ihrer Geldbörse haben. Natürlich darf keiner der Schüler vorher nachschauen, wieviel Geld er bei sich hat. Die so erhaltenen Daten werden mit $X_i$ notiert.

Der Versuch ergibt folgende Werte:

$X_i$

$\overline X=\frac 1{13}\sum _{i=1}^{13}X_i$

25

28,15

35

28,15

15

28,15

21

28,15

45

28,15

10

28,15

19

28,15

5

28,15

4

28,15

3

28,15

60

28,15

58

28,15

66

28,15

Jetzt wird jedem Schüler eine Nummer von eins bis dreizehn gegeben. Dadurch wird eine Populationsliste erzeugt. Aus dieser Liste werden zehn Elemente (Schüler) gezogen. Diese zehn Schüler geben dann exakt das je in ihrer Geldbörse vorhandene Geld $y_i$ an, indem sie es vorher zählen. Somit ergibt sich zusätzlich zu der Sekundärinformation $x_i=1,...,10$ die Primärinformation $y_i,i=1,...,10.$

$x_i$

$y_i$

$\overline x$

$\overline y$

25

10,48

25,10

36,36

35

50,54

25,1

36,36

15

30,12

25,1

36,36

21

25,1

25,1

36,36

58

58,55

25,1

36,36

66

70

25,1

36,36

19

60,23

25,1

36,36

5

20,54

25,1

36,36

4

28

25,1

36,36

3

10

25,1

36,36

Nun werden wir den Regressionschätzer berechnen.

Es ist $S_x^2=\frac 1{10-1}\sum _{i=1}^{10}(x_i-\overline x)^2=\frac 1 9\left((25-25,1)^2+(35-25,1)^2+...+(3-25,1)^2\right)=482,99$

und $S_{\mathit{xy}}=\frac 1 9\sum _{i=1}^{10}\left((x_i-\overline x)(y_i-\overline y)\right)=\frac 1 9\left((25-25,1)(50,54-36,36)+...+(3-25,1)(10-36,36)\right)=365,49.$

Also ist $\hat B=\frac{S_{\mathit{XY}}}{S_X^2}=\frac{365,49}{482,99}=0,757.$

Nun sind wir in der Lage den Regressionsschätzer zu bestimmen:

$\hat{\overline Y}_{\mathit{REG}}=\overline y+\hat B(\overline X-\overline x)=36,36+0,7517(28,15-25,1)=38,67.$