Inhaltsverzeichnis
Auch bei dieser Methode der Zeitreihenanalyse, der Methode der Kleinsten Quadrate, orientieren wir uns an einem weiteren Beispiel.
Beispiel
Beispiel 62:
In der Kleinstadt Poisson-City wurden die folgenden Daten erhoben:
$$\ x_i $$ | $$\ y_i $$ |
3 | 5 |
7 | 8 |
9 | 10 |
5 | 8 |
6 | 4 |
Berechne eine lineare Regression mit Hilfe der Methode der Kleinsten Quadrate. Zunächst malt man die Punktwolke, bestehend aus den x- und den y-Werten, auf. So ist z.B. $\ (x_5, y_5) = (6,4) $ der fünfte Punkt der Wolke. Graphisch sieht dies folgendermaßen aus:
Es bezeichnet $\ x $ den Regressor (= erklärende Variable = exogene Variable) und $\ y $ den Regressanden (= erklärte Variable = endogene Variable).
Folgende Fragen stellen sich:
- Kann man einen linearen Trend durch die Punkte (die sog. Punktwolke) legen, die gewissen Optimalitätseigenschaften genügt?
- Lässt sich damit prognostizieren, was der y-Wert ist, wenn z.B. x = 11 oder 12 etc. ist?
Punktwolke, Regressionsgerade und Residuenquadrate
Die Fragen werden beantwortet durch die Methode der Kleinsten Quadrate (= KQ-Methode = OLS-Methode (Ordinary-Least-Squares-Methode)). Man legt eine Regressionsgerade (= Ausgleichsgerade) so durch die Punktwolke, dass die Summe der Quadrate der sogenannten Residuen $\ e_i $ insgesamt minimal ist. Ein Residum ist hierbei die Differenz aus beobachtetem Wert $\ y_i $ und dem durch die Gerade geschätzten Wert $\ \hat y_i $.
- Die Werte $\ \hat y_i $ (mit Dach, also geschätzt), die man durch die Gerade erhält, berechnen sich durch $\ \hat y_i = a + b \cdot x_i $. Sie sind die y-Werte, die man eigentlich erhalten müsste, wenn die Gerade absolut richtig wäre. Damit geben die $\ \hat y_i $–Werte die durch die Regression erklärten Werte an. Für das konkrete Beispiel sind die $\ \hat y_i $– Daten weiter unten ausgerechnet.
- Die Werte $\ y_i $ hingegen (ohne Dach, also nicht geschätzt, sondern wahr) sind die tatsächlich beobachteten Werte.
- Die Differenz zwischen dem tatsächlichen Wert $\ y_i $ und dem durch die Gerade berechneten Wert $\ \hat y_i $ heißt Residuum $\ e_i $, d.h. $\ e_i = y_i – \hat y_i $.
Errechnet werden soll nun die lineare Schätzung $\ y = bx + a $, die die Summe der Residuenquadrate minimiert.
Man erhält die Steigung b der Geraden durch unterschiedlich aussehende Formeln:
$$\ b={ \sum_{i=1}^n (x_i- \overline x) \cdot (y_i - \overline y) \over \sum_{i=1}^n (x_i - \overline x)^2 } $$ Steigung der Regressionsgeraden $$\ b = {{n \cdot \sum_{i=1}^n x_i \cdot y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i} \over { n \cdot \sum_{i=1}^n x_i^2 -( \sum_{i=1}^n x_i)^2}} $$ $$\ b=r_{BP} \cdot {s_Y \over s_X} $$
Den Ordinatenabschnitt a errechnet man durch $$\ a= \overline y -b \cdot \overline x $$
$$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \overline y - \overline x \cdot { {\sum_{i=1}^n x_i \cdot y_i} \over n}} \over { {1 \over n} \sum_{i=1}^n (x_i - \overline x)^2}} $$ Ordinatenabschnitt der Regressionskurve
$$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n x_i \cdot y_i} \over {n \cdot \sum_{i=1}^n x_i ^2 - (\sum_{i=1}^n x_i)^2}} $$
Berechnung am Beispiel
Rechnen wir dies mit den Zahlen des Beispiels 62 aus:
i | $\ x_i $ | $\ y_i $ | $\ x_i^2 $ | $\ X_i \cdot Y_i $ | $\ (x_i- \overline x)^2 $ | $\ (y_i- \overline y)^2 $ | $\ (x_i- \overline x) \cdot (y_i- \overline y) $ |
1 | 3 | 5 | 9 | 15 | 9 | 4 | 6 |
2 | 7 | 8 | 49 | 56 | 1 | 1 | 1 |
3 | 9 | 10 | 81 | 90 | 9 | 9 | 9 |
4 | 5 | 8 | 25 | 40 | 1 | 1 | -1 |
5 | 6 | 4 | 36 | 24 | 0 | 9 | 0 |
$$\ \sum $$ | 30 | 35 | 200 | 225 | 20 | 24 | 15 |
Damit erhält man zunächst die Steigung b der Regressionsgeraden als
$$\ b={{ \sum_{i=1}^n (x_i- \overline x) \cdot (y_i - \overline y) \over \sum_{i=1}^n (x_i - \overline x)^2 }} = {15 \over 20}=0,75 $$ oder mit der anderen Formel $$\ b = {{n \cdot \sum_{i=1}^n x_i \cdot y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i} \over { n \cdot \sum_{i=1}^n x_i^2 -( \sum_{i=1}^n x_i)^2}}={ {{5 \cdot 225}-{30 \cdot 35} \over {5 \cdot 200} -30^2}}=0,75 $$ Den Ordinatenabschnitt a erhält man mit
$$\ a= \overline y -b \cdot \overline x = 7-0,75 \cdot 6=2,5 $$ oder durch $$\ a={{ \sum_{i=1}^n x_i^2 \cdot \overline y - \overline x \cdot { {\sum_{i=1}^n x_i \cdot y_i} \over n}} \over { {1 \over n} \sum_{i=1}^n (x_i - \overline x)^2}}={{200 \over 50} \cdot 7-6 \cdot {225 \over 5} \over {20 \over 5}} ={10 \over 4}= 2,5 $$ bzw. $$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n x_i \cdot y_i} \over {n \cdot \sum_{i=1}^n x_i ^2 - (\sum_{i=1}^n x_i)^2}} ={{200 \cdot 35} -{30 \cdot 225} \over {5 \cdot 200} -30^2 }=2,5 $$
Zeichnen wir diese Gerade:
Die Residuen errechnen sich damit als Differenz aus beobachteten Werten yi und den durch die Gerade geschätzten Werten $\ \hat y_i $, d.h. $\ e_i = y_i - \hat y_i $. Konkret gilt für die durch die Gerade geschätzten Werte
$\ \hat y_1 = 2,5 + 0,75 \cdot 3 = 4,75 $,
$\ \hat y_2 = 2,5 + 0,75 \cdot 7 = 7,75 $, entsprechend
$\ \hat y_3 = 9,25, \hat y_4 = 6,25 $ und $\ \hat y_5 = 7 $.
Damit lautet das erste Residuum
$\ e_1 = 5 – 4,75 = 0,25 $, die anderen Residuen sind
$\ e_2 = 0,25, e_3 = 0,75, e_4 = 1,75, e_5 = -3 $.
Die Residuenquadrate sind in der folgenden Tabelle eingetragen.
$\ x_i $ | $ y_i $ | $\ \hat y_i $ | $\ e_i $ | $\ e_i^2 $ |
3 | 5 | 4,75 | 0,25 | 0,0625 |
7 | 8 | 7,75 | 0,25 | 0,0625 |
9 | 10 | 9,25 | 0,75 | 0,5625 |
5 | 8 | 6,25 | 1,75 | 3,0625 |
6 | 4 | 7 | -3 | 9 |
$\ \sum e_i^2=12,75 $ |
Die Summe der Residuenquadrate ist damit $\ \sum e_i^2= 12,75 $.
Die Frage ist nun, wie gut die Anpassung der Punkte funktioniert durch eine lineare Regression. Dies lässt sich mithilfe des Determinationskoeffizienten (= Bestimmtheitsmaß) D beantworten:
$$\ D= {s_{ \hat y}^2 \over s_y^2 }= { \sum_{i=1}^n ( \hat y_i- \overline y)^2 \over \sum_{i=1}^n (y_i - \overline y)^2} $$
Es gilt:
- D ist der durch die Regression erklärte Anteil der Varianz, was aus der o.e. Definition ersichtlich ist.
- Der Ausdruck $\ s_{ \hat y}^2 $ ist die Varianz der Werte der Geraden $\ \hat y $,
- hingegen ist $\ s_y^2 $ die Varianz der empirisch beobachteten Werte $\ y_i, i = 1,…, n, $
- D liegt zwischen 0 und 1, d.h. es gilt $\ 0 \leq D \leq 1 $,
- D ist maßstabsunabhängig,
- D lässt sich auch berechnen durch $$\ D= 1 - {{ \sum_{i=1}^n e_i^2} \over { \sum_{i=1}^n (y_i - \overline y)^2}} $$
- $\ D = r_2 $, d.h. der Determinationskoeffizient ist das Quadrat des Bravais-Pearsonschen Korrelationskoeffizienten.
Weitere Interessante Inhalte zum Thema
-
Nichtlineare Regression
Vielleicht ist für Sie auch das Thema Nichtlineare Regression (Regressionsanalyse) aus unserem Online-Kurs SPSS Software interessant.
-
Kreuztabellen
Vielleicht ist für Sie auch das Thema Kreuztabellen (Statistische Kennzahlen (Deskriptive Statistik)) aus unserem Online-Kurs SPSS Software interessant.
-
Regressionsanalyse
Vielleicht ist für Sie auch das Thema Regressionsanalyse aus unserem Online-Kurs SPSS Software interessant.
-
Beispiel Methode der Kleinsten Quadrate
Vielleicht ist für Sie auch das Thema Beispiel Methode der Kleinsten Quadrate (Zeitreihenanalyse) aus unserem Online-Kurs Deskriptive Statistik interessant.