ZU DEN KURSEN!

Deskriptive Statistik - Methode der Kleinsten Quadrate

Kursangebot | Deskriptive Statistik | Methode der Kleinsten Quadrate

Deskriptive Statistik

Methode der Kleinsten Quadrate

Auch bei dieser Methode der Zeitreihenanalyse, der Methode der Kleinsten Quadrate, orientieren wir uns an einem weiteren Beispiel.

Beispiel

Hier klicken zum Ausklappen

Beispiel 62:
In der Kleinstadt Poisson-City wurden die folgenden Daten erhoben:

$$\ x_i $$ $$\ y_i $$
35
78
910
58
64

Berechne eine lineare Regression mit Hilfe der Methode der Kleinsten Quadrate. Zunächst malt man die Punktwolke, bestehend aus den x- und den y-Werten, auf. So ist z.B. $\ (x_5, y_5) = (6,4) $ der fünfte Punkt der Wolke. Graphisch sieht dies folgendermaßen aus:

Punktwolke
Punktwolke

Es bezeichnet $\ x $ den Regressor (= erklärende Variable = exogene Variable) und $\ y $ den Regressanden (= erklärte Variable = endogene Variable).
Folgende Fragen stellen sich:

  • Kann man einen linearen Trend durch die Punkte (die sog. Punktwolke) legen, die gewissen Optimalitätseigenschaften genügt?
  • Lässt sich damit prognostizieren, was der y-Wert ist, wenn z.B. x = 11 oder 12 etc. ist?

Punktwolke, Regressionsgerade und Residuenquadrate

Die Fragen werden beantwortet durch die Methode der Kleinsten Quadrate (= KQ-Methode = OLS-Methode (Ordinary-Least-Squares-Methode)). Man legt eine Regressionsgerade (= Ausgleichsgerade) so durch die Punktwolke, dass die Summe der Quadrate der sogenannten Residuen $\ e_i $ insgesamt minimal ist. Ein Residum ist hierbei die Differenz aus beobachtetem Wert $\ y_i $ und dem durch die Gerade geschätzten Wert $\ \hat y_i $.

Punktwolke, Regressionsgerade und Residuenquadrate
Punktwolke, Regressionsgerade und Residuenquadrate
  • Die Werte $\ \hat y_i $ (mit Dach, also geschätzt), die man durch die Gerade erhält, berechnen sich durch $\ \hat y_i = a + b \cdot x_i $. Sie sind die y-Werte, die man eigentlich erhalten müsste, wenn die Gerade absolut richtig wäre. Damit geben die $\ \hat y_i $–Werte die durch die Regression erklärten Werte an. Für das konkrete Beispiel sind die $\ \hat y_i $– Daten weiter unten ausgerechnet.
  • Die Werte $\ y_i $ hingegen (ohne Dach, also nicht geschätzt, sondern wahr) sind die tatsächlich beobachteten Werte.
  • Die Differenz zwischen dem tatsächlichen Wert $\ y_i $ und dem durch die Gerade berechneten Wert $\ \hat y_i $ heißt Residuum $\ e_i $, d.h. $\ e_i = y_i – \hat y_i $.

Errechnet werden soll nun die lineare Schätzung $\ y = ax + b $, die die Summe der Residuenquadrate minimiert.
Man erhält die Steigung b der Geraden durch unterschiedlich aussehende Formeln:

$$\ b={ \sum_{i=1}^n (x_i- \overline x) \cdot (y_i - \overline y) \over \sum_{i=1}^n (x_i - \overline x)^2 } $$ Steigung der Regressionsgeraden $$\ b = {{n \cdot \sum_{i=1}^n x_i \cdot y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i} \over { n \cdot \sum_{i=1}^n x_i^2 -( \sum_{i=1}^n x_i)^2}} $$ $$\ b=r_{BP} \cdot {s_Y \over s_X} $$

Den Ordinatenabschnitt a errechnet man durch $$\ a= \overline y -b \cdot \overline x $$
$$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \overline y - \overline x \cdot { {\sum_{i=1}^n x_i \cdot y_i} \over n}} \over { {1 \over n} \sum_{i=1}^n (x_i - \overline x)^2}} $$ Ordinatenabschnitt der Regressionskurve
$$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n x_i \cdot y_i} \over {n \cdot \sum_{i=1}^n x_i ^2 - (\sum_{i=1}^n x_i)^2}} $$

Berechnung am Beispiel

Rechnen wir dies mit den Zahlen des Beispiels 62 aus:

i $\ x_i $ $\ y_i $ $\ x_i^2 $ $\ X_i \cdot Y_i $ $\ (x_i- \overline x)^2 $ $\ (y_i- \overline y)^2 $ $\ (x_i- \overline x) \cdot (y_i- \overline y) $
135915946
2784956111
39108190999
458254011-1
5643624090
$$\ \sum $$ 30 35 200 225 20 24 15

Damit erhält man zunächst die Steigung b der Regressionsgeraden als
$$\ b={{ \sum_{i=1}^n (x_i- \overline x) \cdot (y_i - \overline y) \over \sum_{i=1}^n (x_i - \overline x)^2 }} = {15 \over 20}=0,75 $$ oder mit der anderen Formel $$\ b = {{n \cdot \sum_{i=1}^n x_i \cdot y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i} \over { n \cdot \sum_{i=1}^n x_i^2 -( \sum_{i=1}^n x_i)^2}}={ {{5 \cdot 225}-{30 \cdot 35} \over {5 \cdot 200} -30^2}}=0,75 $$ Den Ordinatenabschnitt a erhält man mit
$$\ a= \overline y -b \cdot \overline x = 7-0,75 \cdot 6=2,5 $$ oder durch $$\ a={{ \sum_{i=1}^n x_i^2 \cdot \overline y - \overline x \cdot { {\sum_{i=1}^n x_i \cdot y_i} \over n}} \over { {1 \over n} \sum_{i=1}^n (x_i - \overline x)^2}}={{200 \over 50} \cdot 7-6 \cdot {225 \over 5} \over {20 \over 5}} ={10 \over 4}= 2,5 $$ bzw. $$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n x_i \cdot y_i} \over {n \cdot \sum_{i=1}^n x_i ^2 - (\sum_{i=1}^n x_i)^2}} ={{200 \cdot 35} -{30 \cdot 225} \over {5 \cdot 200} -30^2 }=2,5 $$
Zeichnen wir diese Gerade:

Regressionsgerade nach der KQ-Methode
Regressionsgerade nach der KQ-Methode

Die Residuen errechnen sich damit als Differenz aus beobachteten Werten yi und den durch die Gerade geschätzten Werten $\ \hat y_i $, d.h. $\ e_i = y_i - \hat y_i $. Konkret gilt für die durch die Gerade geschätzten Werte
$\ \hat y_1 = 2,5 + 0,75 \cdot 3 = 4,75 $,
$\ \hat y_2 = 2,5 + 0,75 \cdot 7 = 7,75 $, entsprechend
$\ \hat y_3 = 9,25, \hat y_4 = 6,25 $ und $\ \hat y_5 = 7 $.
Damit lautet das erste Residuum
$\ e_1 = 5 – 4,75 = 0,25 $, die anderen Residuen sind
$\ e_2 = 0,25, e_3 = 0,75, e_4 = 1,75, e_5 = -3 $.
Die Residuenquadrate sind in der folgenden Tabelle eingetragen.

$\ x_i $ $ y_i $ $\ \hat y_i $ $\ e_i $ $\ e_i^2 $
354,750,250,0625
787,750,250,0625
9109,250,750,5625
586,251,753,0625
647-39
    $\ \sum e_i^2=12,75 $

Die Summe der Residuenquadrate ist damit $\ \sum e_i^2= 12,75 $.
Die Frage ist nun, wie gut die Anpassung der Punkte funktioniert durch eine lineare Regression. Dies lässt sich mithilfe des Determinationskoeffizienten (= Bestimmtheitsmaß) D beantworten:
$$\ D= {s_{ \hat y}^2 \over s_y^2 }= { \sum_{i=1}^n ( \hat y_i- \overline y)^2 \over \sum_{i=1}^n (y_i - \overline y)^2} $$

Es gilt:

  • D ist der durch die Regression erklärte Anteil der Varianz, was aus der o.e. Definition ersichtlich ist.
  • Der Ausdruck $\ s_{ \hat y}^2 $ ist die Varianz der Werte der Geraden $\ \hat y $,
  • hingegen ist $\ s_y^2 $ die Varianz der empirisch beobachteten Werte $\ y_i, i = 1,…, n, $
  • D liegt zwischen 0 und 1, d.h. es gilt $\ 0 \leq D \leq 1 $,
  • D ist maßstabsunabhängig,
  • D lässt sich auch berechnen durch $$\ D= 1 - {{ \sum_{i=1}^n e_i^2} \over { \sum_{i=1}^n (y_i - \overline y)^2}} $$
  • $\ D = r_2 $, d.h. der Determinationskoeffizient ist das Quadrat des Bravais-Pearsonschen Korrelationskoeffizienten.