ZU DEN KURSEN!

Deskriptive Statistik - Methode der Kleinsten Quadrate

Kursangebot | Deskriptive Statistik | Methode der Kleinsten Quadrate

Deskriptive Statistik

Methode der Kleinsten Quadrate

Auch bei dieser Methode der Zeitreihenanalyse, der Methode der Kleinsten Quadrate, orientieren wir uns an einem weiteren Beispiel.

Beispiel

Hier klicken zum Ausklappen

Beispiel 62:

In der schönen Stadt Median-City wurden die folgenden Daten erhoben:

xi
yi
46
810
1012
69
75

Berechne eine lineare Regression mit Hilfe der Methode der Kleinsten Quadrate.

Als erstes erstellt man eine Punktwolke, indem man die Punkte (also den x- und den y-Wert) in ein Koordinatensystem einträgt. Bspw. ist der 5. Punkt der Wolke $\ (x_5, y_5) = (7,5) $. Insgesamt stellt sich das Ganze für unser Beispiel folgendermaßen dar:

Punktwolke
Abb.32

Dabei beschreibt $\ x $ den Regressor (= erklärende Variable = exogene Variable) und $\ y $ den Regressanden (= erklärte Variable = endogene Variable).

Folgende Fragen stellen sich:

  1. Kann man einen linearen Trend durch die Punkte (die sog. Punktwolke) legen, die gewissen Optimalitätseigenschaften genügt?

  2. Lässt sich damit prognostizieren, was der y-Wert ist, wenn z.B. x = 12oder 13 etc. ist?

Punktwolke, Regressionsgerade und Residuenquadrate

Die gestellten Fragen könne mit Hilfe der Methode der Kleinsten Quadrate (= KQ-Methode = OLS-Methode (Ordinary-Least-Squares-Methode)) beantwortet werden. Die Regressionsgerade (= Ausgleichsgerade) wird so durch die Punktwolke gelegt, dass sich die minimale Summe der Residuen $\ e_i $ ergibt. Unter einem Residum  versteht man die Differenz aus beobachtetem Wert $\ y_i $ und dem durch die Gerade geschätzten Wert $\ \hat y_i $.

Punktwolke, Regressionsgerade und Residuenquadrate
Abb.33

Dabei ergeben sich die geschätzten Werte $\ \hat y_i $ , welche man durch die Gerade erhält, durch die Berechnung $\ \hat y_i = a \cdot x_i + b $. Dies stellen die y-Werte dar, die man bekommen müsste, vorausgesetzt die Gerade wäre zu 100% korrekt. Damit geben die $\ \hat y_i $–Werte die durch die Regression erklärten Werte an. Im weiteren Verlauf dieses Abschnittes werden wir es auch auf unser Beispiel anwenden.

Im Gegensatz dazu beschreibt  $\ y_i $  die real beobachteten Werte (nicht geschätzte Werte)

Die Differenz zwischen dem realen Wert $\ y_i $ und dem durch die Gerade berechneten Wert $\ \hat y_i $ heißt Residuum $\ e_i $:
$$\ e_i = y_i – \hat y_i $$

Errechnet werden soll nun die lineare Schätzung $\ y = ax + b $, die die Summe der Residuenquadrate minimiert.

Man erhält die Steigung b der Geraden durch unterschiedlich aussehende Formeln:

Steigung a der Regressionsgeraden:

$\begin{align} a & ={ \sum_{i=1}^n (x_i- \overline x) \cdot (y_i - \overline y) \over \sum_{i=1}^n (x_i - \overline x)^2 }
\\
\\ a & = {{n \cdot \sum_{i=1}^n x_i \cdot y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i} \over { n \cdot \sum_{i=1}^n x_i^2 -( \sum_{i=1}^n x_i)^2}} \end{align}$

Auch den Ordinatenabschnitt b (y-Achsenabschnitt, bzw. Schnittpunkt mit der y-Achse) kann man auf verschiedene Wege berechnen.

Ordinatenabschnitt b der Regressionsgeraden:

$\begin{align} b & = \overline y -b \cdot \overline x
\\
\\ b & = {{ {{\sum_{i=1}^n x_i^2 } \over n} \cdot \overline y - \overline x \cdot { {\sum_{i=1}^n x_i \cdot y_i} \over n}} \over { {1 \over n} \sum_{i=1}^n (x_i - \overline x)^2}}
\\
\\ b & = {{ \sum_{i=1}^n x_i^2 \cdot \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n x_i \cdot y_i} \over {n \cdot \sum_{i=1}^n x_i ^2 - (\sum_{i=1}^n x_i)^2}} \end{align}$

Berechnung am Beispiel

Rechnen wir dies mit den Zahlen des Beispiels 62 aus:

i $\ x_i $ $\ y_i $ $\ x_i^2 $ $\ X_i \cdot Y_i $ $\ (x_i- \overline x)^2 $ $\ (y_i- \overline y)^2 $ $\ (x_i- \overline x) \cdot (y_i- \overline y) $
146162495,767,2
2810648012,561,6
31012100120912,9610,8
469365410,36- 0,6
5754935011,560
Σ35422653132033,219

Damit erhält man zunächst die Steigung a der Regressionsgeraden als

$\begin{align} a & = {{ \sum_{i=1}^n (x_i- \overline x) \cdot (y_i - \overline y) \over \sum_{i=1}^n (x_i - \overline x)^2 }}
\\ & = {19 \over 20}
\\ & =0,95
\\
\\ &  \text{oder mit der Formel}
\\
\\ a & = {{n \cdot \sum_{i=1}^n x_i \cdot y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i} \over { n \cdot \sum_{i=1}^n x_i^2 -( \sum_{i=1}^n x_i)^2}}
\\ & ={ {{(5 \cdot 313)} - {(35\cdot 42)} \over {(5 \cdot 265)} - (30^2)}}
\\ & = 0,95 \end {align}$

Den Ordinatenabschnitt b erhält man mit

$\begin{align} b & = \overline y -b \cdot \overline x = 8,4 - 0,95 \cdot 7 = 1,75
\\
\\ & \text{oder durch}
\\
\\ b & = {{ {{\sum_{i=1}^n x_i^2 } \over n} \cdot \overline y - \overline x \cdot { {\sum_{i=1}^n x_i \cdot y_i} \over n}} \over { {1 \over n} \sum_{i=1}^n (x_i - \overline x)^2}}
\\ & ={{265\over 5} \cdot 8,4 - 7 \cdot {313\over 5} \over {20 \over 5}}
\\ & ={7\over 4}
\\ & = 1,75
\\
\\ & \text{bzw.}
\\
\\ b & = {{ \sum_{i=1}^n x_i^2 \cdot \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n x_i \cdot y_i} \over {n \cdot \sum_{i=1}^n x_i ^2 - (\sum_{i=1}^n x_i)^2}}
\\ & ={{(265\cdot 42)} - {(35\cdot 313)} \over {(5 \cdot 265)} -(35^2) }
\\ & =1,75 \end{align}$

Tragen wir diese Gerade in unser Diagramm ein:

Regressionsgerade KQ-Methode
Abb.34

Die Residuen können wir aus der Differenz der beobachteten Werten $y_i$  und den geschätzten Werten $\hat y_i $ der Gerade bestimmen, also $\ e_i = y_i - \hat y_i $.

Die geschätzten Werten $\hat y_i $ erhalten wir über die lineare Gleichung der Regressionsgeraden:

$ \begin{align} \hat y_1 & = 0,95 \cdot 4 + 1,75 = 5,55
\\ \hat y_2 & = 0,95 \cdot 8 + 1,75 = 9,35
\\ \hat y_3 & = 11,25
\\ \hat y_4 & = 7,45
\\ \hat y_5 & = 8,4 \end{align}$

Daraus ergeben sich dann die Residuen:

$ \begin{align} e_1 & = 6 – 5,55 = 0,45
\\ e_2 & = 0,65
\\ e_3 & = 0,75
\\ e_4 & = 1,55
\\ e_5 & = -3,4 \end{align}$

Die Residuenquadrate sind in der folgenden Tabelle eingetragen:

$\ x_i $ $ y_i $ $\ \hat y_i $ $\ e_i $ $\ e_i^2 $
465,550,450,2025
8109,350,650,4225
101211,250,750,5625
697,451,552,4025
758,4- 3,411,56
    $ \sum e_i^2 = 15,15$

Für die Summe der Residuenquadrate eribt sich somit $\sum e_i^2= 15,15$.

Stellt sich nun die Frage, wie gut die Anpassung der Punkte funktioniert durch eine lineare Regression, welches durch den Determinationskoeffizienten (= Bestimmtheitsmaß) D beantwortet werden kann:

$\begin{align} D & = {s_{ \hat y}^2 \over s_y^2 } = { \sum_{i=1}^n ( \hat y_i- \overline y)^2 \over \sum_{i=1}^n (y_i - \overline y)^2}
\\
\\ & \text{oder aber}
\\
\\ D & = 1 - {{ \sum_{i=1}^n e_i^2} \over { \sum_{i=1}^n (y_i - \overline y)^2}} \end{align}$

$y_i$$\hat y_i$$(y_i - \overline y)^2$$( \hat y_i- \overline y)^2$
65,555,768,1225
109,352,560,9025
1211,2512,968,1225
97,450,360,9025
58,4011,560,0
 $\sum$33,2018,05


Würde bedeuten, dass für unser Beispiel 62 der Determinationskoeffizienten $ D = { 18,05\over 33,20} = 0,5437$ lautet.

Es gilt:

  • D ist der durch die Regression erklärte Anteil der Varianz, was sich aus der Definition ergibt.

  • $\ s_{ \hat y}^2 $ ist die Varianz der Werte der Geraden $ \hat y $, im Gegensatz dazu ist $\ s_y^2 $ die Varianz der empirisch beobachteten Werte $ y_i, i = 1,…, n, $

  • Für D gilt $\ 0 \leq D \leq 1 $, liegt demnach immer zwischen 0 und 1.

  • D ist maßstabsunabhängig

  • $\ D = r_2 $, also der Determinationskoeffizient ist das Quadrat des Bravais-Pearsonschen Korrelationskoeffizienten.