wiwiweb
online lernen

Besser lernen mit Online-Kursen

NEU! Jetzt online lernen:
Deskriptive Statistik
Den Kurs kaufen für:
einmalig 29,00 €
Zur Kasse
Zeitreihenanalyse > Zeitreihenverfahren:

Methode der Kleinsten Quadrate

WebinarTerminankündigung:
 Am 08.12.2016 (ab 18:00 Uhr) findet unser nächstes Webinar statt.
Gratis-Webinar Diskrete und stetige Verteilungen in der Wahrscheinlichkeitsrechnung
- In diesem 60-minütigen Gratis-Webinar gehen wir darauf ein, welche diskreten und stetigen Verteilungen Sie in der Prüfung beherrschen müssen.
[weitere Informationen] [Terminübersicht]

Auch bei dieser Methode der Zeitreihenanalyse, der Methode der Kleinsten Quadrate, orientieren wir uns an einem weiteren Beispiel.

Beispiel

Beispiel 62:
In der Kleinstadt Poisson-City wurden die folgenden Daten erhoben:

$$\ x_i $$ $$\ y_i $$
3 5
7 8
9 10
5 8
6 4

Berechne eine lineare Regression mit Hilfe der Methode der Kleinsten Quadrate. Zunächst malt man die Punktwolke, bestehend aus den x- und den y-Werten, auf. So ist z.B. $\ (x_5, y_5) = (6,4) $ der fünfte Punkt der Wolke. Graphisch sieht dies folgendermaßen aus:

Punktwolke
Punktwolke

Es bezeichnet $\ x $ den Regressor (= erklärende Variable = exogene Variable) und $\ y $ den Regressanden (= erklärte Variable = endogene Variable).
Folgende Fragen stellen sich:

  • Kann man einen linearen Trend durch die Punkte (die sog. Punktwolke) legen, die gewissen Optimalitätseigenschaften genügt?
  • Lässt sich damit prognostizieren, was der y-Wert ist, wenn z.B. x = 11 oder 12 etc. ist?

Punktwolke, Regressionsgerade und Residuenquadrate

Die Fragen werden beantwortet durch die Methode der Kleinsten Quadrate (= KQ-Methode = OLS-Methode (Ordinary-Least-Squares-Methode)). Man legt eine Regressionsgerade (= Ausgleichsgerade) so durch die Punktwolke, dass die Summe der Quadrate der sogenannten Residuen $\ e_i $ insgesamt minimal ist. Ein Residum ist hierbei die Differenz aus beobachtetem Wert $\ y_i $ und dem durch die Gerade geschätzten Wert $\ \hat y_i $.

Punktwolke, Regressionsgerade und Residuenquadrate
Punktwolke, Regressionsgerade und Residuenquadrate
  • Die Werte $\ \hat y_i $ (mit Dach, also geschätzt), die man durch die Gerade erhält, berechnen sich durch $\ \hat y_i = a + b \cdot x_i $. Sie sind die y-Werte, die man eigentlich erhalten müsste, wenn die Gerade absolut richtig wäre. Damit geben die $\ \hat y_i $–Werte die durch die Regression erklärten Werte an. Für das konkrete Beispiel sind die $\ \hat y_i $– Daten weiter unten ausgerechnet.
  • Die Werte $\ y_i $ hingegen (ohne Dach, also nicht geschätzt, sondern wahr) sind die tatsächlich beobachteten Werte.
  • Die Differenz zwischen dem tatsächlichen Wert $\ y_i $ und dem durch die Gerade berechneten Wert $\ \hat y_i $ heißt Residuum $\ e_i $, d.h. $\ e_i = y_i – \hat y_i $.

Errechnet werden soll nun die lineare Schätzung $\ y = ax + b $, die die Summe der Residuenquadrate minimiert.
Man erhält die Steigung b der Geraden durch unterschiedlich aussehende Formeln:

$$\ b={ \sum_{i=1}^n (x_i- \overline x) \cdot (y_i - \overline y) \over \sum_{i=1}^n (x_i - \overline x)^2 } $$ Steigung der Regressionsgeraden $$\ b = {{n \cdot \sum_{i=1}^n x_i \cdot y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i} \over { n \cdot \sum_{i=1}^n x_i^2 -( \sum_{i=1}^n x_i)^2}} $$ $$\ b=r_{BP} \cdot {s_Y \over s_X} $$

Den Ordinatenabschnitt a errechnet man durch $$\ a= \overline y -b \cdot \overline x $$
$$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \overline y - \overline x \cdot { {\sum_{i=1}^n x_i \cdot y_i} \over n}} \over { {1 \over n} \sum_{i=1}^n (x_i - \overline x)^2}} $$ Ordinatenabschnitt der Regressionskurve
$$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n x_i \cdot y_i} \over {n \cdot \sum_{i=1}^n x_i ^2 - (\sum_{i=1}^n x_i)^2}} $$

Berechnung am Beispiel

Rechnen wir dies mit den Zahlen des Beispiels 62 aus:

i $\ x_i $ $\ y_i $ $\ x_i^2 $ $\ X_i \cdot Y_i $ $\ (x_i- \overline x)^2 $ $\ (y_i- \overline y)^2 $ $\ (x_i- \overline x) \cdot (y_i- \overline y) $
1 3 5 9 15 9 4 6
2 7 8 49 56 1 1 1
3 9 10 81 90 9 9 9
4 5 8 25 40 1 1 -1
5 6 4 36 24 0 9 0
$$\ \sum $$ 30 35 200 225 20 24 15

Damit erhält man zunächst die Steigung b der Regressionsgeraden als
$$\ b={{ \sum_{i=1}^n (x_i- \overline x) \cdot (y_i - \overline y) \over \sum_{i=1}^n (x_i - \overline x)^2 }} = {15 \over 20}=0,75 $$ oder mit der anderen Formel $$\ b = {{n \cdot \sum_{i=1}^n x_i \cdot y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n y_i} \over { n \cdot \sum_{i=1}^n x_i^2 -( \sum_{i=1}^n x_i)^2}}={ {{5 \cdot 225}-{30 \cdot 35} \over {5 \cdot 200} -30^2}}=0,75 $$ Den Ordinatenabschnitt a erhält man mit
$$\ a= \overline y -b \cdot \overline x = 7-0,75 \cdot 6=2,5 $$ oder durch $$\ a={{ \sum_{i=1}^n x_i^2 \cdot \overline y - \overline x \cdot { {\sum_{i=1}^n x_i \cdot y_i} \over n}} \over { {1 \over n} \sum_{i=1}^n (x_i - \overline x)^2}}={{200 \over 50} \cdot 7-6 \cdot {225 \over 5} \over {20 \over 5}} ={10 \over 4}= 2,5 $$ bzw. $$\ a= {{ \sum_{i=1}^n x_i^2 \cdot \sum_{i=1}^n y_i - \sum_{i=1}^n x_i \cdot \sum_{i=1}^n x_i \cdot y_i} \over {n \cdot \sum_{i=1}^n x_i ^2 - (\sum_{i=1}^n x_i)^2}} ={{200 \cdot 35} -{30 \cdot 225} \over {5 \cdot 200} -30^2 }=2,5 $$
Zeichnen wir diese Gerade:

Regressionsgerade nach der KQ-Methode
Regressionsgerade nach der KQ-Methode

Die Residuen errechnen sich damit als Differenz aus beobachteten Werten yi und den durch die Gerade geschätzten Werten $\ \hat y_i $, d.h. $\ e_i = y_i - \hat y_i $. Konkret gilt für die durch die Gerade geschätzten Werte
$\ \hat y_1 = 2,5 + 0,75 \cdot 3 = 4,75 $,
$\ \hat y_2 = 2,5 + 0,75 \cdot 7 = 7,75 $, entsprechend
$\ \hat y_3 = 9,25, \hat y_4 = 6,25 $ und $\ \hat y_5 = 7 $.
Damit lautet das erste Residuum
$\ e_1 = 5 – 4,75 = 0,25 $, die anderen Residuen sind
$\ e_2 = 0,25, e_3 = 0,75, e_4 = 1,75, e_5 = -3 $.
Die Residuenquadrate sind in der folgenden Tabelle eingetragen.

$\ x_i $ $ y_i $ $\ \hat y_i $ $\ e_i $ $\ e_i^2 $
3 5 4,75 0,25 0,0625
7 8 7,75 0,25 0,0625
9 10 9,25 0,75 0,5625
5 8 6,25 1,75 3,0625
6 4 7 -3 9
        $\ \sum e_i^2=12,75 $

Die Summe der Residuenquadrate ist damit $\ \sum e_i^2= 12,75 $.
Die Frage ist nun, wie gut die Anpassung der Punkte funktioniert durch eine lineare Regression. Dies lässt sich mithilfe des Determinationskoeffizienten (= Bestimmtheitsmaß) D beantworten:
$$\ D= {s_{ \hat y}^2 \over s_y^2 }= { \sum_{i=1}^n ( \hat y_i- \overline y)^2 \over \sum_{i=1}^n (y_i - \overline y)^2} $$

Es gilt:

  • D ist der durch die Regression erklärte Anteil der Varianz, was aus der o.e. Definition ersichtlich ist.
  • Der Ausdruck $\ s_{ \hat y}^2 $ ist die Varianz der Werte der Geraden $\ \hat y $,
  • hingegen ist $\ s_y^2 $ die Varianz der empirisch beobachteten Werte $\ y_i, i = 1,…, n, $
  • D liegt zwischen 0 und 1, d.h. es gilt $\ 0 \leq D \leq 1 $,
  • D ist maßstabsunabhängig,
  • D lässt sich auch berechnen durch $$\ D= 1 - {{ \sum_{i=1}^n e_i^2} \over { \sum_{i=1}^n (y_i - \overline y)^2}} $$
  • $\ D = r_2 $, d.h. der Determinationskoeffizient ist das Quadrat des Bravais-Pearsonschen Korrelationskoeffizienten.
Lückentext
Bitte die Lücken im Text sinnvoll ausfüllen.
Die Methode der Kleinsten Quadrate heißt in der englischsprachigen Literatur -Least-Squares Methode.
0/0
Lösen

Hinweis:

Bitte füllen Sie alle Lücken im Text aus. Möglicherweise sind mehrere Lösungen für eine Lücke möglich. In diesem Fall tragen Sie bitte nur eine Lösung ein.

Kommentare zum Thema: Methode der Kleinsten Quadrate

  • Lena Büter schrieb am 10.02.2015 um 16:38 Uhr
    okay, danke
  • Maren Nebeling schrieb am 10.02.2015 um 12:41 Uhr
    Hallo Lena, Der Determinationskoeffizient ist ein Maß für die Abweichungen der Vorhersagen eines »Regressionsmodells« von den empirischen Daten - kurz: ein Maß für die Modellanpassung. Konkret entspricht R^2 dem Anteil der »Variation« der Modellvorhersagen, der sogenannten erklärten Summe der Abweichungsquadrate, an der Variation der beobachteten Werte der abhängigen Variablen, der sogenannten Gesamtsumme der Abweichungsquadrate. R^2 kann als Anteil erklärter Varianz interpretiert werden und nimmt Werte zwischen 0 und 1 an. R^2=0 bedeutet, dass die unabhängigen Variablen keine Vorhersage der Zielvariablen erlauben. R^2=1 weist auf eine perfekte Modellanpassung hin. Hierzu nun ein Beispiele zur Verdeutlichung: Die Humankapitaltheorie unterstellt, dass das durch Ausbildung entgangene Einkommen sowie die Ausbildungskosten im späteren Berufsleben durch höhere Einkommen ausgeglichen werden. Ein Mehr an Ausbildung führt zu einem höheren Einkommen im Beruf. Entsprechende Regressionen mit Daten der Volks- und Berufszählung 1970 und der Mikrozensen von 1978 und 1982 führen zu Determinationskoeffizienten zwischen 0,224 und 0,278. Mit anderen Worten: Mit Hilfe der Variablen Ausbildung können 22,4 bis 27,8% der Varianz der Einkommen erklärt werden. Ich hoffe dieses Beispiel hilft dir. Schöne Grüße
  • Lena Büter schrieb am 09.02.2015 um 15:48 Uhr
    Hallo, ich habe eine kurze Frage ich habe den Determinationskoeffizienten für das obrige Beispiel ausgerechnet und 0,46875 herausbekommen. Kann ich anhand dieser Zahl jetzt irgendeine direkte Aussage darüber treffen, wie gut oder schlecht die Anpassung durch die Regressionsgerade funktioniert hat? habe dazu jetzt nichts im Text gefunden Vielen Dank im Vorraus :)
Bild von Autor Daniel Lambert

Autor: Daniel Lambert

Dieses Dokument Methode der Kleinsten Quadrate ist Teil eines interaktiven Online-Kurses zum Thema Deskriptive Statistik.

Dipl.-Math. Dipl.-Kfm. Daniel Lambert gibt seit vielen Jahren Kurse zur Prüfungsvorbereitung. Er unterrichtet stets orientiert an alten Prüfungen und weiß aus langjähriger Erfahrung, wie sich komplexe Sachverhalte am besten aufbereiten und vermitteln lassen. Daniel Lambert ist Repetitor aus Leidenschaft seit nunmehr 20 Jahren.
Vorstellung des Online-Kurses Deskriptive StatistikDeskriptive Statistik
Dieser Inhalt ist Bestandteil des Online-Kurses

Deskriptive Statistik

wiwiweb - Interaktive Online-Kurse (wiwiweb.de)
Diese Themen werden im Kurs behandelt:

[Bitte auf Kapitelüberschriften klicken, um Unterthemen anzuzeigen]

  • Grundbegriffe der deskriptiven Statistik
    • Einleitung
      • Statistische Datenauswertung
      • Merkmal, Merkmalsausprägung und Merkmalsträger
    • Masse und Merkmal
      • Statistische Masse
      • Statistisches Merkmal
    • Skalierungen
      • Grundlagen Skalierung
      • Nominalskala
      • Ordinalskala
      • Metrische Skalen
      • Metrische Skalen - Intervallskala
      • Metrische Skalen - Verhältnisskala
      • Metrische Skalen - Absolutskala
      • Skalenniveau bestimmen
      • Aufgabe Skalierung
      • Lösung Aufgabe Skalierung
    • Skalentransformation
      • Grundlagen Skalentransformation
      • Skalentransformation auf der Nominalskala
      • Skalentransformation auf der Ordinalskala
      • Skalentransformation auf der Kardinalskala
    • Abzählbarkeit
      • Diskrete Merkmale
      • Stetige Merkmale
    • Quasistetige Merkmale und Klassierung
      • Gründe für quasistetige Merkmale
      • Quasistetige Merkmale
      • Klassierung
    • Selbstkontrollaufgabe zu den Grundbegriffen der deskriptiven Statistik
      • Aufgabe Merkmale
      • Lösung Aufgabe Merkmale
  • Häufigkeitsverteilungen
    • Unklassierte Daten und ihre Darstellung
      • Grundlagen der Häufigkeitsverteilung
      • Häufigkeiten
      • Absolute Häufigkeiten
      • Relative Häufigkeit
      • Graphische Darstellung
      • Stabdiagramm oder Säulendiagramm
      • Kreisdiagramm
    • Klassierte Daten und ihre Darstellung
      • Grundlagen Klassierung
      • Klassierung und ihre Darstellung
      • Histogramm
      • Aufgabe Histogramm
      • Lösung Aufgabe Histogramm
      • Häufigkeitspolygon
      • Regeln zur Klassenbildung in der Statistik
    • Empirische Verteilungsfunktion
      • Beispiel und Eigenschaften der Verteilungsfunktion
      • Beispielaufgabe empirische Verteilungsfunktion
    • Selbstkontrollaufgaben zu den Häufigkeitsverteilungen
      • Aufgabe Urliste und Median
      • Lösung Aufgabe Urliste und Median
  • Verteilungsmaße
    • Lagemaße
      • Modus
      • Fraktile
      • Median
      • Boxplot
      • Arithmetisches Mittel
      • Geometrisches Mittel
      • Harmonisches Mittel
      • Zusammenfassung Lagemaße
    • Streuungsmaße
      • Unterschiedliche Streuungsmaße
      • Streuungszerlegung
      • Mittlere quadratische Abweichung berechnen
    • Formmaße
      • Unterschiedliche Formmaße
      • Schiefe
      • Wölbung
  • Konzentrationsmessung
    • Einleitung
      • Konzentrationsmaße
    • Relative Konzentration
      • Übersicht relative Konzentration
      • Lorenzkurve
      • Gini-Koeffizient
      • Länge der Lorenzkurve
      • Concentration-Ratio
    • Absolute Konzentration
      • Übersicht absolute Konzentration
      • Absolute Konzentrationskurve
      • Herfindahl-Index
      • Exponentialindex
      • Rosenbluth-Index
  • Mehrdimensionale Verteilungen
    • Mehrdimensionale Verteilung - Einführung
    • Gemeinsame Verteilung
    • Randverteilungen
    • Bedingte Verteilungen
    • Unabhängigkeit
    • Beispiel mehrdimensionale Verteilung
  • Zusammenhangsmaße
    • Zusammenhangsmaße auf Nominal- und Ordinalskala
      • Korrelationsanalyse
      • Zusammenhangsmaße auf der Nominalskala
      • Zusammenhangsmaße auf der Ordinalskala
    • Zusammenhangsmaße auf metrischen Skalen
      • Übersicht Zusammenhangsmaße auf metrischen Skalen
      • Bravais-Pearsonscher Korrelationskoeffizient
      • Korrelationskoeffizient von Fechner
  • Zeitreihenanalyse
    • Einleitung
      • Längsschnittdaten und Querschnittdaten
    • Zeitreihenverfahren
      • Verfahren der Zeitreihenanalyse
      • Methode der gleitenden Durchschnitte
      • Exponentielle Glättung
      • Beispiel Methode der Kleinsten Quadrate
      • Methode der Kleinsten Quadrate
      • Exkurs: Linearisierung
      • Methode der Reihenhälften
    • Zeitreihenzerlegung
      • Zeitreihenzerlegung
  • Indexrechnung
    • Grundbegriffe
      • Verhältniszahlen
    • Preisindizes
      • Definition Preisindizes
      • Preisindizes nach Laspeyres und Paasche
      • Indexrechnung mit Preisindizes
    • Mengenindizes
      • Definition Mengenindizes
      • Mengenindizes nach Laspeyres und Paasche
    • Wertindizes
      • Der Wertindex
    • Weitere Indizes
      • Übersicht weitere Indizes
      • Index nach Lowe
      • Fisherscher Idealindex
      • Marshall-Edgeworth-Preisindex
    • Umbasierung und Verkettung von Indizes
      • Die Rundprobe
      • Umbasierung
      • Verkettung
  • 103
  • 27
  • 181
  • 37
einmalig 29,00
umsatzsteuerbefreit gem. § 4 Nr. 21 a bb) UStG
Online-Kurs Top AngebotTrusted Shop

Unsere Nutzer sagen:

  • Gute Bewertung für Deskriptive Statistik

    Ein Kursnutzer am 22.07.2015:
    "gut aufgebaut, gut verständlich"

  • Gute Bewertung für Deskriptive Statistik

    Ein Kursnutzer am 18.10.2014:
    "Man super. Mein Professor hat mich total mit seinen Ausführungen verwirrt, wo doch die Antwort so einfach ist. Vielen Dank Herr Lambert. Ich finde sowieso, dass Sie der Beste sind :o)"

  • Gute Bewertung für Deskriptive Statistik

    Ein Kursnutzer am 01.09.2014:
    "sehr gut erklärt, schnell verständlich. Gute Beispiele!"

  • Gute Bewertung für Deskriptive Statistik

    Ein Kursnutzer am 06.07.2014:
    "Locker flockig an anschaulichen Beispielen ausführlich erklärt."

  • Gute Bewertung für Deskriptive Statistik

    Ein Kursnutzer am 14.06.2014:
    "Perfekt erklärt, danke!!!"

NEU! Sichere dir jetzt die perfekte Prüfungsvorbereitung und spare 10% bei deiner Kursbuchung!

10% Coupon: lernen10

Zu den Online-Kursen