Kursangebot | Deskriptive Statistik | Zeitreihenzerlegung

Deskriptive Statistik

Zeitreihenzerlegung

Nach den unterschiedlichen Verfahren, kommen wir zur Zeitreihenzerlegung. Die Anwendung der Zeitreihenzerlegung ist auch leichter Verständlich, wenn diese anhand konkreter Zahlen erfolgt. Dazu folgendes Beispiel.

Beispiel

Hier klicken zum Ausklappen Beispiel 65:
Für die Auftragseingänge $\ y_t $ im Baugewerbe der norddeutschen Stadt Elmshorn werden in den Jahren 2001 – 2003 im jeweiligen Monat die folgenden Werte gemessen.
Monat 2001 2002 2003
Januar242524
Februar262727
März283030
April302726
Mai293028
Juni353835
Juli384038
August404242
September353435
Oktober303030
November282728
Dezember252627

Die Werte $\ y_t $ hängen also primär von der Zeit ab, t gibt hierbei den Zeitindex an. Es stellen sich mehrere Fragen:

  • Sind die Auftragseingänge ausschließlich zeitabhängig?
  • Lässt sich ein Trend erkennen, so dass z.B. die Anzahl der Aufträge in den Jahren 2001, 2002 und 2003 ansteigt, unabhängig vom jeweiligen genauen Wert in den Monaten?
  • Werden die Daten von einem Zyklus überlagert, so dass z.B. ein Konjunkturtief in 2003 für grundsätzlich niedrigere Werte sorgt als ein Hoch in 2001?
  • Lassen sich Saisoneffekte erkennen, so dass die Anzahl der Aufträge in den Wintermonaten beispielsweise geringer ist als in den Sommermonaten?

Trendkomponente, zyklische Komponente, Saisonkomponente

Sinn der folgenden Überlegungen ist es, die Werte durch Zerlegung zu erklären, und zwar in die schon angedeutete

  • Trendkomponente $\ T_t $
    - diese wird durch langfristig wirkende Faktoren bedingt
    - oftmals durch KQ-Schätzungen erklärt
  • die zyklische Komponente $\ Z_t $
    - sie wird durch Konjunkturzyklen bedingt
    - sie ist oftmals wellenförmig
  • die Saisonkomponente $\ S_t $
    - hier werden Saisoneinflüsse beobachtet
    - wie z.B. im vorliegenden Fall verminderte Auftragseingänge im Baugewerbe
  • die irreguläre Komponente $\ U_t $
    - die Ursachen sind keinen der o.e. Gründe zuzurechnen.
    - die Werte der irregulären Komponente (= Störvariable, = Zufallsschwankung, = unerklärter Rest) werden als relativ klein angenommen
    - und als unsystematisch um null schwankend verstanden

Merke

Hier klicken zum Ausklappen Merke: Oftmals fasst man den Trend und die zyklische Komponente zur sog. glatten Komponente $\ G_t $ zusammen.

Additive Zerlegung und multiplikative Zerlegung

Es werden nun mehrere Arten von Zeitreihenmodellen unterschieden:

  • Die additiven Modelle mit der Zerlegung (= Überlagerung) $\ y = T + Z + S + U $ oder die
  • multiplikativen Modelle mit der Zerlegung $\ y = T \cdot Z \cdot S \cdot U $

Wir betrachten im folgenden ausschließlich das additive Modell.

Expertentipp

Hier klicken zum Ausklappen

Ermittlung der Zeitreihen-Komponenten:

  1. Ermittlung der Trendkomponente $\ T_t $ (oftmals mit einer linearen Regression). Fasse die Zeitreihen-Werte auf als Werte, die sich aus dem Ansatz $\ y_t = a + b \cdot t $ ergeben. (Man kann den Trend aber auch mit der Methode der gleitenden Durchschnitte ausrechnen.)
  2. Berechnung der zyklischen Komponente $\ Z_t $. Schätze zunächst die Trendwerte mit Hilfe des in Schritt 1 ermittelten Trends, bilde dann die glatte Komponente $\ G_t = T_t + Z_t $ mit Hilfe gleitender Durchschnitte der ursprünglichen Zeitreihe. Errechne den Zyklus als Differenz der glatten Komponente und der Trendwerte, also als $\ Z_t = G_t – T_t $
  3. Berechnung der Saisonkomponente $\ S_t $
    Die Werte aus Schritt 2 werden gemittelt gemäß $$\ \tilde S_j = {1 \over m_j} \sum_{i \epsilon M j} (u_{i,j}- y^*_{i,j})= S_j + {1 \over m_j} \sum_{i \epsilon Mj} U_{i,j} $$ Diese Werte werden normiert durch $$\ \tilde S_j= \tilde S_j - {1 \over k} \sum_{j=1}^k \tilde S_j $$ Hierbei ist k die Anzahl der Werte $\ \tilde S_j $
    $\ \tilde S_j $ ist eine Schätzung für die (monatstypische, quartalstypische,...) Abweichung, die saisonbereinigte Zeitreihe ist dann die Differenz.

Merke

Hier klicken zum Ausklappen Merke:
Im zweiten Schritt funktioniert die Bildung der glatten Komponente unabhängig und losgelöst vom ersten Schritt. Für die glatte Komponente ist also die Trend-Berechnung uninteressant, erst für den Zyklus muss sie um den Trend bereinigt werden.

Zeitreihenzerlegung am Beispiel

Anwendung auf das Beispiel 65 damit wie folgt.


Schätzung des Trends

Die Trendkomponente $\ T_t $ wird mit der KQ-Methode geschätzt, die schon aus vorherigen Kapiteln bekannt ist. Wichtig ist allerdings, dass nun die Zeit der Regressor ist, also $\ y_t = a + b \cdot t $ gilt. Alle übrigen Komponenten, also $\ Z_t,\ S_t $ und $\ U_t $, sind hier das Residuum.
Es ist im vorliegenden Beispiel $\ \sum_{t=1}^{36} t^2 = 16.206 $, das arithmetische Mittel der Zeitdaten ist $\ \overline t= {1 \over 36} \sum_{t=1}^{36}t= 18,5 $, das Produkt $\ \sum_{t=1}^{36} t \cdot y_t = 20.793 $. Also rechnet man die Steigung b aus als $$\ b= {{1 \over n} \cdot \sum_{t=1}^n t \cdot y_t - \overline t \cdot \overline y \over {1 \over n} \cdot \sum_{t=1}^n t^2 -\overline t^{\ 2}}={{1 \over 36} \cdot 20.793 -18,5 \cdot 30,944 \over {1 \over 36} \cdot 16.206 -18,5^2}=0,04736 $$ Der Ordinatenabschnitt a ist $\ a= \overline y – b \cdot \overline t = 30,944 -0,04736 \cdot 18,5 =30,068 $. Man erhält also als Trendgerade $\ y = 30,068 + 0,04736 \cdot t $. Setzt man z.B. für t = 4 ein, so erhält man den Trendwert für den April des Jahres 2001 durch: $\ 30,068 + 0,04736 \cdot 4 = 30,25744 $. Die anderen Trendwerte sind in der folgenden Tabelle widergegeben.

  2001 Trend­komponente 2002 Trend­komponente 2003 Trend­komponente
Januar2430,1152530,6842431,252
Februar2630,1632730,7312731,299
März2830,213030,7783031,347
April3030,2572730,8262631,394
Mai2930,3053030,8732831,441
Juni3530,3523830,923531,488
Juli3830,344030,9683831,536
August4030,4474231,0154231,583
September3530,4943431,0633531,631
Oktober3030,5423031,10993031,678
November2830,5892731,1572831,726
Dezember2530,6362631,2052731,773

Schätzung der glatten Komponente

Zur Ermittlung der zyklischen Komponente bedient man sich der Methode der gleitenden Durchschnitte. Wir schätzen die glatte Komponente als gleitenden Durchschnitt 12. Ordnung, d.h. k = 6 (wegen der Monatsdaten). Man verwendet die Formel
$$\ x^*_t = \biggl[ {1 \over 2} x_{t-k}+ {1 \over 2} x_{t+k} + \sum {\tau=t-(k-1)}^{t+(k+1)} x_\tau \biggr] $$ die speziell für k = 6 dann lautet: $$\ x^*_t = {1 \over 2 \cdot 6} \cdot \biggl[ {1 \over 2} x_{t-6}+ {1 \over 2} x_{t+6} + \sum_{\tau =t-5}^{t+5} x_\tau \biggr] $$ Die möglichen t-Werte starten damit bei t = 7, damit in der Klammer mit $\ x_{7-6} = x_1 $ die Zählung begonnen werden kann. Damit rechnet man z.B. $$\ \begin {align} x^*_7 & = {1 \over 12} \biggl[ {1 \over 2} x_1 +{1 \over 2} x_13+ \sum_{\tau=2}^{12} x_\tau \biggr] \\ & ={1 \over 12} \left[ {1 \over 2} \cdot 24 + {1 \over 2} \cdot 25 + (26+28+ \ldots +28+25) \right] \\ & = 30,7083 \end {align} $$ Die anderen Werte werden errechnet und die Arbeitstabelle 53 eingetragen. Man erhält damit die Zahlen der glatten Komponente.

  2001 glatte 2002 glatte 2003 glatte
Komponente Komponente Komponente
Januar24-2531,16672430,6667
Februar26-2731,33332730,583
März28-3031,3753030,625
April30-2731,33332630,667
Mai29-3031,29172830,7083
Juni35-3831,29173530,7917
Juli3830,70834031,291738-
August4030,79174231,2542-
September3530,91673431,2535-
Oktober3030,8753031,208330-
November2830,791672731,083328-
Dezember2530,95832630,87527-

Alsdann bildet man die Differenz aus den tatsächlichen Zahlen yt und den Werten der glatten Komponente $\ y_t^* $, d.h. die um die glatte Komponente bereinigte Zeitreihe $\ y_t - y_t^* $:

  2001 $\ y_t - y_t^*$ 2002$\ y_t - y_t^* $ 2003$\ y_t - y_t^* $
Januar24-25-6,16724-6,667
Februar26-27-4,33327-3,583
März28-30-1,37530-0,625
April30-27-4,33326-4,667
Mai29-30-1,29228-2,708
Juni35-386,708354,208
Juli387,292408,70838-
August409,2084210,7542-
September354,083342,7535-
Oktober30-0,87530-1,20830-
November28-2,79227-4,08328-
Dezember25-5,95826-4,87527-

Danach ordnet man zur besseren Übersicht die zum jeweils gleichen Monat passenden Daten spaltenweise an:

  1 2 3 4 5 6 7 8 9 10 11 12
2001------7,2929,2084,083-0,88-2,79-5,958
2002-6,17-4,33-1,38-4,333-1,296,718,70810,752,75-1,21-4,08-4,875
2003-6,67-3,58-0,63-4,667-2,714,21------

Schließlich werden die Zahlen aus Schritt 3 spaltenweise (!) gemittelt gemäß der Formel $$\ S_j= {1 \over m_j} \sum_{i \epsilon Mj} (u_{i,j}- y^*_{i,j})= S_j + {1 \over m_j} \sum_{i \epsilon Mj} U_{i,j} $$ $\ M_j $ ist die Menge der Jahre, für die dann die um die glatte Komponente bereinigte Zeitreihe gebildet wird. Die Zahl $\ m_j $ ist hierbei die Anzahl der Jahre, für die man die um die glatte Komponente bereinigte Zeitreihe berechnen kann. Also ist $\ M_1 = M_2 = \ldots = M_6 = \{2,3\} $, weil nur für das 2. und 3. Jahr der Wert gebildet werden kann, denn dadurch dass am Anfang sechs Monate herausfallen, sind die Werte für die Monate Januar bis Juni nur aus den Jahren 2 und 3 zu berechnen. Der Parameter $\ m_1 $ ist dabei $\ m_2 = 2 $, nämlich die Anzahl der Elemente der Mengen $\ M_l,\ I = 1, \ldots ,\ 6 $.
Genau andersrum verhält es sich bei $\ M_7 = M_8 = \ldots = M_{12} = \{1,2\} $. Dadurch, dass am Ende (im Jahr 2003) sechs Monate wegfallen, sind für die Monate Juli bis Dezember nur die Jahre 2001 und 2002, also 1 und 2, brauchbar. Also ist $\ m_2 $, wie oben die Zahl $\ m_1 $ auch, $\ m_2 = 2 $. Man erhält also

  1 2 3 4 5 6 7 8 9 10 11 12
2001------7,39,214,08-0,9-2,79-5,96
2002-6,17-4,33-1,38-4,33-1,36,718,710,82,75-1,2-4,08-4,88
2003-6,67-3,58-0,63-4,67-2,74,21------
Sschlangej-6,42-3,96-1-4,5-25,4689,983,42-1-3,44-5,42

Wenn die Summe der $\ \tilde S_j $ nicht null ergibt bzw. nicht hinreichend nahe bei null liegt, muß man noch ein Korrekturglied ermitteln, nämlich das arithmetische Mittel der $\ \tilde S_j $-Werte: es ist hier $\ {1 \over 12} \sum_{j=1}^{12} \hat S_j= - 0,0763 $. Dieses Korrekturglied wird von den $\ - \tilde S_j $ Werten jeweils abgezogen, man erhält die normierten Schätzwerte für die monatstypische Abweichung $\ S_j $.

  1 2 3 4 5 6 7 8 9 10 11 12
2001------7,39,214,08-0,9-2,79-5,96
2002-6,17-4,33-1,38-4,33-1,36,718,710,82,75-1,2-4,08-4,88
2003-6,67-3,58-0,63-4,67-2,74,21------
Sschlangej-6,42-3,96-1-4,5-25,4689,983,42-1-3,44-5,42
Sdachj-6,34-3,88-0,92-4,42-1,95,538,110,13,49-1-3,36-5,34

Saisonbereinigte Zeitreihe

Die eigentliche saisonbereinigte Zeitreihe ergibt sich dann durch Subtraktion der Werte aus Schritt 4 und der beobachteten Werte aus der Original-Zeitreihe.

  2001 saisonber. ZR 2002 saisonber. ZR 2003 saisonber. ZR
Januar24-25-6,16724-6,667
Februar2622,122723,122723,12
März2828,923030,923030,92
April3034,422731,422630,42
Mai2930,93031,92829,9
Juni3529,473832,473529,47
Juli3829,94031,93829,9
August4029,94231,94231,9
September3531,513430,513531,51
Oktober3030,973030,973030,97
November2831,362730,362831,36
Dezember2530,342631,342732,34

Merke

Hier klicken zum Ausklappen

Merke:

Die obigen Überlegungen gelten nur bei folgenden einschränkenden Annahmen:

  • die glatte Komponente kann innerhalb eines Zeitraums von m + 1 Perioden durch eine lineare Schätzung angenähert werden,
  • die Saisonfigur, also das Tupel $\ (S_1,\ S_2, \ldots ,\ S_m) $, ist in der Summe null, d.h. $\ S_1 + S_2 + \ldots + S_m = 0 $. Konkret heißt dies bei Monatsdaten (bei Quartalsdaten), dass die Monatswerte (die Quartalswerte) eines Jahres in der Summe gleich null ergeben. Sollte dies nicht der Fall sein, dann muss man zunächst durch Normierung dafür sorgen, dass dies gilt.
  • die Werte der Saisonkomponente $\ S_t $ sind jeweils identisch für die gleichnamigen Perioden (sog. Konstanz der Saisonfigur, eine variable Saisonfigur wird hier nicht angesprochen)
  • $\ S_t = S_t+12 $ bei Monatswerten
  • $\ S_t = S_t+4 $ bei Quartalswerten.