Kursangebot | Deskriptive Statistik | Zeitreihenzerlegung

Deskriptive Statistik

Zeitreihenzerlegung

Nach den unterschiedlichen Verfahren kommen wir zur Zeitreihenzerlegung. Die Anwendung der Zeitreihenzerlegung ist auch leichter verständlich, wenn diese anhand konkreter Zahlen erfolgt. Dazu folgendes Beispiel.

Beispiel

Hier klicken zum Ausklappen

Beispiel 65:

Für die Auftragseingänge $\ y_t $ im Baugewerbe der norddeutschen Stadt Elmshorn werden in den Jahren 2019 – 2021 im jeweiligen Monat die folgenden Werte gemessen.

Monat 2019 2020 2021
Januar353635
Februar373838
März394141
April413837
Mai404139
Juni464946
Juli495149
August515353
September464546
Oktober414141
November393839
Dezember363738

Die Werte $\ y_t $ hängen also primär von der Zeit ab, t gibt hierbei den Zeitindex an. Es stellen sich mehrere Fragen:

  1. Sind die Auftragseingänge ausschließlich zeitabhängig?
  2. Lässt sich ein Trend erkennen, so dass z.B. die Anzahl der Aufträge in den Jahren 2019, 2020 und 2021 ansteigt, unabhängig vom jeweiligen genauen Wert in den Monaten?
  3. Werden die Daten von einem Zyklus überlagert, so dass z.B. ein Konjunkturtief in 2021 für grundsätzlich niedrigere Werte sorgt als ein Hoch in 2019?
  4. Lassen sich Saisoneffekte erkennen, so dass die Anzahl der Aufträge in den Wintermonaten beispielsweise geringer ist als in den Sommermonaten?

Trendkomponente, zyklische Komponente, Saisonkomponente

Sinn der folgenden Überlegungen ist es, die Werte durch Zerlegung zu erklären, und zwar in die schon angedeutete

  • Trendkomponente $\ T_t $
    • diese wird durch langfristig wirkende Faktoren bedingt
    • oftmals durch KQ-Schätzungen erklärt

  • die zyklische Komponente $\ Z_t $
    • sie wird durch Konjunkturzyklen bedingt
    • sie ist oftmals wellenförmig

  • die Saisonkomponente $\ S_t $
    • hier werden Saisoneinflüsse beobachtet
    • wie z.B. im vorliegenden Fall verminderte Auftragseingänge im Baugewerbe

  • die irreguläre Komponente $\ U_t $
    • die Ursachen sind keinen der o.e. Gründe zuzurechnen.
    • die Werte der irregulären Komponente (= Störvariable, = Zufallsschwankung, = unerklärter Rest) werden als relativ klein angenommen
    • und als unsystematisch um null schwankend verstanden

Hinweis

Hier klicken zum Ausklappen

Oftmals fasst man den Trend und die zyklische Komponente zur sog. glatten Komponente $\ G_t $ zusammen.

Additive Zerlegung und multiplikative Zerlegung

Es werden nun mehrere Arten von Zeitreihenmodellen unterschieden:

  • Die additiven Modelle mit der Zerlegung (= Überlagerung) $\ y = T + Z + S + U $

oder die

  • multiplikativen Modelle mit der Zerlegung $\ y = T \cdot Z \cdot S \cdot U $

Wir betrachten im Folgenden ausschließlich das additive Modell.

-

Hier klicken zum Ausklappen

Ermittlung der Zeitreihen-Komponenten:

  1. Ermittlung der Trendkomponente $\ T_t $ (oftmals mit einer linearen Regression). Fasse die Zeitreihen-Werte auf als Werte, die sich aus dem Ansatz $\ y_t = a + b \cdot t $ ergeben. (Man kann den Trend aber auch mit der Methode der gleitenden Durchschnitte ausrechnen.)

  2. Berechnung der zyklischen Komponente $\ Z_t $. Schätze zunächst die Trendwerte mit Hilfe des in Schritt 1 ermittelten Trends, bilde dann die glatte Komponente $\ G_t = T_t + Z_t $ mit Hilfe gleitender Durchschnitte der ursprünglichen Zeitreihe. Errechne den Zyklus als Differenz der glatten Komponente und der Trendwerte, also als $\ Z_t = G_t – T_t $

  3. Berechnung der Saisonkomponente $\ S_t $
    Die Werte aus Schritt 2 werden gemittelt gemäß $$\ \tilde S_j = {1 \over m_j} \sum_{i \epsilon M j} (u_{i,j}- y^*_{i,j})= S_j + {1 \over m_j} \sum_{i \epsilon Mj} U_{i,j} $$ Diese Werte werden normiert durch $$\ \tilde S_j= \tilde S_j - {1 \over k} \sum_{j=1}^k \tilde S_j $$ Hierbei ist k die Anzahl der Werte $\ \tilde S_j $
    $\ \tilde S_j $ ist eine Schätzung für die (monatstypische, quartalstypische,...) Abweichung, die saisonbereinigte Zeitreihe ist dann die Differenz.

Merke

Hier klicken zum Ausklappen

Im zweiten Schritt funktioniert die Bildung der glatten Komponente unabhängig und losgelöst vom ersten Schritt. Für die glatte Komponente ist also die Trend-Berechnung uninteressant, erst für den Zyklus muss sie um den Trend bereinigt werden.

Zeitreihenzerlegung am Beispiel

Anwendung auf das Beispiel 65 damit wie folgt.


Schätzung des Trends

Die Trendkomponente $\ T_t $ wird mit der KQ-Methode geschätzt, die schon aus vorherigen Kapiteln bekannt ist. Wichtig ist allerdings, dass nun die Zeit der Regressor ist, also $\ y_t = a \cdot t + b $ gilt. Alle übrigen Komponenten, also $\ Z_t,\ S_t $ und $\ U_t $, sind hier das Residuum.

Es ist im vorliegenden Beispiel $\ \sum_{t=1}^{36} t^2 = 16.206 $, das arithmetische Mittel der Zeitdaten ist $\ \overline t= {1 \over 36} \sum_{t=1}^{36}t= 18,5 $, das Produkt $\ \sum_{t=1}^{36} t \cdot y_t = 28.119 $.

Also rechnet man die Steigung a aus als

$\begin{align} a & = {{1 \over n} \cdot \sum_{t=1}^n t \cdot y_t - \overline t \cdot \overline y \over {1 \over n} \cdot \sum_{t=1}^n t^2 -\overline t^{\ 2}}
\\ & ={{1 \over 36} \cdot 28.119 -18,5 \cdot 41,9444 \over {1 \over 36} \cdot 16.206 -18,5^2}
\\ & =0,0474 \end{align}$

Der Ordinatenabschnitt b ist:

$\ b = \overline y \; – \; a \cdot \overline t = 41,944 - 0,0474 \cdot 18,5 = 41,0683 $.

Man erhält also als Trendgerade $\ y = 0,0474 \cdot t + 41,0683 $.

Setzt man z.B. für t = 3 ein, so erhält man den Trendwert für den März des Jahres 2019 durch: $ (0,0474 \cdot 3) + 41,0683 = 41,2105 $. Die anderen Trendwerte sind in der folgenden Tabelle wiedergegeben:

  2019 Trend­komponente 2020 Trend­komponente 2021 Trend­komponente
Januar2441,11562541,68402442,2523
Februar2641,16302741,73132742,2997
März2841,21033041,77873042,3470
April3041,25772741,82602642,3944
Mai2941,30513041,87342842,4417
Juni3541,35243841,92083542,4891
Juli3841,39984041,96813842,5365
August4041,44714242,01554242,5838
September3541,49453442,06283542,6312
Oktober3041,54193042,10993042,6785
November2841,58922742,15762842,7259
Dezember2541,63662642,20492742,7733

Schätzung der glatten Komponente

Zur Ermittlung der zyklischen Komponente bedient man sich der Methode der gleitenden Durchschnitte. Wir schätzen die glatte Komponente als gleitenden Durchschnitt 12. Ordnung, d.h. k = 6 (wegen der Monatsdaten). Man verwendet die Formel

$\ x^*_t = \biggl[ {1 \over 2} x_{t-k}+ {1 \over 2} x_{t+k} + \sum {\tau=t-(k-1)}^{t+(k+1)} x_\tau \biggr] $

die speziell für k = 6 dann lautet:

$\ x^*_t = {1 \over 2 \cdot 6} \cdot \biggl[ {1 \over 2} x_{t-6}+ {1 \over 2} x_{t+6} + \sum_{\tau =t-5}^{t+5} x_\tau \biggr] $

Die möglichen t-Werte starten damit bei t = 7, damit in der Klammer mit $\ x_{7-6} = x_1 $ die Zählung begonnen werden kann. Damit rechnet man z.B.

$\ \begin {align} x^*_7 & = {1 \over 12} \biggl[ {1 \over 2} x_1 +{1 \over 2} x_13+ \sum_{\tau=2}^{12} x_\tau \biggr]
\\ & ={1 \over 12} \left[ {1 \over 2} \cdot 35+ {1 \over 2} \cdot 36+ (37+39+ \ldots +39+36) \right]
\\ & = 41,7083 \end {align} $

Die anderen Werte werden errechnet und die Arbeitstabelle 53 eingetragen. Man erhält damit die Zahlen der glatten Komponente.

  2019 glatte
Komponente
2020 glatte
Komponente
2021 glatte
Komponente
Januar24-2542,16672441,6667
Februar26-2742,33332741,5833
März28-3042,37503041,6250
April30-2742,33332641,6667
Mai29-3042,29172841,7083
Juni35-3842,29173541,7917
Juli3841,70834042,291738-
August4041,79174242,250042-
September3541,91673442,250035-
Oktober3041,87503042,208330-
November2841,79172742,083328-
Dezember2541,95832641,875027-

Alsdann bildet man die Differenz aus den tatsächlichen Zahlen yt und den Werten der glatten Komponente $\ y_t^* $, d.h. die um die glatte Komponente bereinigte Zeitreihe $\ y_t - y_t^* $:

 2019 $\ y_t - y_t^*$2020$\ y_t - y_t^* $2021$\ y_t - y_t^* $
Januar24-25- 6,166724- 6,6667
Februar26-27- 4,333327- 3,5833
März28-30- 1,375030- 0,6250
April30-27- 4,333326- 4,6667
Mai29-30- 1,291928- 2,7083
Juni35-386,7083354,2083
Juli387,2917408,708338-
August409,20834210,750042-
September354,0833342,750035-
Oktober30- 0,875030- 1,208330-
November28- 2,791727- 4,083328-
Dezember25- 5,958326- 4,875027-

Danach ordnet man zur besseren Übersicht die zum jeweils gleichen Monat passenden Daten spaltenweise an:

  1 2 3 4 5 6 7 8 9 10 11 12
2019------7,2929,2084,083- 0,875- 2,792- 5,958
2020- 6,167- 4,333- 1,375- 4,333- 1,2926,7088,70810,7502,750- 1,208- 4,083- 4,875
2021- 6,667- 3,583- 0,625- 4,667- 2,7084,208------

Schließlich werden die Zahlen aus Schritt 3 spaltenweise (!) gemittelt gemäß der Formel

$ S_j= {1 \over m_j} \sum_{i \epsilon Mj} (u_{i,j}- y^*_{i,j})= S_j + {1 \over m_j} \sum_{i \epsilon Mj} U_{i,j}$

$ M_j $ ist die Menge der Jahre, für die dann die um die glatte Komponente bereinigte Zeitreihe gebildet wird. Die Zahl $ m_j $ ist hierbei die Anzahl der Jahre, für die man die um die glatte Komponente bereinigte Zeitreihe berechnen kann. Also ist $\ M_1 = M_2 = \ldots = M_6 = \{2,3\} $, weil nur für das 2. und 3. Jahr der Wert gebildet werden kann, denn dadurch dass am Anfang sechs Monate herausfallen, sind die Werte für die Monate Januar bis Juni nur aus den Jahren 2 und 3 zu berechnen. Der Parameter $\ m_1 $ ist dabei $\ m_2 = 2 $, nämlich die Anzahl der Elemente der Mengen $ M_l,\ I = 1, \ldots ,\ 6 $.

Genau andersrum verhält es sich bei $ M_7 = M_8 = \ldots = M_{12} = \{1,2\} $. Dadurch, dass am Ende (im Jahr 2003) sechs Monate wegfallen, sind für die Monate Juli bis Dezember nur die Jahre 2019 und 2020, also 1 und 2, brauchbar. Also ist $\ m_2 $, wie oben die Zahl $ m_1 $ auch, $ m_2 = 2 $. Man erhält also

  1 2 3 4 5 6 7 8 9 10 11 12
2019------7,2929,2084,083- 0,875- 2,792- 5,958
2020- 6,167- 4,333- 1,375- 4,333- 1,2926,7088,70810,7502,750- 1,208- 4,083- 4,875
2021- 6,667- 3,583- 0,625- 4,667- 2,7084,208------
$\tilde S_j$- 6,417- 3,958- 1,000- 4,500- 2,0005,4588,0009,9793,417- 1,042- 3,438- 5,417

Wenn die Summe der $\ \tilde S_j $ nicht null ergibt bzw. nicht hinreichend nahe bei null liegt, muss man noch ein Korrekturglied ermitteln, nämlich das arithmetische Mittel der $\ \tilde S_j $-Werte: es ist hier $\ {1 \over 12} \sum_{j=1}^{12} \hat S_j= - 0,0764 $. Dieses Korrekturglied wird von den $\ - \tilde S_j $ -Werten jeweils abgezogen, man erhält die normierten Schätzwerte für die monatstypische Abweichung $\ S_j $.

  1 2 3 4 5 6 7 8 9 10 11 12
2019------7,2929,2084,082- 0,875- 2,792- 5,958
2020- 6,167- 4,333- 1,375- 4,333- 1,2926,7088,70810,752,750- 1,208- 4,083- 4,875
2021- 6,667- 3,583- 0,625- 4,667- 2,7084,208------
$\tilde S_j$- 6,417- 3,958- 1,000- 4,500- 2,0005,4588,0009,9793,417- 1,042- 3,438- 5,417
$\hat S_j$- 6,340- 3,882- 0,924- 4,424- 1,9245,5358,07610,0563,493- 0,965- 3,361- 5,340

Saisonbereinigte Zeitreihe

Die eigentliche saisonbereinigte Zeitreihe ergibt sich dann durch Subtraktion der Werte aus Schritt 4 und der beobachteten Werte aus der Original-Zeitreihe.

 2019 saisonber. ZR2020 saisonber. ZR2021 saisonber. ZR
Januar3541,34033642,34033542,3403
Februar3740,8819 41,88193842,8819
März3939,92364141,92364141,9236
April4134,42363842,42363741,4236
Mai4041,92364142,92363940,9236
Juni4640,46534943,46534640,4653
Juli4940,92365142,92364940,9236
August5140,94445342,94445342,9444
September4642,50694541,50694642,5069
Oktober4141,96534141,96534141,9653
November3942,36113841,36113942,3611
Dezember3641,34033742,34033843,3403
Bitte Beschreibung eingeben
Abb.36

 

Hinweis

Hier klicken zum Ausklappen

Die obigen Überlegungen gelten nur bei folgenden einschränkenden Annahmen:

  • die glatte Komponente kann innerhalb eines Zeitraums von m + 1 Perioden durch eine lineare Schätzung angenähert werden,

  • die Saisonfigur, also das Tupel $\ (S_1,\ S_2, \ldots ,\ S_m) $, ist in der Summe null, d.h. $\ S_1 + S_2 + \ldots + S_m = 0 $. Konkret heißt dies bei Monatsdaten (bei Quartalsdaten), dass die Monatswerte (die Quartalswerte) eines Jahres in der Summe gleich null ergeben. Sollte dies nicht der Fall sein, dann muss man zunächst durch Normierung dafür sorgen, dass dies gilt.

  • die Werte der Saisonkomponente $\ S_t $ sind jeweils identisch für die gleichnamigen Perioden (sog. Konstanz der Saisonfigur, eine variable Saisonfigur wird hier nicht angesprochen)

  • $\ S_t = S_t+12 $ bei Monatswerten
    $\ S_t = S_t+4 $ bei Quartalswerten.