Inhaltsverzeichnis
Nach den unterschiedlichen Verfahren kommen wir zur Zeitreihenzerlegung. Die Anwendung der Zeitreihenzerlegung ist auch leichter verständlich, wenn diese anhand konkreter Zahlen erfolgt. Dazu folgendes Beispiel.
Beispiel
Beispiel 65:
Für die Auftragseingänge $\ y_t $ im Baugewerbe der norddeutschen Stadt Elmshorn werden in den Jahren 2019 – 2021 im jeweiligen Monat die folgenden Werte gemessen.
Monat | 2019 | 2020 | 2021 |
Januar | 35 | 36 | 35 |
Februar | 37 | 38 | 38 |
März | 39 | 41 | 41 |
April | 41 | 38 | 37 |
Mai | 40 | 41 | 39 |
Juni | 46 | 49 | 46 |
Juli | 49 | 51 | 49 |
August | 51 | 53 | 53 |
September | 46 | 45 | 46 |
Oktober | 41 | 41 | 41 |
November | 39 | 38 | 39 |
Dezember | 36 | 37 | 38 |
Die Werte $\ y_t $ hängen also primär von der Zeit ab, t gibt hierbei den Zeitindex an. Es stellen sich mehrere Fragen:
- Sind die Auftragseingänge ausschließlich zeitabhängig?
- Lässt sich ein Trend erkennen, so dass z.B. die Anzahl der Aufträge in den Jahren 2019, 2020 und 2021 ansteigt, unabhängig vom jeweiligen genauen Wert in den Monaten?
- Werden die Daten von einem Zyklus überlagert, so dass z.B. ein Konjunkturtief in 2021 für grundsätzlich niedrigere Werte sorgt als ein Hoch in 2019?
- Lassen sich Saisoneffekte erkennen, so dass die Anzahl der Aufträge in den Wintermonaten beispielsweise geringer ist als in den Sommermonaten?
Trendkomponente, zyklische Komponente, Saisonkomponente
Sinn der folgenden Überlegungen ist es, die Werte durch Zerlegung zu erklären, und zwar in die schon angedeutete
- Trendkomponente $\ T_t $
- diese wird durch langfristig wirkende Faktoren bedingt
- oftmals durch KQ-Schätzungen erklärt
- die zyklische Komponente $\ Z_t $
- sie wird durch Konjunkturzyklen bedingt
- sie ist oftmals wellenförmig
- die Saisonkomponente $\ S_t $
- hier werden Saisoneinflüsse beobachtet
- wie z.B. im vorliegenden Fall verminderte Auftragseingänge im Baugewerbe
- die irreguläre Komponente $\ U_t $
- die Ursachen sind keinen der o.e. Gründe zuzurechnen.
- die Werte der irregulären Komponente (= Störvariable, = Zufallsschwankung, = unerklärter Rest) werden als relativ klein angenommen
- und als unsystematisch um null schwankend verstanden
Hinweis
Oftmals fasst man den Trend und die zyklische Komponente zur sog. glatten Komponente $\ G_t $ zusammen.
Additive Zerlegung und multiplikative Zerlegung
Es werden nun mehrere Arten von Zeitreihenmodellen unterschieden:
- Die additiven Modelle mit der Zerlegung (= Überlagerung) $\ y = T + Z + S + U $
oder die
- multiplikativen Modelle mit der Zerlegung $\ y = T \cdot Z \cdot S \cdot U $
Wir betrachten im Folgenden ausschließlich das additive Modell.
-
Ermittlung der Zeitreihen-Komponenten:
- Ermittlung der Trendkomponente $\ T_t $ (oftmals mit einer linearen Regression). Fasse die Zeitreihen-Werte auf als Werte, die sich aus dem Ansatz $\ y_t = a + b \cdot t $ ergeben. (Man kann den Trend aber auch mit der Methode der gleitenden Durchschnitte ausrechnen.)
- Berechnung der zyklischen Komponente $\ Z_t $. Schätze zunächst die Trendwerte mit Hilfe des in Schritt 1 ermittelten Trends, bilde dann die glatte Komponente $\ G_t = T_t + Z_t $ mit Hilfe gleitender Durchschnitte der ursprünglichen Zeitreihe. Errechne den Zyklus als Differenz der glatten Komponente und der Trendwerte, also als $\ Z_t = G_t – T_t $
- Berechnung der Saisonkomponente $\ S_t $
Die Werte aus Schritt 2 werden gemittelt gemäß $$\ \tilde S_j = {1 \over m_j} \sum_{i \epsilon M j} (u_{i,j}- y^*_{i,j})= S_j + {1 \over m_j} \sum_{i \epsilon Mj} U_{i,j} $$ Diese Werte werden normiert durch $$\ \tilde S_j= \tilde S_j - {1 \over k} \sum_{j=1}^k \tilde S_j $$ Hierbei ist k die Anzahl der Werte $\ \tilde S_j $
$\ \tilde S_j $ ist eine Schätzung für die (monatstypische, quartalstypische,...) Abweichung, die saisonbereinigte Zeitreihe ist dann die Differenz.
Merke
Im zweiten Schritt funktioniert die Bildung der glatten Komponente unabhängig und losgelöst vom ersten Schritt. Für die glatte Komponente ist also die Trend-Berechnung uninteressant, erst für den Zyklus muss sie um den Trend bereinigt werden.
Zeitreihenzerlegung am Beispiel
Anwendung auf das Beispiel 65 damit wie folgt.
Schätzung des Trends
Die Trendkomponente $\ T_t $ wird mit der KQ-Methode geschätzt, die schon aus vorherigen Kapiteln bekannt ist. Wichtig ist allerdings, dass nun die Zeit der Regressor ist, also $\ y_t = a \cdot t + b $ gilt. Alle übrigen Komponenten, also $\ Z_t,\ S_t $ und $\ U_t $, sind hier das Residuum.
Es ist im vorliegenden Beispiel $\ \sum_{t=1}^{36} t^2 = 16.206 $, das arithmetische Mittel der Zeitdaten ist $\ \overline t= {1 \over 36} \sum_{t=1}^{36}t= 18,5 $, das Produkt $\ \sum_{t=1}^{36} t \cdot y_t = 28.119 $.
Also rechnet man die Steigung a aus als
$\begin{align} a & = {{1 \over n} \cdot \sum_{t=1}^n t \cdot y_t - \overline t \cdot \overline y \over {1 \over n} \cdot \sum_{t=1}^n t^2 -\overline t^{\ 2}}
\\ & ={{1 \over 36} \cdot 28.119 -18,5 \cdot 41,9444 \over {1 \over 36} \cdot 16.206 -18,5^2}
\\ & =0,0474 \end{align}$
Der Ordinatenabschnitt b ist:
$\ b = \overline y \; – \; a \cdot \overline t = 41,944 - 0,0474 \cdot 18,5 = 41,0683 $.
Man erhält also als Trendgerade $\ y = 0,0474 \cdot t + 41,0683 $.
Setzt man z.B. für t = 3 ein, so erhält man den Trendwert für den März des Jahres 2019 durch: $ (0,0474 \cdot 3) + 41,0683 = 41,2105 $. Die anderen Trendwerte sind in der folgenden Tabelle wiedergegeben:
2019 | Trendkomponente | 2020 | Trendkomponente | 2021 | Trendkomponente | |
Januar | 24 | 41,1156 | 25 | 41,6840 | 24 | 42,2523 |
Februar | 26 | 41,1630 | 27 | 41,7313 | 27 | 42,2997 |
März | 28 | 41,2103 | 30 | 41,7787 | 30 | 42,3470 |
April | 30 | 41,2577 | 27 | 41,8260 | 26 | 42,3944 |
Mai | 29 | 41,3051 | 30 | 41,8734 | 28 | 42,4417 |
Juni | 35 | 41,3524 | 38 | 41,9208 | 35 | 42,4891 |
Juli | 38 | 41,3998 | 40 | 41,9681 | 38 | 42,5365 |
August | 40 | 41,4471 | 42 | 42,0155 | 42 | 42,5838 |
September | 35 | 41,4945 | 34 | 42,0628 | 35 | 42,6312 |
Oktober | 30 | 41,5419 | 30 | 42,1099 | 30 | 42,6785 |
November | 28 | 41,5892 | 27 | 42,1576 | 28 | 42,7259 |
Dezember | 25 | 41,6366 | 26 | 42,2049 | 27 | 42,7733 |
Schätzung der glatten Komponente
Zur Ermittlung der zyklischen Komponente bedient man sich der Methode der gleitenden Durchschnitte. Wir schätzen die glatte Komponente als gleitenden Durchschnitt 12. Ordnung, d.h. k = 6 (wegen der Monatsdaten). Man verwendet die Formel
$\ x^*_t = \biggl[ {1 \over 2} x_{t-k}+ {1 \over 2} x_{t+k} + \sum {\tau=t-(k-1)}^{t+(k+1)} x_\tau \biggr] $
die speziell für k = 6 dann lautet:
$\ x^*_t = {1 \over 2 \cdot 6} \cdot \biggl[ {1 \over 2} x_{t-6}+ {1 \over 2} x_{t+6} + \sum_{\tau =t-5}^{t+5} x_\tau \biggr] $
Die möglichen t-Werte starten damit bei t = 7, damit in der Klammer mit $\ x_{7-6} = x_1 $ die Zählung begonnen werden kann. Damit rechnet man z.B.
$\ \begin {align} x^*_7 & = {1 \over 12} \biggl[ {1 \over 2} x_1 +{1 \over 2} x_13+ \sum_{\tau=2}^{12} x_\tau \biggr]
\\ & ={1 \over 12} \left[ {1 \over 2} \cdot 35+ {1 \over 2} \cdot 36+ (37+39+ \ldots +39+36) \right]
\\ & = 41,7083 \end {align} $
Die anderen Werte werden errechnet und die Arbeitstabelle 53 eingetragen. Man erhält damit die Zahlen der glatten Komponente.
2019 | glatte Komponente | 2020 | glatte Komponente | 2021 | glatte Komponente | |
Januar | 24 | - | 25 | 42,1667 | 24 | 41,6667 |
Februar | 26 | - | 27 | 42,3333 | 27 | 41,5833 |
März | 28 | - | 30 | 42,3750 | 30 | 41,6250 |
April | 30 | - | 27 | 42,3333 | 26 | 41,6667 |
Mai | 29 | - | 30 | 42,2917 | 28 | 41,7083 |
Juni | 35 | - | 38 | 42,2917 | 35 | 41,7917 |
Juli | 38 | 41,7083 | 40 | 42,2917 | 38 | - |
August | 40 | 41,7917 | 42 | 42,2500 | 42 | - |
September | 35 | 41,9167 | 34 | 42,2500 | 35 | - |
Oktober | 30 | 41,8750 | 30 | 42,2083 | 30 | - |
November | 28 | 41,7917 | 27 | 42,0833 | 28 | - |
Dezember | 25 | 41,9583 | 26 | 41,8750 | 27 | - |
Alsdann bildet man die Differenz aus den tatsächlichen Zahlen yt und den Werten der glatten Komponente $\ y_t^* $, d.h. die um die glatte Komponente bereinigte Zeitreihe $\ y_t - y_t^* $:
2019 | $\ y_t - y_t^*$ | 2020 | $\ y_t - y_t^* $ | 2021 | $\ y_t - y_t^* $ | |
Januar | 24 | - | 25 | - 6,1667 | 24 | - 6,6667 |
Februar | 26 | - | 27 | - 4,3333 | 27 | - 3,5833 |
März | 28 | - | 30 | - 1,3750 | 30 | - 0,6250 |
April | 30 | - | 27 | - 4,3333 | 26 | - 4,6667 |
Mai | 29 | - | 30 | - 1,2919 | 28 | - 2,7083 |
Juni | 35 | - | 38 | 6,7083 | 35 | 4,2083 |
Juli | 38 | 7,2917 | 40 | 8,7083 | 38 | - |
August | 40 | 9,2083 | 42 | 10,7500 | 42 | - |
September | 35 | 4,0833 | 34 | 2,7500 | 35 | - |
Oktober | 30 | - 0,8750 | 30 | - 1,2083 | 30 | - |
November | 28 | - 2,7917 | 27 | - 4,0833 | 28 | - |
Dezember | 25 | - 5,9583 | 26 | - 4,8750 | 27 | - |
Danach ordnet man zur besseren Übersicht die zum jeweils gleichen Monat passenden Daten spaltenweise an:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | |
2019 | - | - | - | - | - | - | 7,292 | 9,208 | 4,083 | - 0,875 | - 2,792 | - 5,958 |
2020 | - 6,167 | - 4,333 | - 1,375 | - 4,333 | - 1,292 | 6,708 | 8,708 | 10,750 | 2,750 | - 1,208 | - 4,083 | - 4,875 |
2021 | - 6,667 | - 3,583 | - 0,625 | - 4,667 | - 2,708 | 4,208 | - | - | - | - | - | - |
Schließlich werden die Zahlen aus Schritt 3 spaltenweise (!) gemittelt gemäß der Formel
$ S_j= {1 \over m_j} \sum_{i \epsilon Mj} (u_{i,j}- y^*_{i,j})= S_j + {1 \over m_j} \sum_{i \epsilon Mj} U_{i,j}$
$ M_j $ ist die Menge der Jahre, für die dann die um die glatte Komponente bereinigte Zeitreihe gebildet wird. Die Zahl $ m_j $ ist hierbei die Anzahl der Jahre, für die man die um die glatte Komponente bereinigte Zeitreihe berechnen kann. Also ist $\ M_1 = M_2 = \ldots = M_6 = \{2,3\} $, weil nur für das 2. und 3. Jahr der Wert gebildet werden kann, denn dadurch dass am Anfang sechs Monate herausfallen, sind die Werte für die Monate Januar bis Juni nur aus den Jahren 2 und 3 zu berechnen. Der Parameter $\ m_1 $ ist dabei $\ m_2 = 2 $, nämlich die Anzahl der Elemente der Mengen $ M_l,\ I = 1, \ldots ,\ 6 $.
Genau andersrum verhält es sich bei $ M_7 = M_8 = \ldots = M_{12} = \{1,2\} $. Dadurch, dass am Ende (im Jahr 2003) sechs Monate wegfallen, sind für die Monate Juli bis Dezember nur die Jahre 2019 und 2020, also 1 und 2, brauchbar. Also ist $\ m_2 $, wie oben die Zahl $ m_1 $ auch, $ m_2 = 2 $. Man erhält also
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | |
2019 | - | - | - | - | - | - | 7,292 | 9,208 | 4,083 | - 0,875 | - 2,792 | - 5,958 |
2020 | - 6,167 | - 4,333 | - 1,375 | - 4,333 | - 1,292 | 6,708 | 8,708 | 10,750 | 2,750 | - 1,208 | - 4,083 | - 4,875 |
2021 | - 6,667 | - 3,583 | - 0,625 | - 4,667 | - 2,708 | 4,208 | - | - | - | - | - | - |
$\tilde S_j$ | - 6,417 | - 3,958 | - 1,000 | - 4,500 | - 2,000 | 5,458 | 8,000 | 9,979 | 3,417 | - 1,042 | - 3,438 | - 5,417 |
Wenn die Summe der $\ \tilde S_j $ nicht null ergibt bzw. nicht hinreichend nahe bei null liegt, muss man noch ein Korrekturglied ermitteln, nämlich das arithmetische Mittel der $\ \tilde S_j $-Werte: es ist hier $\ {1 \over 12} \sum_{j=1}^{12} \hat S_j= - 0,0764 $. Dieses Korrekturglied wird von den $\ - \tilde S_j $ -Werten jeweils abgezogen, man erhält die normierten Schätzwerte für die monatstypische Abweichung $\ S_j $.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | |
2019 | - | - | - | - | - | - | 7,292 | 9,208 | 4,082 | - 0,875 | - 2,792 | - 5,958 |
2020 | - 6,167 | - 4,333 | - 1,375 | - 4,333 | - 1,292 | 6,708 | 8,708 | 10,75 | 2,750 | - 1,208 | - 4,083 | - 4,875 |
2021 | - 6,667 | - 3,583 | - 0,625 | - 4,667 | - 2,708 | 4,208 | - | - | - | - | - | - |
$\tilde S_j$ | - 6,417 | - 3,958 | - 1,000 | - 4,500 | - 2,000 | 5,458 | 8,000 | 9,979 | 3,417 | - 1,042 | - 3,438 | - 5,417 |
$\hat S_j$ | - 6,340 | - 3,882 | - 0,924 | - 4,424 | - 1,924 | 5,535 | 8,076 | 10,056 | 3,493 | - 0,965 | - 3,361 | - 5,340 |
Saisonbereinigte Zeitreihe
Die eigentliche saisonbereinigte Zeitreihe ergibt sich dann durch Subtraktion der Werte aus Schritt 4 und der beobachteten Werte aus der Original-Zeitreihe.
2019 | saisonber. ZR | 2020 | saisonber. ZR | 2021 | saisonber. ZR | |
Januar | 35 | 41,3403 | 36 | 42,3403 | 35 | 42,3403 |
Februar | 37 | 40,8819 | 41,8819 | 38 | 42,8819 | |
März | 39 | 39,9236 | 41 | 41,9236 | 41 | 41,9236 |
April | 41 | 34,4236 | 38 | 42,4236 | 37 | 41,4236 |
Mai | 40 | 41,9236 | 41 | 42,9236 | 39 | 40,9236 |
Juni | 46 | 40,4653 | 49 | 43,4653 | 46 | 40,4653 |
Juli | 49 | 40,9236 | 51 | 42,9236 | 49 | 40,9236 |
August | 51 | 40,9444 | 53 | 42,9444 | 53 | 42,9444 |
September | 46 | 42,5069 | 45 | 41,5069 | 46 | 42,5069 |
Oktober | 41 | 41,9653 | 41 | 41,9653 | 41 | 41,9653 |
November | 39 | 42,3611 | 38 | 41,3611 | 39 | 42,3611 |
Dezember | 36 | 41,3403 | 37 | 42,3403 | 38 | 43,3403 |
Hinweis
Die obigen Überlegungen gelten nur bei folgenden einschränkenden Annahmen:
- die glatte Komponente kann innerhalb eines Zeitraums von m + 1 Perioden durch eine lineare Schätzung angenähert werden,
- die Saisonfigur, also das Tupel $\ (S_1,\ S_2, \ldots ,\ S_m) $, ist in der Summe null, d.h. $\ S_1 + S_2 + \ldots + S_m = 0 $. Konkret heißt dies bei Monatsdaten (bei Quartalsdaten), dass die Monatswerte (die Quartalswerte) eines Jahres in der Summe gleich null ergeben. Sollte dies nicht der Fall sein, dann muss man zunächst durch Normierung dafür sorgen, dass dies gilt.
- die Werte der Saisonkomponente $\ S_t $ sind jeweils identisch für die gleichnamigen Perioden (sog. Konstanz der Saisonfigur, eine variable Saisonfigur wird hier nicht angesprochen)
- $\ S_t = S_t+12 $ bei Monatswerten
$\ S_t = S_t+4 $ bei Quartalswerten.
Weitere interessante Inhalte zum Thema
-
Bravais-Pearsonscher Korrelationskoeffizient
Vielleicht ist für Sie auch das Thema Bravais-Pearsonscher Korrelationskoeffizient (Korrelationsanalyse) aus unserem Online-Kurs SPSS Software interessant.
-
Methode der gleitenden Durchschnitte
Vielleicht ist für Sie auch das Thema Methode der gleitenden Durchschnitte (Zeitreihenanalyse) aus unserem Online-Kurs Deskriptive Statistik interessant.