ZU DEN KURSEN!

Deskriptive Statistik - Streuungszerlegung

Kursangebot | Deskriptive Statistik | Streuungszerlegung

Deskriptive Statistik

Streuungszerlegung

Die Streuungszerlegung, auch Varianzzerlegung, erklärt die Gesamtvarianz unterschiedlicher statistischer Massen mit Hilfe der Teilvarianzen.

Beispiel

Hier klicken zum Ausklappen

Beispiel 44:

Als Beispiel ist diese Einkommensverteilung gegeben:

 ABCDE
13.5003.5003.500  
24.2505.2507.5008.500 
34.2504.2506.2507.25010.250

Wie lässt sich die Gesamtvarianz aller zwölf Teilnehmenden mit Hilfe der Teilvarianzen der einzelnen Gruppen erklären?

Dafür kann die Streuungszerlegungsformel (besser wäre der Ausdruck Varianzzerlegungsformel, da sprachlich exakter) angewandt werden.

Streuungszerlegungsformel & Mittelwertzerlegungsformel

Für $k$ unterschiedliche statistische Massen $\ M_1, M_2, ..., M_k $ mit jeweils $\ n_j $ Beobachtungswerten, deren jeweiliges arithmetisches Mittel $\overline x_1,..., \overline x_k $ und deren mittlere quadratische Abweichungen $\ {s_1}^2,{s_2}^2,...,{s_k}^2 $ seien, gilt für die Gesamtmasse $\ M=M_1 \cup M_2 \cup...\cup M_k $, die aus $\ n = n_1 + n_2 + ... + n_k $ Beobachtungswerten besteht, demnach ist die Varianz für die Gruppen insgesamt:

$\ s_{ges}^2={1 \over n} \sum_{j=1}^k n_j \cdot {s_j}^2 + {1 \over n} \sum_{j=1}^k n_j \cdot ( \overline x_j- \overline x_{ges})^2 $ (Streuungszerlegungsformel)

Das Gesamtmittel berechnet man mit der Formel:

$\ \overline x_{ges}={1 \over n} \sum_{j=1}^k n_j \cdot \overline x_j $ (Mittelwertzerlegungsformel)

Auf das Beispiel 44 angewendet, rechnet man:

$\overline x_1 = 3.500€, \overline x_2 = 6.375€ \;\; \text{und} \;\; \overline x_3 = 6.450€ $

Für die Varianzen:

$\ s_1^2 = 0, s_2^2 = 2.890.625€^2 \;\; \text{und} \;\;  s_3^2 = 4.960.000€^2 $

Die Stichprobenumfänge sind

$ n_1  = 3, n_2 = 4 \;\; \text{und} \;\; \ n_3 = 5 $

Also ist $ n = n_1 + n_2 + n_3 = 3 + 4 + 5 = 12 $

Der Gesamtmittelwert lautet:

$\overline x_{Ges}= {1 \over 12} \cdot (3 \cdot 3.500€+4 \cdot 6.375€+5 \cdot 6.450€ ) = 5.687,50 $

Für die Gesamtvarianz:

$\begin{align} s_{ges}^2 & = {1 \over 12} \cdot (3 \cdot 0+4 \cdot 2.890.625+5 \cdot 4.960.000)
\\ & +{1\over 12} \cdot (3 \cdot (3.500 - 5.687,50)^2 + ... + 5 \cdot (6.450 – 5.687,50)^2)
\\ & = 3.030.208,33 + 1.596.09,75
\\ & = 4.626.302.08 \end{align}$

Erklärung der Formel

Man sollte sich die Aufteilung der Streuungszerlegungsformel vor Augen führen:

Summand 1 oder auch interne mittlere quadratische Abweichung: $$\ {1/n} \sum_{j=1}^k n_j \cdot {s_j}^2 $$ (hier 3.030.208,33)

Summand 2, die externe mittlere quadratische Abweichung:  $$\ {1 \over n} \sum_{j=1}^k n_j \cdot (x_j - \overline x_{ges})^2 $$  (hier 1.596.09,75).

Die Streuungszerlegungsformel ist aus dem Grund so attraktiv, da man für sie nicht die ganzen Werte  gegeben haben muss, sondern lediglich die entsprechenden arithmetischen Mittel, die Streuungen $\ s_i $ der Gruppen und die jeweiligen Stichprobenumfänge $\ n_j $, um die Gesamtvarianz bestimmen zu können. Zudem ist die Streuungszerlegungsformel bei der Varianzanalyse von Wichtigkeit, dies ist jedoch erst in der Stichprobentheorie von Bedeutung.