Kursangebot | Deskriptive Statistik | Streuungszerlegung

Deskriptive Statistik

Streuungszerlegung

Die Streuungszerlegung, auch Varianzzerlegung, erklärt die Gesamtvarianz unterschiedlicher statistischer Massen mit Hilfe der Teilvarianzen.

Beispiel zur Streuungszerlegung

Beispiel

Beispiel 44:
Gegeben sei folgendes Beispiel einer Einkommensverteilung.

  1 2 3 4 5
A 2000 2000 2000    
B 3000 4000 6000 7000  
C 4000 4000 5000 6000 11000

Wie kann man die Gesamtvarianz aller zwölf Teilnehmer erklären mit Hilfe der Teilvarianzen der einzelnen Gruppen?
Dazu dient die Streuungszerlegungsformel (sprachlich ungenau, besser wäre der Begriff Varianzzerlegungsformel)

Streuungszerlegungsformel und Mittelwertzerlegungsformel

Für k unterschiedliche statistische Massen $\ M_1, M_2, ..., M_k $ mit jeweils $\ n_j $ Beobachtungswerten, deren jeweiliges arithmetisches Mittel $\ \overline x_1,..., \overline x_k $ und deren mittlere quadratische Abweichungen $\ {s_1}^2,{s_2}^2,...,{s_k}^2 $ seien, gilt für die Gesamtmasse $\ M=M_1 \cup M_2 \cup...\cup M_k $, die aus $\ n = n_1 + n_2 + ... + n_k $ Beobachtungswerten besteht, d.h. gilt für die Gruppen insgesamt die Varianz
$$\ s_{ges}^2={1 \over n} \sum_{j=1}^k n_j \cdot {s_j}^2 + {1 \over n} \sum_{j=1}^k n_j \cdot ( \overline x_j- \overline x_{ges})^2 $$ (Streuungszerlegungsformel) wobei das Gesamtmittel berechnet wird als
$$\ \overline x_{ges}={1 \over n} \sum_{j=1}^k n_j \cdot \overline x_j $$ (Mittelwertzerlegungsformel)

Im vorliegenden oben erwähnten Beispiel errechnet man $\ \overline x_A=2.000€ , \overline x_B=5.000€ $ und $\ \overline x_C=6.000€ $ sowie für die Varianzen $\ {s_A}^2 = 0, {s_B}^2 = 2.500.000€^2 $ und $ {s_C}^2 = 6.800.000€^2 $. Die Stichprobenumfänge sind $\ n_1 = 3, n_2 = 4 $ und $\ n_3 = 5 $. Also ist $\ n = n_1 + n_2 + n_3 = 3 + 4 + 5 = 12 $, der Gesamtmittelwert ist $\ \overline x_{Ges}= {1 \over 12} \cdot (3 \cdot 2.000+4 \cdot 5.000+5 \cdot 6.000)=4.666,67 $
und die Gesamtvarianz
$\ s_{ges}^2= {1 \over 12} \cdot (3 \cdot 0+4 \cdot 2.500.000+5 \cdot 6.800.000)+{1 \over 12} \cdot (3 \cdot (2.000-4.666,67)^2 + ... + 5 \cdot (6.000 – 4.666,67)^2)$
$\ = 3.666.666,67 + 2.555.555,56 = 6.222.222,222 $.

Erklärung der Formel

Man macht sich die Unterteilung der Streuungszerlegungsformel klar:

  • Der erste Summand, nämlich $$\ {1/n} \sum_{j=1}^k n_j \cdot {s_j}^2 $$ wird als interne mittlere quadratische Abweichung bezeichnet (hier 3666.666,67),
  • der zweite Summand, nämlich $$\ {1 \over n} \sum_{j=1}^k n_j \cdot (x_j - \overline x_{ges})^2 $$ als externe mittlere quadratische Abweichung (hier 2.555.555,56).

Der Vorteil der Streuungszerlegungsformel besteht darin, dass man nicht alle Werte kennen muss, um die Gesamtvarianz ausrechnen zu können. Die jeweiligen arithmetischen Mittel, die Streuungen $\ s_i $ in den Gruppen sowie die jeweiligen Stichprobenumfänge $\ n_j $ reichen vollkommen aus. Darüber hinaus hat die Streuungszerlegungsformel in der Varianzanalyse eine große Bedeutung, was erst in der Stichprobentheorie relevant sein wird.