Inhaltsverzeichnis
Die Streuungszerlegung, auch Varianzzerlegung, erklärt die Gesamtvarianz unterschiedlicher statistischer Massen mit Hilfe der Teilvarianzen.
Beispiel zur Streuungszerlegung
Beispiel
Beispiel 44:
Gegeben sei folgendes Beispiel einer Einkommensverteilung.
1 | 2 | 3 | 4 | 5 | |
A | 2000 | 2000 | 2000 | ||
B | 3000 | 4000 | 6000 | 7000 | |
C | 4000 | 4000 | 5000 | 6000 | 11000 |
Wie kann man die Gesamtvarianz aller zwölf Teilnehmer erklären mit Hilfe der Teilvarianzen der einzelnen Gruppen?
Dazu dient die Streuungszerlegungsformel (sprachlich ungenau, besser wäre der Begriff Varianzzerlegungsformel)
Streuungszerlegungsformel und Mittelwertzerlegungsformel
Für k unterschiedliche statistische Massen $\ M_1, M_2, ..., M_k $ mit jeweils $\ n_j $ Beobachtungswerten, deren jeweiliges arithmetisches Mittel $\ \overline x_1,..., \overline x_k $ und deren mittlere quadratische Abweichungen $\ {s_1}^2,{s_2}^2,...,{s_k}^2 $ seien, gilt für die Gesamtmasse $\ M=M_1 \cup M_2 \cup...\cup M_k $, die aus $\ n = n_1 + n_2 + ... + n_k $ Beobachtungswerten besteht, d.h. gilt für die Gruppen insgesamt die Varianz
$$\ s_{ges}^2={1 \over n} \sum_{j=1}^k n_j \cdot {s_j}^2 + {1 \over n} \sum_{j=1}^k n_j \cdot ( \overline x_j- \overline x_{ges})^2 $$ (Streuungszerlegungsformel) wobei das Gesamtmittel berechnet wird als
$$\ \overline x_{ges}={1 \over n} \sum_{j=1}^k n_j \cdot \overline x_j $$ (Mittelwertzerlegungsformel)
Im vorliegenden oben erwähnten Beispiel errechnet man $\ \overline x_A=2.000€ , \overline x_B=5.000€ $ und $\ \overline x_C=6.000€ $ sowie für die Varianzen $\ {s_A}^2 = 0, {s_B}^2 = 2.500.000€^2 $ und $ {s_C}^2 = 6.800.000€^2 $. Die Stichprobenumfänge sind $\ n_1 = 3, n_2 = 4 $ und $\ n_3 = 5 $. Also ist $\ n = n_1 + n_2 + n_3 = 3 + 4 + 5 = 12 $, der Gesamtmittelwert ist $\ \overline x_{Ges}= {1 \over 12} \cdot (3 \cdot 2.000+4 \cdot 5.000+5 \cdot 6.000)=4.666,67 $
und die Gesamtvarianz
$\ s_{ges}^2= {1 \over 12} \cdot (3 \cdot 0+4 \cdot 2.500.000+5 \cdot 6.800.000)+{1 \over 12} \cdot (3 \cdot (2.000-4.666,67)^2 + ... + 5 \cdot (6.000 – 4.666,67)^2)$
$\ = 3.666.666,67 + 2.555.555,56 = 6.222.222,222 $.
Erklärung der Formel
Man macht sich die Unterteilung der Streuungszerlegungsformel klar:
- Der erste Summand, nämlich $$\ {1/n} \sum_{j=1}^k n_j \cdot {s_j}^2 $$ wird als interne mittlere quadratische Abweichung bezeichnet (hier 3666.666,67),
- der zweite Summand, nämlich $$\ {1 \over n} \sum_{j=1}^k n_j \cdot (x_j - \overline x_{ges})^2 $$ als externe mittlere quadratische Abweichung (hier 2.555.555,56).
Der Vorteil der Streuungszerlegungsformel besteht darin, dass man nicht alle Werte kennen muss, um die Gesamtvarianz ausrechnen zu können. Die jeweiligen arithmetischen Mittel, die Streuungen $\ s_i $ in den Gruppen sowie die jeweiligen Stichprobenumfänge $\ n_j $ reichen vollkommen aus. Darüber hinaus hat die Streuungszerlegungsformel in der Varianzanalyse eine große Bedeutung, was erst in der Stichprobentheorie relevant sein wird.
Weitere Interessante Inhalte zum Thema
-
Varianzanalyse in SPSS
Vielleicht ist für Sie auch das Thema Varianzanalyse in SPSS (Einfaktorielle Varianzanalyse) aus unserem Online-Kurs SPSS Software interessant.
-
Bravais-Pearsonscher Korrelationskoeffizient
Vielleicht ist für Sie auch das Thema Bravais-Pearsonscher Korrelationskoeffizient (Korrelationsanalyse) aus unserem Online-Kurs SPSS Software interessant.