Kursangebot | Deskriptive Statistik | Unterschiedliche Streuungsmaße

Deskriptive Statistik

Unterschiedliche Streuungsmaße

wiwiweb JETZT WEITER LERNEN!

Weitere Lernvideos sowie zahlreiche Materialien erwarten dich:
Komplettpaket für wiwi-Studenten


1746 Lerntexte mit den besten Erklärungen

468 weitere Lernvideos von unseren erfahrenen Dozenten

3807 Übungen zum Trainieren der Inhalte

1746 informative und einprägsame Abbildungen

Wenn man lediglich einen Lageparameter einer Verteilung angibt, so ist hiermit noch keine Aussage darüber gemacht, ob die anderen Werte „nahe dran” oder „weit weg” liegen. Dafür gibt es in der deskriptiven Statistik unterschiedliche Streuungsmaße.

Beispiel

Beispiel 42:

Die Einkommensverteilung drei verschiedener Gruppen 1, 2, und 3 werden betrachtet:

Die Einkommensverteilung der Gruppe 1 ist:

PersonABCDE
Einkommen3.0003.0003.0003.0003.000

Die Einkommensverteilung der Gruppe 2 ist:

PersonABCDE
Einkommen2.0002.5003.0003.5004.000

Die Einkommensverteilung der Gruppe 3 ist:

PersonABCDE
Einkommen5001.5003.0004.5005.500

Wie stark streuen die Einkommen in den einzelnen Gruppen?

Das durchschnittliche Einkommen, also das arithmetische Mittel aller Gruppen, liegt bei 3.000€. Der Median würde in diesem Fall sogar dasselbe Ergebnis liefern. Sofort ist zu erkennen, dass die Einkommensverteilung in der Gruppe 2 ungleichmäßiger ist als in Gruppe 1. In Gruppe 3 sind die Unterschiede zwischen geringstem und höchstem Einkommen innerhalb einer Gruppe noch größer als in Gruppe 2.

Das Streuungsmaß in der Statistik

Die Ungleichheit in der Verteilung wird durch den Streuungsparameter (= Streuungsmaß) oder Dispersionsmaß angegeben.

Man kennt unterschiedliche Streuungen für kardinalskalierte Beobachtungswerte $\ x_1, x_2, ..., x_n $:

  1. absolute Streuungsmaße
    1. Spannweite
    2. durchschnittliche absolute Abweichung
    3. mittlere quadratische Abweichung
    4. Standardabweichung
    5. Quartilsabstand

  2. relatives Streuungsmaß
    • Variationskoeffizient.

1. absolute Streuungsmaße

1.1 Spannweite

Die Spannweite SP (= engl. Range) wird durch die Formel $\ SP = x_{max} – x_{min} $ berechnet.

Sie zeigt den absoluten Unterschied zwischen dem niedrigsten und dem höchsten Beobachtungswert an. Dieses Maß ist äußerst anfällig für Ausreißer, da sie abhängig von den äußersten Werten der geordneten Urliste ist. Die Spannweite der Einkommensverteilung aus unserem Beispiel:

Für Gruppe 2: $\ SP_B = x_{max} – x_{min} = 4.000€ – 2.000€ = 2.000 € $

Für Gruppe 3: $\ SP_B = x_{max} – x_{min} = 5.500€ – 500€ = 5.000 € $

1.2 Durchschnittliche absolute Abweichung

Die durchschnittliche absolute Abweichung $ \overline s $ von einem Lageparameter $\lambda $ (=Lambda)ist definiert als

$$\ \overline s = {1 \over n} \sum^n | x_i- \lambda | = \sum_{j=1}^k | a_j- \lambda | \cdot f(a_j) $$

Die durchschnittliche absolute Abweichung, ist demnach das arithmetische Mittel der Abstände aller Beobachtungswerte von $\lambda $ , im Besonderen für $\ \lambda = x_{med} $ ist die durchschnittliche Medianabweichung. Bekannt ist außerdem, dass die Summe $\ \sum_{i=1}^n | x_i- \lambda | $ minimal wird, wenn man für $\ \lambda $ den Median $\ x_{med} $ einsetzt (Wir erinnern uns an die Optimalitätseigenschaft des Median).

So ist die durchschnittliche Abweichung vom arithmetischen Mittel $\overline x = 3.000 € $ bei unserem Beispiel:

Gruppe 2: $\overline s = {1 \over n} \sum | x_i- \lambda | = {1 \over 5} \cdot (|2000€ -3.000€|) + (...) + (|4.000 -3.000€|) = 600€ $ 

Gruppe 3: $\overline s = {1 \over n} \sum | x_i- \lambda | = {1 \over 5} \cdot (|500€ -3.000€|) + (...) + (|5.500€ - 3.000€|) = 1600€ $

1.3 Mittlere quadratische Abweichung

Die Formel für die mittlere quadratische Abweichung $\ s^2 $:

$\begin{align}\ s^2 &= {1 \over n} \sum_{i=1}^n (x_i- \overline x)^2
\\ & \text{bzw.}
\\ s^2 & = \sum_{j=1}^k (a_j- \overline x)^2 \cdot f(a_j)
\\ & \text{bzw.}
\\ s^2  & ={1 \over n} ( \sum_{i=1}^n x_i^2)- ( \overline x) ^2 \text{(Steinerscher Verschiebungssatz)} \end{align}$

Die mittlere quadratische Abweichung ist also die Summe der quadrierten Differenzen der einzelnen $\ x_i $ vom arithmetischen Mittel $\ \overline x $. Dies kann man machen, da die Summe $\ \sum_{i=1}^n (x_i- \lambda)^2 $ minimal wird, wenn man für $\ \lambda $ das arithmetische Mittel $\ \overline x $ einsetzt (sogenannte Optimalitätseigenschaft des arithmetischen Mittels). Die zweite Formel für $\ s^2 $ , nämlich $\ \sum_{j=1}^n (a_j- \overline x)^2 \cdot f(a_j) $ gilt, wenn man die Häufigkeitsverteilung zugrunde legt.

Hinweis

Viele Autoren präferieren $\ s^2= {1 \over (n-1)} \sum_{i=1}^n (x_i- \overline x)^2 $ als mittlere quadratische Abweichung, also mit dem Vorfaktor $\ {1 \over (n-1)} $ anstelle von $\ {1 \over n} $. Die Gründe dafür verstehen wir erst, wenn wir das Thema Stichprobentheorie behandelt haben. In der deskriptiven Statistik verwenden wir daher nur den Vorfaktor $\ {1 \over n} $, also die  oben erwähnte Definition der mittleren quadratischen Abweichung.

Für die mittlere quadratische Abweichung rechnet man:
$\begin{align} s_2^2 & ={1 \over 5} \cdot [(2.000 - 3.000)^2+...+(4.000 - 3.000)^2] = 500.000 €^2
\\ s_3^2 & ={1 \over 5} \cdot [( 500 - 3.000)^2+...+(5.500 - 3.000)^2] = 3.400.000 €^2 \end{align} $

Mit dem Verschiebungssatz kommt man auf das gleiche Ergebnis:

$\begin{align} s_2^2 & = {1 \over 5} \cdot [(2.000)^2+(2.500)^2+...+(4.000)^2]-(3.000)^2
\\ & = 9.500.000 - 9.000.000 = 500.000 €^2
\\ s_3^2 & = {1 \over 5} \cdot [(500)^2+(1.500)^2+...+(5.500)^2] - (3.000)^2
\\ & = 12.400.000 - 9.000.000 = 3.400.000 €^2\end{align} $

1.4 Standardabweichung

Die Standardabweichung s berechnet man als Wurzel aus der mittleren quadratischen Abweichung:

$s= \sqrt {s^2}$

Im Vergleich zur mittleren quadratischen Abweichung, hat die Standardabweichung die gleiche Dimension wie die Beobachtungswerte.

Die Standardabweichung:
$\begin{align} s_2 & = \sqrt {500.000} = 707,11€
\\ s_3 & = \sqrt {3.400.000} = 1.843,91€ \end{align} $

1.3 Quartilsabstand

Der Quartilsabstand QA ist definiert als Differenz zwischen dem oberen$\ x_{0,75} $ und unteren$\ x_{0,25} $ Quartil:

$\ QA = x_{0,75} – x_{0,25} $

Die Quartilabstände der Gruppen zwei und drei aus unserem Beispiel sind:
$\  6.000 – 4.000 = 2.000 $ €.

$\begin{align} QA_2 & = x_{0,75} - x_{0,25} = 3.500 - 2.500 = 1.000
\\ QA_3 & = x_{0,75} - x_{0,25} = 4.500 - 1.500 = 3.000 \end{align} $

Merke

Das Streuungsmaß kann ab ordinalskalierten Merkmalen verwendet werden. Gleichwohl sollte man es erst bei metrisch skalierten Daten verwenden, auch wenn die Berechnung der Quartile selbst möglich ist, denn erst dann ist auch eine Differenz sinnvoll interpretierbar.

2. relatives Streuungsmaß

2.1 Variationskoeffizient

Unter dem Variationskoeffizienten v versteht man den Quotienten aus Standardabweichung s und arithmetischem Mittel $\overline x $:

$\ v = {s \over \overline x} $

Dabei sollte man sinnvollerweise nur positive $\ \overline x $-Werte bei der Definition zuzulassen. Beim Variationskoeffizient handelt es sich um ein relatives Streuungsmaß, da der Anteil der Streuung am arithmetischen Mittel gemessen wird.

Der Variationskoeffizient im erwähnten Beispiel ist
$\begin{align} \ v_2 = {707,11 \over 3.000} = 0,2357 = 23,57 \%
\ v_3 = {1.843,91 \over 3.000} = 0,6146 = 61,46 \% \end{align} $

Der Variationskoeffizient $ v_2 = 0,2357 $ besagt, dass die Streuung $\ s $ als Maß der Abweichung 23,57 % vom Mittelwert ausmacht. Dabei ist es häufig sinnvoll, ihn in Prozent anzugeben.

 

Interpretation der Streuungsmaße

Die Spannweite SP sagt aus, in welcher Range jeder Wert liegt, also der Abstand zwischen dem kleinsten und dem Größten Wert. In unserem Beispiel sind es 2.000€ bzw. 5.000€. Dieses Streuungsmaß ist allerdings recht grob, weil man lediglich weiß, dass alle Werte innerhalb dieser Range liegen. Wo jedoch die meisten? Dies wird halbwegs gut durch die Standardabweichung $\ s $ beantwortet.

Die mittleren quadratischen Abweichung $\ s^2 $ ist ein Maß, welches darüber eine Aussage trifft, wie ungenau die Schätzung des Mittelwertes ist. Denn sie gewichtet die Abweichung und das sogar zum Quadrat. Dies hat jedoch den entscheiden Nachteil, dass die Dimension bzw. Einheit dann nicht mehr mit denen der Beobachtungswerte übereinstimmt. Dieser Malus wird allerdings durch das Radizieren zur Standardabweichung $\ s $ aufgehoben.

Durch die durchschnittliche Abweichung vom arithmetischen Mittel $\overline s $, wird der Betrag angezeigt, den jeder Wert im Mittel vom arithmetischen Mittel abweicht. Für unser Beispiel war das 600€ bzw. 1.600€.

Zum Vergleich der Verteilungen seien die Streuungsmaße für alle Gruppen aufgelistet.

Streuungsmaß $\ SP $
$\ \overline s $ $\ s^2 $ $\ s $ $\ v $ $\ QA $
1000000
22.000600500.000707,110,23571.000
35.0001.6003.400.0001.843,910,61463.000

Man erkennt deutlich, dass die Werte in C stärker streuen als in B, die Verteilung ist damit ungleichmäßiger. Verteilung A streut gar nicht, weil die Werte alle gleich sind. Die Abweichungen vom Mittelwert sind also alle gleich null.

Merke

Es gilt für Lineartransformationen aus den Werten $\ x_i $, also für $\ y_i = a + bx $, die Beziehung

$$\begin{align}{s_y}^2 & = {1 \over n} \sum_{i=1}^n (y_i- \overline y)^2
\\ & = {1 \over n} \sum_{i=1}^n (a+bx_i-(a+b \overline x))^2
\\ & = {1 \over n} \sum_{i=1}^n ((x_i- \overline x) \cdot b)^2
\\ & = {{b^2 \cdot 1} \over n} \sum_{i=1}^n (x_i- \overline x)^2 \end{align}$$

d.h.

$\ {s_y}^2={b^2} \cdot {s_x}^2 $ für die mittlere quadratische Abweichung

bzw.

$\ s_y = | b | \cdot s_x $ für die Standardabweichung.

Zur letzten Bemerkung weitere Beispiele:

Beispiel

Beispiel 43:

Jeder Teilnehmer aus den Gruppen 1,2,3 aus dem obigen Beispiel 42 möge nun das zweifache Gehalt beziehen und noch einen Bonus von 1.000 € extra erhalten.

Inwiefern handelt es sich um eine Lineartransformation?

Gib die Parameter a und b an. a = 1.000 € und b = 2, demnach rechnet man$\ y_i = 1.000 + 2x_i $ anstelle von $\ x_i $ (also die alten Gehälter). Daraus ergeben sich dann folgende neue Einkommensverteilung.

 ABCDE
17.0007.0007.0007.0007.000
25.0006.0007.0008.0009.000
32.0004.0007.00010.00012.000

Die mittleren quadratischen Abweichungen $\ s^2 $ und die Standardabweichungen $\ s $ lauten dann für die jeweiligen Gruppen:

Gruppe
$\ s^2 $ $\ s $
100
28.000.0002828,43
340.000.0006324,56

Man sieht, dass sich die Werte für $\ s^2 $ vervierfachen und sich die Streuung s verdoppelt. Die 1.000€  (a = 1.000) die jeder extra bekommt hat keinen Einfluss auf die Streuung, weil es ein Maß für die Ungleichheit ist und diesen Wert ja jede Person gleichermaßen bekommt. Nur die Verdopplung (b = 2) des Gehalts $x_i$ führt zu einer Veränderung (Vervierfachung $b^2 = 2^2 = 4$) der mittleren quadratischen Abweichung bzw. einer Verdopplung der Streuung $\ s $ (denn |b| = |2| = 2). Der Unterschied zwischen kleinem und hohem Gehalt wird durch die Verdopplung als noch größer.

Merke

Für den Vergleich zwischen jenen Streuungsmaßen, die dieselbe Streuung besitzen, gilt $\ \overline s \leq s \leq SP $, d.h. die durchschnittliche Abweichung $\ \overline s $ ist kleiner oder gleich der Standardabweichung $\ s $ und diese ist kleiner oder gleich der Spannweite SP.

Dies gilt auch für unser Beispiel 42 bspw. für Gruppe 2:

$\ 600 \leq 707,11 \leq 2.000 $, also $\ \overline s_2 \leq s_2 \leq SP_2 $.