Kursangebot | Deskriptive Statistik | Unterschiedliche Streuungsmaße

Deskriptive Statistik

Unterschiedliche Streuungsmaße

Wenn man lediglich einen Lageparameter einer Verteilung angibt, so ist hiermit noch keine Aussage darüber gemacht, ob die anderen Werte „nahe dran” oder „weit weg” liegen. Dafür gibt es in der deskripitiven Statistik unterschiedliche Streuungsmaße.

Beispiel zu den Streuungsmaßen

Als Beispiel 42 werden die Einkommensverteilung in unterschiedlichen Gruppen A, B, und C betrachtet

Die Einkommensverteilung der Gruppe A ist:

Gruppe 1 2 3 4 5
Einommen 5000 5000 5000 5000 5000

Die Einkommensverteilung der Gruppe B lautet:

Gruppe 1 2 3 4 5
Einkommen 3000 4000 5000 6000 7000

und für die Gruppe C sind die Einkommen:

Gruppe 1 2 3 4 5
Einkommen 1000 2000 5000 8000 9000

Wie stark streuen die Einkommen in den einzelnen Gruppen?

Das Durchschnittseinkommen, hier als arithmetisches Mittel berechnet (wobei der Median das gleiche Ergebnis liefern würde), liegt in allen Gruppen bei 5.000 €. Man erkennt aber direkt, dass die Verteilung in Gruppe B ungleichmäßiger als in Gruppe A ist, denn dort ist das Einkommen gleichverteilt. Die sogenannte Streuung ist in B höher als in A. In Gruppe C sogar streut das Einkommen noch stärker als in B, die „Schere“ zwischen den kleinsten und den größten Einkommen ist noch größer.

Das Streuungsmaß in der Statistik

Der Begriff der Ungleichheit lässt sich quantifizieren durch den Streuungsparameter (= Streuungsmaß), oder auch Dispersionsmaß genannt.
Man kennt unterschiedliche Streuungen für kardinalskalierte Beobachtungswerte $\ x_1, x_2, ..., x_n $:

Spannweite

Die Spannweite SP (= Range) wird durch die Formel $\ SP = x_{max} – x_{min} $ berechnet. Sie gibt also die Differenz zwischen dem größten und dem kleinsten Beobachtungswert an. Diese ist sehr ausreißerempfindlich, da sie unmittelbar abhängt von den Werten am Rand der geordneten Urliste.

Es ist $\ SP_B = x_{max} – x_{min} = 7.000 – 3.000 = 4.000 € $ für die Spannweite aus dem Beispiel zur Einkommensverteilung der Gruppe B.

Durchschnittliche absolute Abweichung

Die durchschnittliche absolute Abweichung $\ \overline s $ von einem Lageparameter $\ \lambda $ ist definiert als

$$\ \overline s = {1 \over n} \sum^n | x_i- \lambda | = \sum_{j=1}^k | a_j- \lambda | \cdot f(a_j) $$

Die durchschnittliche absolute Abweichung, ist also das arithmetische Mittel der Abstände aller Beobachtungswerte von $\ \lambda $ , speziell für $\ \lambda = x_{med} $ ist die durchschnittliche Medianabweichung. Bekannt ist außerdem, dass die Summe $\ \sum_{i=1}^n | x_i- \lambda | $ minimal wird, wenn man für $\ \lambda $ den Median $\ x_{med} $ einsetzt (Die sogenannte Optimalitätseigenschaft des Median).
Es ist $$\ \overline s = {1 \over n} \sum | x_i- \lambda | = {1 \over 5} \cdot (|3.000-5.000|) + (...) + (|7.000-5.000|) = 1200€ $$ für die durchschnittliche Abweichung vom arithmetischen Mittel $\ \overline x = 5.000 € $.

mittlere quadratische Abweichung

Die mittlere quadratische Abweichung $\ s^2 $ ist
$$\ s^2= {1 \over n} \sum_{i=1}^n (x_i- \overline x)^2 $$ bzw $$\ s^2= \sum_{j=1}^k (a_j- \overline x)^2 \cdot f(a_j) $$

bzw. $\ s^2={1 \over n} ( \sum_{i=1}^n x_i^2)- ( \overline x) ^2 $ (Steinerscher Verschiebungssatz), also das arithmetische Mittel der quadrierten Abstände aller Beobachtungswerte $\ x_i $ von $\ \overline x $. Man bildet die Differenzen der einzelnen $\ x_i $ speziell vom arithmetischen Mittel $\ \overline x $, da man weiß, dass die Summe $\ \sum_{i=1}^n (x_i- \lambda)^2 $ minimal wird, wenn man für $\ \lambda $ das arithmetische Mittel $\ \overline x $ einsetzt (sogenannte Optimalitätseigenschaft des arithmetischen Mittels).
Die zweite Formel für $\ s^2 $ , nämlich $\ \sum_{j=1}^n (a_j- \overline x)^2 \cdot h(a_j) $ gilt, wenn man die Häufigkeitsverteilung zugrunde legt

Merke

Merke: Viele Autoren bevorzugen $\ s^2= {1 \over (n-1)} \sum_{i=1}^n (x_i- \overline x)^2 $ als mittlere quadratische Abweichung, d.h. mit dem Vorfaktor $\ {1 \over (n-1)} $ statt $\ {1 \over n} $. Dies hat Gründe, die wir erst in der Stichprobentheorie verstehen werden. In der deskriptiven Statistik rechnen wir deshalb ausschließlich mit dem Vorfaktor $\ {1 \over n} $ und also mit der oben erwähnten Definition der mittleren quadratischen Abweichung.

Für die mittlere quadratische Abweichung rechnet man
$$\ s_B^2={1 \over 5} \cdot [(3.000-5.000)^2+...+(7.000-5.000)^2] = 2.000.000 €^2 $$
Mit dem Verschiebungssatz kommt man auf das gleiche Ergebnis:
$$\ s_B^2= {1 \over 5} \cdot [(3.000)^2+(4.000)^2+...+(7.000)^2]-(5.000)^2=27.000.000-25.000.000 = 2.000.000 €^2 $$

Standardabweichung

Die Standardabweichung s berechnet man als Wurzel aus der mittleren quadratischen Abweichung, also
$$\ s= \sqrt {s^2} $$
Sie hat (im Gegensatz zur mittleren quadratischen Abweichung) die gleiche Dimension wie die Beobachtungswerte.
Die Standardabweichung ist also $\ s_B= \sqrt {2.000.000} = 1.414,21€ $.

Quartilsabstand

Unter dem sogenannten Quartilsabstand QA versteht man die Distanz zwischen dem unteren Quartil $\ x_{0,25} $ und dem oberen Quartil $\ x_{0,75} $:
$$\ QA = x_{0,75} – x_{0,25} $$
Für das oben erwähnte Beispiel der Einkommensverteilung in Gruppe B ist der Quartilsabstand
$\ QA = x_{0,75} - x_{0,25} = 6.000 – 4.000 = 2.000 $ €.

Merke

Merke: Dieses Streuungsmaß ist benutzbar ab ordinalskalierten Merkmalen. Trotzdem sollte er erst ab metrisch skalierten Daten benutzt werden, da zwar die Berechnung der Quartile selbst möglich ist, die Berechnung einer Differenz aber erst ab metrischen Skalen sinnvoll.

Variationskoeffizient

Den Variationskoeffizienten v ermittelt man durch
$$\ v = {s \over \overline x} $$
also als Quotienten aus Standardabweichung s und arithmetischem Mittel $\ \overline x $. Es ist sinnvoll, nur positive - $\ \overline x $ Werte bei der Definition zuzulassen.
Der Variationskoeffizient ist ein relatives Streuungsmaß insofern, als der Anteil der Streuung am arithmetischen Mittel gemessen wird.

Der Variationskoeffizient im erwähnten Beispiel ist $\ v_B = {1.414,214 \over 5.000} = 0,2828 = 28,28 $%.
Der Variationskoeffizient $\ v $ schließlich von $\ v = 0,2828 $ besagt, dass die Streuung $\ s $ als Maß der Abweichung 28,28 % vom Mittelwert ausmacht. Es ist oftmals sinnvoll, ihn als Prozentwert anzugeben.

Interpretation der Streuungsmaße

  • Die Spannweite SP zeigt, dass innerhalb einer Spanne von 4.000 € jeder Wert liegt, d.h. dass zwischen dem kleinsten und dem größten Wert eine Spanne von 4.000 € ist. Dieses Streuungsmaß ist jedoch recht groß, denn man weiß nun lediglich, dass alle Werte in dieser Spanne liegen. Wo aber liegen die meisten? Diese Frage wird einigermaßen zufriedenstellend durch die Standardabweichung $\ s $ beantwortet.
  • Die Abweichungen als Maß dafür, wie schlecht die Schätzung des Mittelwertes ist, werden bei der mittleren quadratischen Abweichung $\ s^2 $ stark gewichtet, nämlich quadriert. Von Nachteil ist allerdings, dass die Dimension (hier $\ €^2 $) nicht mit der Dimension der Beobachtungswerte übereinstimmt. Dieser Nachteil wird geheilt durch die Standardabweichung $\ s $.
  • Die durchschnittliche Abweichung vom arithmetischen Mittel, also $\ \overline s $, zeigt, dass im Mittel die Werte betragsmäßig um 1.200 € vom Mittelwert von 5.000 € abweichen.

Zum Vergleich der Verteilungen seien die Streuungsmaße für alle Gruppen aufgelistet.

Streuungsmaß $$\ SP $$
$$\ \overline s $$ $$\ s^2 $$ $$\ s $$ $$\ v $$ $$\ QA $$
A 0 0 0 0 0 0
B 4.000 1.200 2.000.000 1.414,21 0,2828 2.000
C 8.000 2.800 10.000.000 3.162,28 0,6325 4.000

Man erkennt deutlich, dass die Werte in C stärker streuen als in B, die Verteilung ist damit ungleichmäßiger. Verteilung A streut gar nicht, weil die Werte alle gleich sind. Die Abweichungen vom Mittelwert sind also alle gleich null.

Merke

Merke: Es gilt für Lineartransformationen aus den Werten $\ x_i $, also für $\ y_i = a + bx $, die Beziehung $$\ {s_y}^2= {1 \over n} \sum_{i=1}^n (y_i- \overline y)^2 = {1 \over n} \sum_{i=1}^n (a+bx_i-(a+b \overline x))^2 = {1 \over n} \sum_{i=1}^n ((x_i- \overline x) \cdot b)^2 $$ $$/ {{b^2 \cdot 1} \over n} \sum_{i=1}^n (x_i- \overline x)^2 $$ d.h. $$\ {s_y}^2={b^2} \cdot {s_x}^2 $$ für die mittlere quadratische Abweichung bzw. $$\ s_y = | b | \cdot s_x $$ für die Standardabweichung.

Zur letzten Bemerkung weitere Beispiele:

Beispiel

Beispiel 43:
Jeder Teilnehmer aus den Gruppen A,B,C aus dem obigen Beispiel 42 möge nun das doppelte Gehalt beziehen und noch einen Zuschlag von 1.000 € zusätzlich erhalten.

Inwiefern handelt es sich um eine Lineartransformation? Gib die Parameter c und d an.
Es ist c = 1.000 € und d = 2, d.h. statt $\ x_i $ (also die alten Gehälter) rechnet man nun mit $\ y_i = 1.000 + 2x_i $, also den neuen. Die neuen Einkommen sind dann

  1 2 3 4 5
A 11000 11000 11000 11000 11000
B 7000 9000 11000 13000 15000
C 3000 5000 11000 17000 19000

Die mittleren quadratischen Abweichungen $\ s^2 $ und die Standardabweichungen $\ s $ sind in den einzelnen Gruppen

  $$\ s^2 $$ $$\ s $$
A 0 0
B 8.000.000 2828,43
C 40.000.000 6324,56

Die Werte für $\ s^2 $ werden also vervierfacht (da das Gehalt zunächst verdoppelt wurde), die Streuung verdoppelt. Dass also jeder noch 1.000 € zusätzlich erhält (a = 1.000), verändert sich die Streuung nicht, da diese ein Maß für die Ungleichheit ist, denn da aber jeder diese 1.000 € mehr erhält, geht diese klarerweise nicht in die Streuung ein. Lediglich die Verdopplung (b = 2) findet Eingang und führt zu einer Vervierfachung (b2 = 22 = 4) der mittleren quadratischen Abweichung bzw. zu einer Verdopplung der Streuung $\ s $ (denn |b| = |2| = 2). Die „Schere“, also die Ungleichverteilung, zwischen Gering- und Vielverdienern wird durch die Verdopplung aller Gehälter noch größer.

Merke

Merke: Für den Vergleich zwischen jenen Streuungsmaßen, die dieselbe Streuung besitzen, gilt $\ \overline s \leq s \leq SP $, d.h. die durchschnittliche Abweichung $\ \overline s $ ist kleiner oder gleich der Standardabweichung $\ s $ und diese ist kleiner oder gleich der Spannweite SP.

Im vorliegenden Beispiel 43 sieht man dies z.B. für Gruppe B, dass $\ 1.200 \leq 1.414,21 \leq 4.000 $, also $\ \overline s_B \leq s_B \leq SP_B $.