ZU DEN KURSEN!

Deskriptive Statistik - Klassierung und ihre Darstellung

Kursangebot | Deskriptive Statistik | Klassierung und ihre Darstellung

Deskriptive Statistik

Klassierung und ihre Darstellung

Für die Darstellung klassierter Daten betrachten wir nochmal folgendes Beispiel:

Beispiel

Hier klicken zum Ausklappen

Beispiel 26:

Der Ressortleiter Sport des Magazins ist Fan dieser Fußballmannschaft und bekommt vor Veröffentlichung mit, wie die Bewertung der Spieler aussieht und ist darüber gar nicht glücklich, da er als Fan die Mannschaft deutlich besser gesehen hat.

Da die Benotung an der Laufleistung der Spieler festgemacht wird, stellt er uns die Laufleistungsdaten zur Verfügung und beauftragt uns, diese darzustellen, in der Hoffnung, durch eine andere Einteilung eine bessere „Verteilung” zu erreichen:

i123456789101112131415
Laufleistung
in km $\ x_i $
9,764,0810,129,563,9510,6010,531,927,196,0610,056,950,779,997,50
Note241251163313623

Stellen wir zunächst die Laufleistung in einem Stabdiagramm dar. So erkennen wir nur, dass kein Wert mehr als einmal vorkommt und u.U. Bereiche innerhalb der Daten gehäuft vorkommen. In unserem Beispiel ist dies bei ca. 7km und 10 km der Fall. Diese Häufung muss jedoch nicht bei jeder Verteilung eintreten, es hätte auch eine gleichmäßigere Verteilung der Laufleistung der Fall sein können. I.d.R. werden wir aber durch die Darstellung des Stabdiagramms (oder der Häufigkeitstabelle) keinen nennenswerten Informationsgewinn erhalten:

Stabdiagramm der Laufleistung
Abb.9: Stabdiagramm der Laufleistung

Um die Daten etwas besser visualisieren zu können, sollten die Daten klassiert bzw. gruppiert werden. Dafür müssen die Merkmalswerte  in Klassen aufgeteilt werden, diese Einteilung kann allerdings ziemlich willkürlich getroffen werden. Bspw. lässt sich das Spektrum der Werte in sechs gleich große (äquidistante) Klassen à 2km einteilen. Anschließend ermitteln wir die entsprechenden Klassenbesetzung bzw. Klassenhäufigkeit, wobei wir für die absolute $\ h_k $ und für die relative Klassenhäufigkeit $\ f_k $ schreiben (k = Klasse):

Klasse $\ h_k $ absolute Klassenhäufigkeit $\ f_k $ relative Klassenhäufigkeit
[0;2)2$ 2\over{15}$ ≈ 0,133
[2;4)1$ 1\over{15}$ ≈ 0,067
[4;6)1$ 1\over{15}$ ≈ 0,067
[6;8)4$ 4\over{15}$ ≈ 0,267
[8;10)3$ 3\over{15}$ ≈ 0,200
[10;12)4$ 4\over{15}$ ≈ 0,267
$\ \sum $151

Bei der Klassierung müssen wir die Einteilung der Klassengrenzen beachten. Üblicherweise wählt man die untere Klassengrenze geschlossen und die obere Klassengrenze offen. Notiert, wie in der obigen Tabelle, wird das Ganze dann [0;2) und bedeutet, dass die 0 inkludiert ist, die 2 jedoch nicht. Man kann nun erkennen, dass z.B. in der ersten Klasse zwei Spieler liegen, demnach zwischen null und zwei Kilometer gelaufen oder vier Spieler zwischen 6 und 8 Kilometer.

Merke

Hier klicken zum Ausklappen

Es ist auch möglich, die untere Klassengrenze offen und die obere geschlossen zu wählen. Bei stetigen Variablen (z.B. Einkommen) ändert sich hierdurch in den weiteren Berechnungen nichts. Aufpassen muss man allerdings, wie im vorliegenden Fall, bei diskreten Variablen. Wenn wir nicht darauf achten, welche Klassengrenze offen oder geschlossen ist, verändern sich eventuell unsere Ergebnisse. In unserem Beispiel würden jener Spieler mit genau 6 bzw. genau 8 Kilometern Laufleistung dann in die nächsthöhere Klasse „rutschen” und damit würde sich auch die Klassenbesetzung ändern.

Alternative Schreibweisen für offene und geschlossene Klassengrenzen / Intervalle sind:

  • unten geschlossene und oben offene Klassengrenze / Intervall [...;...) = [...;...[ = (von ... bis unter ...)
  • unten offene und oben geschlossene Klassengrenze / Intervall (...;...] = ]...;...] = (von über ... bis ...)

Weiterhin ist für eine sinnvolle Klassierung wichtig, welche Randwerte man wählt, d.h. wie weit man nach oben (mit der obersten Klasse) und wie weit man nach unten (mit der untersten Klasse) geht.