ZU DEN KURSEN!

Deskriptive Statistik - Klassierung und ihre Darstellung

Kursangebot | Deskriptive Statistik | Klassierung und ihre Darstellung

Deskriptive Statistik

Klassierung und ihre Darstellung

Für die Darstellung klassierter Daten betrachten wir nochmal folgendes Beispiel:

Beispiel

Hier klicken zum Ausklappen Beispiel 26:
Dr. M. Median ist über die Klausurergebnisse nicht sehr erfreut. Um so mehr wurmt es ihn, dass bei seiner Kollegin Dipl.-Stat. Verena Varianza in ihrem Seminar „Darf man nur der Statistik trauen, die man selber bezahlt hat” von den 25 Studenten etwa die Hälfte mit gut oder sehr gut abgeschnitten haben und nur 10% durchgefallen sind.

Er stellt uns deshalb die Punkteverteilung zur Verfügung:

i1234567891011121314151617181920
Punkte $\ x_i $3378630989560566649075061524819804987
Note53451145342544455252

und beauftragt uns, diese darzustellen, in der Hoffnung, durch eine andere Einteilung eine bessere „Verteilung” zu erreichen. Stellen wir zunächst die Punkteverteilung mit einem Stabdiagramm dar. Wir sehen nun lediglich, dass keine Punktzahl mehr als einmal erreicht wurde und u.U. Bereiche innerhalb der Daten gehäuft vorkommen. In unserem Beispiel ist dies bei 50 und 60 Punkten der Fall. Diese Häufung muss jedoch nicht bei jeder Verteilung eintreten, es hätte auch eine gleichmäßigere Punkteverteilung der Fall sein können. I.d.R. werden wir aber durch die Darstellung des Stabdiagramms (oder der Häufigkeitstabelle) keinen nennenswerten Informationsgewinn erhalten:

Stabdiagramm der Punkteverteilung
Stabdiagramm der Punkteverteilung

Zur besseren Visualisierung sollten wir die Daten klassieren (= gruppieren). Zunächst muss man hierzu die Merkmalswerte in Klassen einteilen, diese Einteilung ist jedoch oft recht willkürlich. Hierzu teilen wir das Punktespektrum bspw. in fünf gleich breite (= äquidistante) Klassen à 20 Punkte ein und ermitteln die jeweilige Klassenbesetzung bzw. Klassenhäufigkeit, wobei wir für die absolute Klassenhäufigkeit die Notation $\ h_k $ und für die relative $\ f_k $ verwenden (k steht für die Klasse):

Klasse $\ h_k $ absolute Klassenhäufigkeit $\ f_k $ relative Klassenhäufigkeit
[0;20)44/20 = 0,20
[20;40)11/20 = 0,05
[40;60)44/20 = 0,20
[60;80)66/20 = 0,30
[80;100)55/20 = 0,25
$\ \sum $201

Bei der Klassierung müssen wir die Einteilung der Klassengrenzen beachten. Üblicherweise wählt man die untere Klassengrenze geschlossen und die obere Klassengrenze offen. Dass heißt, die Schreibweise [0;20) bedeutet in der obigen Tabelle, dass die Zahl 0 eingeschlossen ist, die Zahl 20 hingegen nicht. Wir sehen nun, dass z.B. in der ersten Klasse vier Studenten liegen, d.h. zwischen null und zwanzig Punkten geschrieben haben oder sechs Seminarteilnehmer zwischen 60 und 80 Punkte.

Merke

Hier klicken zum Ausklappen Merke: Es ist auch möglich, die untere Klassengrenze offen und die obere geschlossen zu wählen. Bei stetigen Variablen (z.B. Einkommen) ändert sich hierdurch in den weiteren Berechnungen nichts. Vorsicht ist jedoch, wie im vorliegenden Fall, bei diskreten Variablen geboten. Wenn wir hier nicht aufpassen, welche Klassengrenze offen oder geschlossen ist, verändern sich möglicherweise unsere Ergebnisse. In unserem Beispiel würden jene Personen mit exakt 60 bzw. exakt 80 Punkten in die nächsthöhere Klasse „rutschen” und damit würde sich auch die Klassenbesetzung ändern.

Alternative Schreibweisen für offene und geschlossene Klassengrenzen / Intervalle sind:

  • unten geschlossene und oben offene Klassengrenze / Intervall [...;...) = [...;...[ = (von ... bis unter ...)
  • unten offene und oben geschlossene Klassengrenze / Intervall (...;...] = ]...;...] = (von über ... bis ...)

Weiterhin ist für eine sinnvolle Klassierung wichtig, welche Randwerte man wählt, d.h. wie weit man nach oben (mit der obersten Klasse) und wie weit man nach unten (mit der untersten Klasse) geht.