ZU DEN KURSEN!

Deskriptive Statistik - Zusammenhangsmaße auf der Nominalskala

Kursangebot | Deskriptive Statistik | Zusammenhangsmaße auf der Nominalskala

Deskriptive Statistik

Zusammenhangsmaße auf der Nominalskala

Nun könnte man sich sicherlich fragen, wie stark der Zusammenhang aus unserem Beispiel 49 (der Ernährungsweise und dem Studiengang) denn genau ist, also für die Stärke der Zugehörigkeit eine Zahl zu finden. Sowohl die Werte Ernährungsweise als auch dem Studiengang sind nominalskaliert, weil nur Unterschiede aber keine Reihenfolge erkennbar oder Wertung möglich ist. Bedeutet, dass der Rangkorrelationskoeffizient (ab ordinalskalierten Daten) und der Bravais-Pearsonsche Korrelationskoeffizient (ab metrischen Skalen) nicht nutzbar sind.

-

Wir rechnen im Folgenden mit den absoluten Häufigkeiten $\ H_{ij} $, nicht mit den relativen $\ h_{ij} $!

Im erste Schritt bestimmt man die erwarteten Häufigkeiten $\ H_{ij}^e $ (oder anders formuliert$\ H^e(xi, yj)$), welche sich bei Unabhängigkeit ergeben. Dafür multipliziert man die Randhäufigkeiten der entsprechenden Spalte bzw. Zeile und teilt sie durch die Anzahl der Stichproben n.

$ {{H_{i} \cdot H_{j}} \over n}$

Für das Beispiel ergeben sich folgende Werte:

 SALAMWMB
flexibel7,0516,459,8713,6347
vegetarisch4,9511,556,939,5733
vegan374,25,820
15352129100


Wenn das Studienfach und die Ernährungsweise unabhängig voneinander wären, dann ergäbe sich z.B. $\ H_{33}^e=4,2 $  für vegane Studierende der Medienwissenschaften oder $\ H_{12}^e = 16,45 $ für sich flexibel ernährende Lehramtsstudierende oder $\ H_{24}^e=9,57 $ vegetarische Maschinenbaustudierende, usw. Die beobachteten absoluten Häufigkeiten $\ H_{ij}^0 = H_ij $ und die erwarteten Häufigkeiten $\ H_{ij}^e $ werden dann zu einer Kennzahl $\ \chi^2 $ (Chi-Quadrat) zusammengefasst.

Chi-Quadrat berechnen

$\begin{align} \chi^2 & = \sum_{i=1}^k \sum_{j=1}^l {(H^0 (x_i,y_j)- H^e (x_i,y_j))^2 \over H^e (x_i,y_j)}
\\ & = \sum_{i=1}^k \sum_{j=1}^l {(H_{ij}^0-H_{ij}^e)^2 \over H_{ij}^e } \end{align}$

$ x_i $ steht für den Eintrag der i. Zeile, $ y_j $ entsprechend für jenen der j. Spalte. So ist $ H^o(x_1,y_2) = 19, H^o(x_3,y_4) = 3 $ (s. Zahlen dieses Beispiels aus vorherigen Kapiteln), $ H^e(x_1,y_3) = 9,87$ usw.
Das $ H^o $ steht für beobachtete Häufigkeit (o = observed),$\ H^e $ steht für die erwartete Häufigkeit (e = expected). Die Doppelsumme heißt lediglich, dass über alle Felder aufsummiert wird, nämlich über alle Zeilen (erstes Summenzeichen) und alle Spalten (zweites Summenzeichen). Am einfachsten ist es, wenn man erst alle Größen zusammen in einer Tabelle zusammenfasst, dabei die beobachtete (linke Spalte) und erwartete Häufigkeiten (rechte Spalte) notiert und anschließend die Größe $ \chi^2 $ bestimmt:

 SALAMWMB
flexibel67,051916,4559,871713,63
vegetarisch54,95611,55136,9399,57
vegan4310734,235,8


So ergibt sich ein Wert für $ \chi^2 $ von:

$ \begin{align} \chi^2 & ={(6 - 7,05)^2 \over 7,05 }+{(19 - 16,45 )^2 \over 16,45}+...+{(3-5,8)^2 \over 5,8}
\\ & = 0,1564 + 0,3953+ ... + 1,3517
\\ & = 15,1195\end{align}$

Logischerweise ist $ \chi^2 = 0 $, wenn beide beobachteten Merkmale unabhängig sind, da dann ja schon die Werte innerhalb jeder Zelle gleich sind.

Problem dieser Kenngröße sind zwei Aspekte:

  1. die Zahl $\chi^2 $ ist nicht normiert, gilt demnach nicht die wünschenswerte Eigenschaft $\ \chi^2 \leq 1 $
  2. die Zahl $\chi^2 $ ist abhängig vom Stichprobenumfang n. Bedeutet bei anderem n (bspw. n = 150), jedoch gleichen relativen Häufigkeiten ändert sich $ \chi^2 $, was für ein Zusammenhangsmaß wenig sinnvoll ist.

Messen des Zusammenhangs zweier nominalskalierter Merkmale

Man nimmt deshalb die Zahl $\ \chi^2 $ nicht als Maßzahl für den linearen Zusammenhang zwischen zwei nominalskalierten Merkmalen. Als Maßzahlen für den Zusammenhang zweier nominalskalierter Merkmale bieten sich vielmehr an:

  1. der Phi-Koeffizient Φ,
  2. der Kontingenzkoeffizient nach Pearson $\ C_P $
  3. der korrigierte Kontingenzkoeffizient $\ C_{korr} $
  4. der Kontingenzkoeffizient nach Cramér $\ C_C $

Die oben genannten Koeffizienten werden wir nun auf das Beispiel anwenden:

  1. Phi-Koeffizient Φ:
    $$\begin{align} \Phi & = \sqrt { \chi^2 \over n}
    \\ & = \sqrt {15,1195 \over 100}
    \\ & =0,3888 \end{align}$$

  2. Kontingenzkoeffizienten nach Pearson $\ C_P $:
    $$\begin{align} C_P & = \sqrt {\chi^2 \over \chi^2+n}
    \\ & = \sqrt { \chi^2 \over \chi^2+n}
    \\ & = \sqrt {15,1195 \over 15,1195 +100}
    \\ & = 0,3624 \end{align}$$

    Die Zahl $\ C_P $ nimmt nicht den Wert 1 an und ist damit nicht voll als Zusammenhangsmaß geeignet. Dieser Schönheitsfehler wird geheilt durch:

  3. korrigierte Kontingenzkoeffizient $\ C_{korr} $:
    $$\begin{align} C_{korr} & = C_P \sqrt {C^* \over C^*-1} = \sqrt {{\chi^2 \over \chi^2+n} \cdot {C^* \over (C^*-1}}
    \\ & = \sqrt {{15,1195 \over 15,1195+100} \cdot {3 \over 3-1}}
    \\ & =0,4439 \end{align} $$

    Hierbei ist $\ C^* $ das Minimum aus der Anzahl der Zeilen k und der Anzahl der Spalten l, also $\ C^* $ = min {k; l}. Im obigen Beispiel ist C = min {3; 4} = 3.

    Der korrigierte Kontingenzkoeffizient $\ C_{korr} $ ist normiert, liegt also zwischen 0 und 1:$\ 0 \leq C_{korr} \leq 1 $

    • Wenn $\ C_{korr} = 1 $ ist, dann kann von einem Merkmal sicher auf die Ausprägung des anderen Merkmals geschlossen werden (jedenfalls in eine Richtung).
    • Wenn $\ C_{korr} = 0 $ ist, dann ergibt sich die relative Häufigkeit der gemeinsamen Verteilung als Produkt der relativen Randhäufigkeiten.

  4. Kontingenzkoeffizient nach Cramér $\ C_C $:
    $$\begin{align}  C_C & = \sqrt {\chi^2 \over {n \cdot [min(m,l)-1]}}
    \\ & = \sqrt {15,1195 \over {100 \cdot [min(4;3)-1]}}
    \\ & = \sqrt {15,1195 \over 200}
    \\ & =0,2750\end{align}$$
    Auch hier gilt $\ 0 \leq C_C \leq 1 $, der Cramérsche Koeffizient ist also normiert.