Inhaltsverzeichnis
Man Unterscheidet zwischen 3 Methoden:
- Single-Linkage
- Complete-Linkage
- Average-Linkage
Wir verwenden hier wieder unseren alten Datensatz, den wir hier schon zu Anfang des Kurses verwendet haben. Versuchen doch einmal, den Datensatz „demo.sav“ für die Clusteranalyse zu verwenden! Die Rechenleistung und die Zeit, die dafür notwendig sind, sind enorm und würden Ihnen keinen zusätzlichen Lerneffekt bieten. Zur Erinnerung hier nochmal der Datensatz:
Single Linkage
Bei der Single-Linkage Methode wird der Abstand zwischen zwei Klassen als der minimale Abstand definiert. Er wird nach folgender Formel berechnet:
$$D(C_k,C_j)=\min\limits_{n \in C_k,m \in D_j} d_{nm}$$
Drei Variablen wurden willkürlich ausgewählt, nach denen geclustert werden soll.
Unter „Statistiken“ können verschiedene Analyse-Optionen gewählt werden, worauf wir im Video eingehen werden.
Unter „Diagramme“ kann gewählt werden, ob ein Dendrogramm ausgegeben werden soll. Wir haben diese Funktion bei unserer Berechnung aktiviert. Nähere Erklärungen finden Sie ebenfalls im Video.
Unter „Methode“ erscheint folgendes Fenster:
Unter „Clustermethode“ wählen wir „nächstgelegener Nachbar“ aus, was der deutsche Begriff zu Single-Linkage ist.
Folgenden Output liefert SPSS:
(Ähnlichkeitsmatrix)
Zuordnungsübersicht | ||||||
Stufe | Zusammengeführte Cluster | Koeffizienten | Erstes Vorkommen des Clusters | Nächster Schritt | ||
Cluster 1 | Cluster 2 | Cluster 1 | Cluster 2 | |||
1 | 6 | 8 | 1,000 | 0 | 0 | 11 |
2 | 20 | 21 | 2,000 | 0 | 0 | 6 |
3 | 11 | 13 | 2,000 | 0 | 0 | 11 |
4 | 5 | 25 | 4,000 | 0 | 0 | 5 |
5 | 5 | 9 | 5,000 | 4 | 0 | 12 |
6 | 15 | 20 | 6,000 | 0 | 2 | 7 |
7 | 1 | 15 | 6,000 | 0 | 6 | 10 |
8 | 3 | 24 | 8,000 | 0 | 0 | 12 |
9 | 14 | 16 | 8,000 | 0 | 0 | 15 |
10 | 1 | 19 | 9,000 | 7 | 0 | 13 |
11 | 6 | 11 | 9,000 | 1 | 3 | 16 |
12 | 3 | 5 | 9,000 | 8 | 5 | 17 |
13 | 1 | 22 | 10,000 | 10 | 0 | 14 |
14 | 1 | 17 | 10,000 | 13 | 0 | 15 |
15 | 1 | 14 | 12,000 | 14 | 9 | 17 |
16 | 6 | 10 | 17,000 | 11 | 0 | 18 |
17 | 1 | 3 | 26,000 | 15 | 12 | 18 |
18 | 1 | 6 | 49,000 | 17 | 16 | 19 |
19 | 1 | 23 | 50,000 | 18 | 0 | 20 |
20 | 1 | 12 | 66,000 | 19 | 0 | 21 |
21 | 1 | 18 | 178,000 | 20 | 0 | 22 |
22 | 1 | 4 | 484,000 | 21 | 0 | 0 |
Genauere Erklärungen und Zusatzinformationen finden Sie in unserem Lernvideo am Ende dieses Kapitels.
Complete-Linkage
Nachdem wir für den kürzesten Abstand bereits ausführlich auf die Outputs eingegangen sind, werden wir hier auf die Unterschiede zum Single-Linkage Verfahren eingehen.
$$D(C_k,C_j)=\max\limits_{n \in C_k,m \in D_j} d_{nm}$$
Dem aufmerksamen Leser wird hier auffallen, dass der einzige Unterschied darin besteht, dass es sich hier um eine Maximierungsfunktion handelt. Hier werden also immer die größten Abstände für die Partitionierung ausgewählt.
Average-Linkage
Die Average-Linkage Methode wählt keinen extremen Weg, da weder die Minima, noch die Maxima entscheidungsrelevant sind. Vielmehr wird bei dieser Methode der Mittelwert der Abstände gebildet und ermöglicht so eine Partitionierung, die wesentlich fehlerresistenter ist. Sie berechnet sich nach der Formel:
$$D(C_k,C_j)=\frac{1}{n_kn_j}\sum d_{nm}$$
Weitere interessante Inhalte zum Thema
-
Binomialverteilung
Vielleicht ist für Sie auch das Thema Binomialverteilung (Eindimensionale Verteilungen (mit Namen)) aus unserem Online-Kurs Wahrscheinlichkeitsrechnung interessant.
-
Methoden der Kuppelkalkulation
Vielleicht ist für Sie auch das Thema Methoden der Kuppelkalkulation (Verrechnung der Kosten) aus unserem Online-Kurs Kosten- und Leistungsrechnung interessant.