Ressourcen für empirische Methoden

Clusteranalyse


entscheidbaum


1. Einführung
2. Vorgehensweise
3. SPSS-Befehle
4. Literatur

1. Einführung

Die Clusteranalyse ist ein multivariates Analyseverfahren und hat das Ziel, eine Menge von Objekten in Gruppen (so genannte Cluster) zu unterteilen. Bei der Clusterbildung werden mehrere Merkmale (Dimensionen) gleichzeitig berücksichtigt. Diese können jedes beliebiges Skalenniveau aufweisen. Objekte, die einem bestimmten Cluster zugeordnet wurden, sollten einander möglichst ähnlich sein (homogen) und sich möglichst stark von Objekten unterscheiden, die anderen Clusters zugeteilt wurden.

2. Vorgehensweise

Mit folgender Fragestellung wird im vorliegenden Kapitel die Vorhergehensweise der Clusteranalyse näher erläutert:

Können Studierende anhand ihrer Erfahrung mit Computern, die mit verschiedenen Variablen erfasst wird, in Gruppen eingeteilt werden, damit von Seite der Universität Informatikkurse angeboten werden können, die möglichst auf die Bedürfnissen der einzelnen Studierenden zugeschnitten sind?

Der Ablauf einer Clusteranalyse wird in der Literatur üblicherweise in drei Schritten zusammengefasst, die im Folgenden beschrieben werden.

Die Clusteranalyse wird im vorliegenden Beispiel mit einem Datensatz durchgeführt, der die hypothetischen Daten von 15 Studierenden enthält. Es werden die intervallskalierten Variablen „Nutzungsdauer“, „Selbsteinschätzung“, „Besuch von Informatikkursen“ und „Alter“ berücksichtigt. In Abbildung 1 ist die Bildung von drei Cluster anhand der Beispieldaten dargestellt:

Abbildung 1: Beispiel mit Bildung von drei Cluster

Abbildung 1: Beispiel mit Bildung von drei Cluster

An dieser Stelle ist noch nicht bekannt, auf wie viele Cluster die Studierende anhand der untersuchten Variablen unterteilt werden sollten (es könnten auch nur zwei oder mehr als drei Cluster sein).

In Abbildung 2 sind die Werte von zwei hypothetischen Variablen als Punktwolke dargestellt:

Abbildung 2: Punktwolke

Abbildung 2: Punktwolke

Bei zwei Variablen ist die bildliche Darstellung des Bezugssystems möglich. Ab drei Variablen können die Ausprägungen nicht mehr im zweidimensionalen Raum dargestellt werden. In Abbildung 3 sind drei Cluster dargestellt, die durch einen bestimmten Clusteralgorithmus gebildet wurden:

Abbildung 3: Punktwolke mit Clusterbildung

Abbildung 3: Punktwolke mit Clusterbildung

Das Kriterium der Clusterbildung in Abbildung 3 ist die Nähe der Punkte zueinander (Untersuchungseinheiten, die nahe bei einander liegen, werden demselben Cluster zugeordnet).

2.1 Bestimmung der Ähnlichkeiten

Bei der Durchführung einer Clusteranalyse werden im ersten Schritt die Proximitätsmasse berechnet, indem Paarvergleiche durchgeführt werden, um jeweils für zwei Untersuchungseinheiten (in diesem Fall Studierende) bestimmen zu können, wie weit sie auseinander liegen. Es werden zwei Typen von Proximitätsmassen unterschieden: Ähnlichkeitsmasse und Distanzmasse. Ähnlichkeitsmasse beschreiben Ähnlichkeiten zwischen zwei Objekten durch (inhaltliches) Vergleichen. Distanzmasse beschreiben Ähnlichkeiten zwischen zwei Objekten durch Messen der (geometrischen) Distanz.
In Tabelle 1 ist eine Übersicht der wichtigsten Proximitätsmassen angezeigt, die berechnet werden können:

Tabelle 1: Ausgewählte Proximitätsmassen. Anmerkung: D = Distanzmass; Ä = Ähnlichkeitsmass.

Tabelle 1: Ausgewählte Proximitätsmassen. Anmerkung: D = Distanzmass; Ä = Ähnlichkeitsmass.

Nominal- und/oder ordinalskalierte Merkmale werden in binäre Variable (mit den dichotomen Ausprägungen 0 oder 1) umkodiert, bevor sie in die Clusteranalyse einfliessen. Bei einem Wert von 1 ist üblicherweise eine bestimmte Eigenschaft vorhanden, bei einem Wert von 0 ist die Eigenschaft nicht vorhanden. Falls durch de Dichotomisierung die Anzahl der Kategorien reduziert wird, kann es zu einem Informationsverlust kommen, der mit Verzerrungen verbunden ist. Bei intervallskalierte Variablen werden anstatt den Proximitätsmassen meistens die Distanzmassen verwendet. SPSS berechnet dabei eine so genannte Distanzmatrix, in der sämtliche Untersuchungseinheiten miteinander verglichen werden. In Abbildung 4 ist die Distanzmatrix der Beispieldaten angezeigt:

Abbildung 4: Distanzmatrix der Beispieldaten

Abbildung 4: Distanzmatrix der Beispieldaten

Die Distanzmatrix ist symmetrisch: Jeder Distanzwert ist zweimal angezeigt. Je niedriger die Werte in Abbildung 4, desto ähnlicher sind sich die Untersuchungseinheiten.

2.2 Auswahl des Fusionierungsalgorithmus

Es gibt mehrere Möglichkeiten, die Cluster zu bilden. In Abbildung 5 sind ausgesuchte Methoden angezeigt, die mit SPSS durchgeführt werden können:

Abbildung 5: Cluster-Algorithmen

Abbildung 5: Cluster-Algorithmen

Im vorliegenden Kapitel wird ausschliesslich auf die hierarchischen Clusteranalysen eingegangen, die am häufigsten eingesetzt werden und in divisiven und agglomerativen Methoden unterteilt werden.

Bei den divisiven Verfahren wird zunächst ein grosser Cluster aus allen Objekten gebildet, welcher anschliessend schrittweise in kleinere Cluster zerteilt wird. Die agglomerative Verfahren betrachten Untersuchungseinheiten zunächst einzeln und werden dann schrittweise zu Clustern zusammengefasst.

2.3 Bestimmung der Clusteranzahl

Es gibt keine allgemeingültigen Kriterien, die zur Bestimmung der optimalen Anzahl der Cluster beitragen. Oftmals spielen inhaltliche Überlegungen eine wichtige Rolle. Für die Auswahl der Clusteranzahl anhand der Daten kann bei der hierarchischen Clusteranalyse (agglomeratives Verfahren) ein so genanntes Dendrogramm herangezogen werden, das für die Beispieldaten in Abbildung 6 angezeigt ist:

Abbildung 6: Dendrogramm der Beispieldaten

Abbildung 6: Dendrogramm der Beispieldaten

Das Dendrogramm stellt den gesamten Ablauf der Clusteranalyse grafisch dar. Die einzelnen Untersuchungseinheiten sind in den Zeilen dargestellt. Die Linien zwischen den Untersuchungseinheiten repräsentieren deren Zusammenfügung in Cluster. Bei den Heterogenitätswerten (in den Spalten angezeigt) handelt es sich um transformierte Distanzen, die auf einer Skala von 0 bis 25 normiert sind. Ein niedriger Wert bedeutet eine niedrige Heterogenität innerhalb der Gruppen. Es gibt keinen allgemeingültigen Cut-off-Wert, bis zu dem die Cluster ausgewählt werden sollten. Bei grossen Heterogenitätssprüngen sollte die Fusionierung auf jeden Fall abgebrochen werden. Im Dendrogramm des vorliegenden Beispiels erfolgt beim Heterogenitätswert von 7 einen Sprung (siehe rote Linie in Abbildung 6) bis zum Heterogenitätswert von 25. Es ist empfehlenswert, sich für die Anzahl der Cluster zu entscheiden, die vor einem grossen Sprung liegen: Im vorliegenden Beispiel werden demnach drei Cluster gewählt (siehe rote Nummern in Abbildung 6).

In Tabelle 2 ist ein Überblick der Cluster der Beispieldaten angezeigt:

Tabelle 2: Clusterüberblick der Beispieldaten. Anmerkungen: „period of use“ = Nutzungsdauer in Stunden; „self-evaluation“ = Selbsteinschätzung auf 5-stufige Skala; „course attendance“ = Anzahl besuchter Informatikkurse

Tabelle 2: Clusterüberblick der Beispieldaten. Anmerkungen: „period of use“ = Nutzungsdauer in Stunden; „self-evaluation“ = Selbsteinschätzung auf 5-stufige Skala; „course attendance“ = Anzahl besuchter Informatikkurse

Studierende, die im vorliegenden Beispiel dem Cluster 1 zugeordnet werden, nutzen durchschnittlich öfter den Computer, schätzen die eigenen Informatikkenntnisse besser ein, haben mehr Informatikkurse besucht und sind jünger als Studierende, die in Cluster 2 oder Cluster 3 eingeteilt werden. Anhand der Clusterbildung ist es im vorliegenden hypothetischen Beispiel von Seite der Universität möglich, die Studierende in Gruppen einzuteilen, damit die angebotenen Informatikkurse auf die Bedürfnisse der einzelnen Studierenden zugeschnitten sind. In Cluster 3 werden die „Anfänger“ eingeteilt, in Cluster 2 die „Fortgeschrittene“ und in Cluster 1 die „Profis“.

3. SPSS-Befehle

SPSS-Datensatz: Verwendeter Beispieldatensatz zum Clusteranalyse.sav

Klicksequenz: Analysieren > Klassifizieren > Hierarchische Cluster

Syntax:
CLUSTER period self course age
/METHOD WAVERAGE
/MEASURE=SEUCLID
/PRINT SCHEDULE
/PRINT DISTANCE
/PLOT DENDROGRAM VICICLE.

Distanzmatrix: Im Fenster „ Statistiken“ > „ Distanz-Matrix” auswählen

Dendrogramm: Im Fenster „Diagramme“ > „Dendrogramm“ auswählen

4. Literatur

Härdle, W. & Simar, L. (2003). Applied Multivariate Statistical Analysis. Springer: Berlin.
Garson, G. D. (2012). Cluster analysis. Asheboro, NC: Statistical Associates Publishers.

top