Ressourcen für empirische Methoden

Faktorenanalyse


entscheidbaum


1. Einführung
2. Vorgehensweise
3. SPSS-Befehle
4. Literatur

1. Einführung

Die Faktoranalyse ist ein multivariates Analyseverfahren und kommt zum Einsatz, wenn aufgrund der vermuteten Zusammenhänge intervallskalierter Variablen eine Dimensionsreduktion angestrebt wird. Das Ziel ist dabei, die untersuchten Variablen zu einer geringen Anzahl möglichst aussagekräftiger und voneinander unabhängige Faktoren zu reduzieren und dabei einen möglichst grossen Anteil der Varianz der untersuchten Variablen aufzuklären. Es gibt zwei verschiedene Arten der Faktorenanalyse: die explorative und die konfirmatorische. Die explorative Faktorenanalyse ist ein rein strukturentdeckendes Verfahren und dient der Hypothesengenerieung, wenn keine Annahmen über mögliche Zusammenhänge der untersuchten Variablen vorliegen. Die konfirmatorische Faktorenanalyse ist ein hypothesenprüfendes Verfahren und wird eingesetzt, wenn bestimmte Zusammenhänge der untersuchten Variablen vermutet werden. Im vorliegenden Kapitel wird ausschliesslich auf die explorative Faktorenanalyse eingegangen.

2. Vorgehensweise

Mit folgender Fragestellung wird im vorliegenden Kapitel die Vorhergehensweise bei der explorativen Faktorenanalyse näher erläutert:

Können die Präferenzen von Studierenden für sechs unterschiedliche Studienfächer (Algebra, Biologie, Rechnen, Chemie, Geologie und Statistik) zu einer geringen Anzahl Faktoren zusammengefasst werden?

Der Ablauf einer explorativen Faktorenanalyse wird in der Literatur üblicherweise in fünf Schritten zusammengefasst, die im Folgenden beschrieben werden.

2.1 Variablenauswahl

Im ersten Schritt findet die Auswahl der Variablen statt, welche in die Faktorenanalyse einfliessen sollen. Dabei wird eine Korrelationsmatrix aller Variablen erstellt. Im vorliegenden Beispiel wird die Faktorenanalyse mit einem Datensatz durchgeführt, der die hypothetischen Antworten von 300 Studierenden enthält, auf die Frage, wie sehr sie unterschiedliche Studienfächer mögen. Es werden sechs Variablen (Studienfächer) berücksichtigt: Algebra, Biologie, Rechnen, Chemie, Geologie, und Statistik. In Tabelle 1 sind die Beispieldaten angezeigt:

Tabelle 1: Beispieldaten.

Tabelle 1: Beispieldaten.

Als Antwortformat der Variablen dient eine 5-stufige Likert-Skala (von 1 = „Strongly Dislike“, bis 5 = „Strongly Like“).

In Abbildung 1 sind die untersuchten Variablen dargestellt, die sich besispielsweise auf zwei Faktoren reduzieren lassen. An dieser Stelle ist noch nicht bekannt, auf wie viele Faktoren sich die untersuchten Variablen reduzieren lassen (es könnten auch nur einer oder mehr als zwei Faktoren sein).

Abbildung 1: Beispiel einer Reduktion auf zwei Faktoren

Abbildung 1: Beispiel einer Reduktion auf zwei Faktoren

Die Faktoren (auch als latente Konstrukte bezeichnet) werden nicht direkt gemessen, sondern werden anhand der Zusammenhänge zwischen den untersuchten, manifesten Variablen berechnet.

2.1.1 Berechnung der Korrelationsmatrix

Die Erstellung der Korrelationsmatrix verschafft einen ersten Überblick über die Zusammenhänge der Variablen. Dabei werden die bivariate Korrelationen (nach Pearson) der einzelnen Variablen berechnet. In Abbildung 2 ist die Korrelationsmatrix angezeigt:

Abbildung 2: Korrelationsmatrix der manifesten Variablen

Abbildung 2: Korrelationsmatrix der manifesten Variablen

Nach Cohen (1988) kann der Effekt einer Korrelation ab .500 als hoch angesehen werden. Es bestehen im vorliegenden Beispiel demzufolge hohe Korrelationen zwischen Algebra und Rechnen und zwischen Statistik und Rechnen sowie eine mittelhohe Korrelation zwischen Algebra und Statistik. Zudem bestehen hohe Korrelationen zwischen Biologie und Chemie, zwischen Biologie und Geologie und zwischen Chemie und Geologie. Anhand der Korrelationsmatrix kann jedoch noch nicht bestimmt werden, ob zusammenhängende Variablen durch einen gemeinsamen Faktor erklärt werden können. Trotzdem kann an dieser Stelle bereits eine erste Selektion der Variablen stattfinden, falls festegestellt wird, dass bestimmte Variablen nicht oder nur minimal mit den anderen korrelieren und deswegen mit Sicherheit keinem gemeinsamen Faktor zugeordnet werden können.

2.1.2 Eignung der Korrelationsmatrix

Die Rohdaten sind dann für die Durchführung einer Faktorenanalyse geeignet, wenn die „Kaiser-Meyer-Olkin Measure of Sampling Adequacy“ (KMO) grösser als .60 ist. Der KMO nimmt Werte zwischen 0 und 1 an und ist ein Mass dafür, wie stark die untersuchten Variablen miteinander korrelieren. Die Grösse des KMO-Wertes kann folgendermassen beurteilt werden (nach Backhaus, Erichson, Plinke & Weiber, 2006):

Tabelle 2: Interpretation des KMO-Wertes

Tabelle 2: Interpretation des KMO-Wertes

Ein weiteres Kriterium dafür, ob die Daten für die Durchführung einer Faktorenanalyse geeignet sind, stellt der Bartlett-Test auf Sphärizität dar, dessen Arbeitshypothese besagt, dass keine der untersuchten Variablen untereinander korrelieren.

Der „Kaiser-Meyer-Olkin Measure of Sampling Adequacy“ und Bartlett-Test auf Sphärizität der Beispieldaten sind in folgender Tabelle dargestellt:

Abbildung 3: „Kaiser-Meyer-Olkin Measure of Sampling Adequacy“ und Bartlett-Test auf Sphärizität

Abbildung 3: „Kaiser-Meyer-Olkin Measure of Sampling Adequacy“ und Bartlett-Test auf Sphärizität

Im vorliegenden Beispiel beträgt der KMO-Wert .703. Nach Backhaus, Erichson, Plinke und Weiber (2006) werden „Measure of Sampling Adequacy“-Werte von über .70 als „ziemlich gut“ („middling“) angesehen (siehe Tabelle 2). Der p-Wert des Bartlett-Tests auf Sphärizität ist im vorliegenden Beispiel hochsignifikant (p < .001). Es kann davon ausgegangen werden, dass sich die Beispieldaten für die Durchführung einer Faktorenanalyse eignen. Zur Beurteilung, ob die einzelne Variablen in die Faktorenanalyse eingehen sollen, dienen zudem die Anti-Image-Matrizen, die auf der Zerlegung der Varianz in zwei Teilen beruhen. Dabei wird der Varianzanteil einer Variable, den durch die korrelierenden Variablen erklärbar ist (Image), mit dem nicht erklärbaren Varianzanteil in Verbindung gebracht (Anti-Image). Die Variablen sind dann für die Aufnahme in die Faktorenanalyse geeignet, wenn dessen Anti-Image gering ausfällt. In Abbildung 4 sind die Anti-Image-Matrizen angezeigt:

Abbildung 4: Anti-Image-Matrizen

Abbildung 4: Anti-Image-Matrizen

Anhand der Anti-Image-Matrizen kann wie gesagt beurteilt werden, ob einzelne Variablen aus der Faktorenanalyse entfernt werden sollten. Die Werte in der Diagonale dienen als Mass für die Stichprobeneignung und sind mit hochgestellten „a“ markiert. Zur Beurteilung der Werte kann Tabelle 2 herangezogen werden. Im vorliegenden Beispiel liegen die Anti-Image-Korrelationswerte zwischen .603 (Rechnen) und .841 (Statistik). Sämtliche Variablen können in die Faktorenanalyse eingehen.

2.1.3 Bestimmung der Kommunalitäten

Die Kommunalitäten beschreiben die Varianzanteile der einzelnen Variablen, die durch die extrahierten Faktoren erklärt werden können (Summe der quadrierten Ladungen einer Variablen über sämtlichen Faktoren). Es gibt unterschiedliche Verfahren zur Faktorenextraktion, die sich darin unterschieden, wie die Kommunalitäten bestimmt werden. Bei der Hauptkomponentenanalyse wird angenommen, dass die Varianz der Variablen vollständig durch die extrahierten Faktoren erklärt werden kann. Bei der Hauptachsenanalyse wird die Kommunalität geschätzt, indem angenommen wird, dass die Variablen unaufklärbare Restvarianzen aufweisen. Im vorliegenden Beispiel wird ausschliesslich auf die Berechnung der Hauptkomponentenanalyse eingegangen, die am häufigsten zum Einsatz kommt. In folgender Abbildung sind die Kommunalitäten der untersuchten Variablen der Beispielvariablen dargestellt:

Abbildung 5: Kommunalitäten

Abbildung 5: Kommunalitäten

Bei der Hauptkomponentenanalyse wird wie gesagt davon ausgegangen, dass die Varianz jeder Variable, die in die Analyse eingeht, komplett erklärt werden kann (deshalb sind die Kommunalitäten, die in Abbildung 5 angezeigt sind, anfänglich 1). In der zweiten Spalte sind die Kommunalitäten der untersuchten Variablen nach der Extraktion der Faktoren angezeigt.

2.2 Extraktion der Faktoren

Die Durchführung der Faktorenanalyse beruht auf die mathematische Berechnung von Matrizen und Vektoren, mit dem Ziel, ein neues Bezugssystem (Koordinatensystem) mit einer geringen Anzahl Dimensionen (Achsen) zu erstellen, in dem die erhobenen Daten möglichst gut eingebettet sind. Auf den Achsen werden dabei die Faktoren eingetragen. Beim zweidimensionalen Bezugssystem ist die bildliche Darstellung der Vektoren (untersuchten Variablen) möglich. Die Grösse der Korrelationen zwischen den Variablen wird mit der Nähe der zugehörigen Vektoren im Koordinatensystem widerspiegelt. Je grösser die Korrelation zwischen zwei Variablen, desto kleiner ist der Winkel der zugehörigen Vektoren. Bei den Beispieldaten könnten die Vektoren folgendermassen angeordnet sein (die Grösse der Winkel sind willkürlich gewählt):

Abbildung 6: Darstellung der Variablen als Vektoren im Koordinatensystem

Abbildung 6: Darstellung der Variablen als Vektoren im Koordinatensystem

Bei der Hauptkomponentenanalyse wird der erste Faktor so festgelegt, dass durch ihn ein möglichst grosser Teil der Gesamtvarianz der untersuchten Variablen erklärt wird. Im vorliegenden Beispiel wird die erste Achse (erster Faktor) als Schwerpunkt der sechs Vektoren ermittelt, damit die Varianz der Vektoren zur Achse maximiert wird. Orthogonale Vektoren (mit einem Winkel von 90° Grad) sind voneinander unabhängig. Das Ziel der Faktorenanalyse ist die Ermittlung von möglichst wenigen, unabhängigen Faktoren. Deswegen werden zuerst orthogonale Achsen ermittelt. Die zweite Achse (zweiter Faktor) wird bei der Hauptkomponentenanalyse so festegelegt, dass sie orthogonal zur ersten ist und gleichzeitig die aufgeklärte Restvarianz maximiert wird (siehe Abbildung 7). Genauso wird bei jeder weiteren hinzugefügten Achse vorgegangen. Ab zwei Achsen ist die graphische Darstellung nicht mehr möglich.

Abbildung 7: Darstellung der Variablen als Vektoren und der Faktoren als Achsen im Koordinatensystem

Abbildung 7: Darstellung der Variablen als Vektoren und der Faktoren als Achsen im Koordinatensystem

Die Grösse der Winkel zwischen einem Vektor und der Achsen spiegeln die Korrelationen der Variablen und der Faktoren wieder. Je grösser die Faktorladung einer Variable (Korrelation der Variable mit dem Faktor) desto kleiner ist der Winkel zwischen dem Vektor und der Achsen (in Abbildung 7 weisen die Winkel willkürliche Grössen auf).

2.3 Bestimmung der Anzahl der Faktoren

In diesem Abschnitt werden zwei der wichtigsten Kriterien vorgestellt, die zur Entscheidung der optimalen Faktorlösung beitragen können. Es gibt keine allgemeingültigen Vorschriften, die zur Bestimmung der optimalen Anzahl der zu extrahierende Faktoren beitragen. Nach dem Kaiser-Kriterium (in den Voreinstellungen von SPSS) werden die Faktoren als relevant angesehen, die einen Eigenwert (Anteil der durch den Faktor aufgeklärten Gesamtvarianz aller Variablen bzw. Summe der quadrierten Faktorladungen über sämtlichen Variablen) von grösser als eins haben und somit mehr Varianz aufklären, als eine einzelne, untersuchte Variable, die in die Faktorenanalyse eingeht (Moosbrugger & Schermelleh-Engel, 2007). In folgender Abbildung ist die Eigenwertstabelle der Beispieldaten dargestellt:

Abbildung 8: Eigenwertstabelle der Beispieldaten

Abbildung 8: Eigenwertstabelle der Beispieldaten

In der Spalte, die mit „Gesamt“ angeschrieben ist, sind die Eigenwerte der Faktoren angezeigt. Im vorliegenden Beispiel haben zwei Faktoren einen Eigenwert, der grösser als eins ist. Nach dem Kaiser-Kriterium sollen zwei Faktoren extrahiert werden. Diese beiden Faktoren zusammen erklären 76.1% der Gesamtvarianz der untersuchten Variablen (siehe „kumulierte %“ in Abbildung 8).

Nach dem „Scree-Test“ werden diejenige Faktoren als relevant angesehen, deren Eigenwerte sich im Screeplot (graphische Abbildung des Eigenwertsverlaufs) vor dem „Knick“ befinden (Bortz, 1999).

In folgender Abbildung ist der Screeplot der Beispieldaten angezeigt:

Abbildung 9: Screeplot der Beispieldaten

Abbildung 9: Screeplot der Beispieldaten

Bei zufällig entstandenen Faktoren weist die Steigung im Screeplot einen flachen Verlauf auf. Deshalb werden nur Faktoren oberhalb eines „Knicks“ gezählt. Im vorliegenden Beispiel liegt der „Knick“ beim dritten extrahierten Faktoren (vor dem „Knick“ befinden sich zwei Faktoren). Der „Scree-Test“ legt daher die Extraktion von zwei Faktoren nahe.

Oftmals spielen zudem inhaltliche Überlegungen bei der Bestimmung der optimalen Anzahl der zu extrahierende Faktoren eine wichtige Rolle. Falls mehr Faktoren extrahiert werden möchten, als nach dem Kaiser-Kriterium vorgeschlagen wird, kann dies in SPSS eingestellt werden.

2.4 Bestimmung der Faktorwerte und Faktorenrotation

Nach der Bestimmung der Anzahl der Faktoren und dessen Extraktion, wir die Höhe der Faktorladungen berechnet (Korrelationen zwischen den untersuchten Variablen und den Faktoren). In folgender Abbildung sind die Faktorladungen der Beispieldaten angezeigt:

Abbildung 10: Unrotierte Faktorladungen

Abbildung 10: Unrotierte Faktorladungen

Im vorliegenden Beispiel wurden zwei Faktoren extrahiert. In der Spalte „Komponente 1“ sind die Faktorladungen des ersten Faktors (Komponente) angezeigt, in der zweiten Spalte die Faktorladungen des zweiten Faktors (Komponente). Im Idealfall korreliert jede Variable jeweils nur mit einem Faktor hoch, was die inhaltliche Interpretation der Faktoren erleichtert. Üblicherweise werden Ladungen ab .50 als gross definiert. Im vorliegenden Beispiel weist die Komponentenmatrix darauf hin, dass bei der unrotierten Lösung sämtliche Variablen hoch auf den ersten Faktor laden. Auf den zweiten weisen Algebra, Rechnen und Statistik hohe positive Ladungen auf, während Biologie, Chemie und Geologie negative Ladungen aufweisen. Eine inhaltliche Interpretation der Faktoren scheint im vorliegenden Beispiel bei der unrotierten Lösung schwierig zu sein.

In einem weiteren Schritt werden die Achsen rotiert. Die Rotation der Achsen führt zu keine Veränderung der Eigenwerte, jedoch zu unterschiedlichen Ladungen. Bei den Beispieldaten könnten die beiden Achsen folgendermassen angeordnet werden:

Abbildung 11: Rotierte Lösung im Koordinatensystem

Abbildung 11: Rotierte Lösung im Koordinatensystem

Es gibt zwei unterschiedliche Möglichkeiten, die Achsen zu rotieren. Bei der orthogonalen Rotation (was im vorliegenden Beispiel angewendet wird) bleiben die Faktoren voneinander unabhängig. Bei der obliquen (schiefwinklige) Rotation sind die Faktoren nicht unabhängig voneinander bzw. weisen untereinander Zusammenhänge auf.

Es gibt unterschiedliche orthogonale Rotationsmethoden. Im vorliegenden Beispiel wurde die Varimax-Methode gewählt, die am häufigsten zum Einsatz kommt und zur Reduzierung der Variablen mit hohen multiplen Ladungen führt. In folgender Abbildung ist die rotierte Faktorlösung angezeigt:

Abbildung 12: Rotierte Faktorladungen

Abbildung 12: Rotierte Faktorladungen

Durch die Rotation wurde im vorliegenden Beispiel eine Lösung gefunden, die einer Einfachstruktur nahe kommt. Bei einer Einfachstruktur laden die untersuchten Variablen sehr hoch auf einen Faktor und sehr niedrig auf die anderen Faktoren. Die Variablen Biologie, Chemie und Geologie weisen hohe Ladungen mit dem ersten Faktor auf. Algebra, Rechnen und Statistik korrelieren hoch mit dem zweiten Faktor.

2.5 Faktoreninterpretation

In diesem Abschnitt werden die Faktoren inhaltlich interpretiert, indem nach Sammelbegriffen für die Gruppen von Variablen gesucht wird, die auf den jeweiligen Faktor hoch laden. Die Interpretation soll stets aufgrund sachlichen und durch die Fachliteratur gut begründbaren Überlegungen erfolgen.

Im vorliegenden Beispiel könnte für den ersten Faktor (weist hohe Ladungen mit Biologie, Chemie und Geologie auf) den Sammelbegriff „Naturwissenschaften“ gewählt werden. Der zweite Faktor (weist hohe Ladungen mit Algebra, Rechnen und Statistik auf) könnte mit „Mathematik“ benennt werden. Die dazugehörige Abbildung würde folgendermassen aussehen:

Abbildung 13: Reduktion auf zwei Faktoren

Abbildung 13: Reduktion auf zwei Faktoren

Die Antworten von Studierenden, auf die Frage, wie sehr sie die Studienfächer Algebra, Biologie, Rechnen, Chemie, Geologie und Statistik mögen, scheint von einer grundsätzlichen Präferenz für Naturwissenschaften bzw. Mathematik beeinflusst zu sein. Studierende, die beispielsweise eine Vorliebe für Naturwissenschaften haben, werden mit grosser Wahrscheinlichkeit die Studienfächer Biologie, Chemie und/oder Geologie den Studienfächern Algebra, Rechnen und/oder Statistik bevorzugen.

3. SPSS-Befehle

SPSS-Datensatz: Verwendeter Beispieldatensatz zum Faktorenanalyse.sav

Klicksequenz: Analysieren > Dimensionsreduzierung > Faktorenanalyse

Syntax:
FACTOR
/VARIABLES ALG BIO CALC CHEM GEO STAT
/MISSING LISTWISE
/ANALYSIS ALG BIO CALC CHEM GEO STAT
/PRINT INITIAL CORRELATION KMO AIC EXTRACTION ROTATION
/PLOT EIGEN
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/METHOD=CORRELATION.

Korrelationsmatrix: Im Fenster „Deskriptive Statistiken“ > unter „ Koeffizienten” auswählen

Eignung der Daten: Im Fenster „Deskriptive Statistiken“ > „KMO und Bartlett-Test auf Sphärizität“ auswählen

Anti-Image-Matrizen: Im Fenster „Deskriptive Statistiken“ > „Anti-Image“ auswählen

Screetest: Im Fenster „Extraktion“ > „Screeplot“ auswählen

Unrotierte Faktorlösung: Im Fenster „Extraktion“ > „Nicht rotierte Faktorlösung“ auswählen

Orthogonale Faktorlösung: Im Fenster „Rotation“ > „Varimax“ auswählen

4. Literatur

Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2006). Multivariate Analysemethode: Eine anwendungsorientierte Einführung. Berlin: Springer.
Bortz, J. (1999). Statistik für Sozialwissenschaftler. Berlin: Springer.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New Jersey: Lawrence Erlbaum.
Field, A. (2009). Discovering statistics using SPSS. London: Sage Publications, Inc.
Moosbrugger, H., & Schermelleh-Engel, K. (2007). Exploratorische (EFA) und konfirmatorische Faktorenanalyse (CFA). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 307-324). Berlin: Springer.
Tabachnick, B.G. & Fidell, L.S. (2007). Using Multivariate Statistics. Boston: Pearson Educational

top