Ressourcen für empirische Methoden

Mehrfaktorielle Varianzanalyse


entscheidbaum


1. Einführung
2. Vorgehensweise
3. Mehrfaktorielle Varianzanalyse mit SPSS
4. SPSS-Befehle
5. Literatur

1. Einführung

Die Varianzanalysen (ANOVA = „Analysis of Variance“) gehören zu den insbesondere in den Sozialwissenschaften am häufigsten eingesetzten statistischen Verfahren. Es gibt verschiedene Arten von Varianzanalysen, die sich in der Anzahl der unabhängigen Variablen sowie im Vorhandensein bzw. Nichtvorhandensein von Messwiederholungen unterscheiden. Im vorliegenden Kapitel wird auf die mehrfaktorielle Varianzanalyse eingegangen, die der Einfluss mehrerer unabhängigen Variablen sowie deren Wechselwirkung (Interaktion) auf eine abhängige Variable untersucht. Die unabhängigen Variablen (auch als Faktoren bezeichnet) sind üblicherweise nominal- oder ordinalskaliert. Die abhängige Variable sollte intervallskaliert sowie annähernd normalverteilt sein.

2. Vorgehensweise

Mit folgenden Fragestellungen wird im vorliegenden Kapitel die Vorhergehensweise bei der mehrfaktoriellen Varianzanalyse näher erläutert:

Haben Ausbildungsniveau und Geschlecht einen Einfluss auf das jährliche Einkommen von US-BürgerInnen? Gibt es zwischen Ausbildungsniveau und Geschlecht einen Interaktionseffekt auf das jährliche Einkommen von US-BürgerInnen?

Der Ablauf der mehrfaktoriellen Varianzanalyse wird in fünf Schritten zusammengefasst, die im Folgenden beschrieben werden.

2.1 Schematische Darstellung

Die Fragestellungen werden anhand der Daten vom „US Bureau of Labor Statistics“ aus dem März 2002 untersucht. Dabei wurde eine Teilstichprobe (n = 1503 erwachsene US-BürgerInnen) verwendet. Zur Beantwortung der Fragestellungen kann eine schematische Darstellung hilfreich sein, die im vorliegenden Fall folgendermassen aussieht:

Abbildung 1: Schematische Darstellung

Abbildung 1: Schematische Darstellung

Die schematische Darstellung besagt, dass Geschlecht und Ausbildungsniveau jeweils separat einen Einfluss auf das jährliche Einkommen haben könnten. Zudem könnte eine Interaktion zwischen Ausbildungsniveau und Geschlecht vorhanden sein.

Die unabhängige, ordinalskalierte Variable „Ausbildungsniveau“ weist sechs Ausprägungen auf (1 = „no high school“, 2 = „some high school“, 3 = „high school diploma“, 4 = „some college“, 5 = „bachelor’s degree“ und 6 = „postgraduate degree“). Die abhängige Variable „jährliches Einkommen“ (in US-Dollar) ist intervallskaliert.

2.2 Berechnung der Teststatistik

In Abbildung 2 sind die deskriptiven Statistiken der Beispieldaten dargestellt (nach den unabhängigen Variablen Geschlecht und Ausbildungsniveau getrennt):

Abbildung 2: Deskriptive Statistiken der Beispieldaten. Anmerkung: M = Mittelwert; SD = Standardabweichung

Abbildung 2: Deskriptive Statistiken der Beispieldaten. Anmerkung: M = Mittelwert; SD = Standardabweichung

Zur Veranschaulichung der Mittelwerte kann mit SPSS durch das Auswählen von „Diagramme“ im Dialogfeld „Univariat“ ein Diagramm erstellt werden, indem unter „Horizontale Achsen“ die entsprechende Variablen angeklickt werden.

Abbildung 3: Graphische Darstellung der Mittelwerte für die unabhängige Variable „Geschlecht“

Abbildung 3: Graphische Darstellung der Mittelwerte für die unabhängige Variable „Geschlecht“

Wie in Abbildung 3 gezeigt wird, unterscheiden sich die Mittelwerte des jährlichen Einkommens (in US-Dollar) zwischen Männer und Frauen. Mit der Varianzanalyse kann, nach der Berechnung der dazugehörigen Teststatistik, überprüft werden, ob diese Mittelwertsunterschiede statistisch signifikant sind.

Abbildung 4: Graphische Darstellung der Mittelwerte für die unabhängige Variable „Ausbildungsniveau“

Abbildung 4: Graphische Darstellung der Mittelwerte für die unabhängige Variable „Ausbildungsniveau“

Wie in Abbildung 4 gezeigt wird, unterscheiden sich die Mittelwerte des jährlichen Einkommens (in US-Dollar) zwischen den unterschiedlichen Ausbildungsniveaus. Mit der Varianzanalyse kann, nach der Berechnung der dazugehörigen Teststatistik, überprüft werden, ob diese Mittelwertsunterschiede statistisch signifikant sind.

Zudem kann mit der mehrfaktoriellen Varianzanalyse untersucht werden, ob signifikante Interaktionseffekte der unabhängigen Variablen vorliegen bzw. ob die Wechselwirkung der unabhängigen Variablen einen signifikanten Einfluss auf die abhängige Variable hat. In folgender Abbildung ist die Wechselwirkung graphisch dargestellt:

Abbildung 5: Graphische Darstellung der Wechselwirkung

Abbildung 5: Graphische Darstellung der Wechselwirkung

Wie in Abbildung 5 gezeigt wird, weisen die Linien der Geschlechter keinen parallelen Verlauf auf, was ein Hinweis auf das Vorhandeinsein einer Wechselwirkung ist. Mit der mehrfaktoriellen Varianzanalyse kann, nach der Berechnung der dazugehörigen Teststatistik, überprüft werden, ob eine signifikante Wechselwirkung vorliegt.

Die Grundidee der Varianzanalyse beruht auf die Zerlegung der gesamten Varianz der abhängigen Variablen. Die Gesamtstreuung wird in Streuung innerhalb der Gruppen und in die Streuung zwischen den Gruppen aufgeteilt. Diese wird wiederum in durch die Faktoren beeinflusste Streuungen und durch Wechselwirkungen beeinflusste Streuungen aufgeteilt.

Die Gesamtstreuung bei der mehrfaktoriellen Varianzanalyse mit zwei unabhängigen Variablen wird folgendermassen berechnet:

Abbildung 6: Berechnung der Gesamtstreuung

Abbildung 6: Berechnung der Gesamtstreuung

wobei
SS= Summe der Abweichungsquadrate („sum of squares“)
A= erster Faktor (unabhängige Variable)
B= zweiter Faktor (unabhängige Variable)
AxB=Wechselwirkung der beiden Faktoren (unabhängige Variablen)

Die Gesamtstreuung kann auch mit folgender Gleichung beschrieben werden:

Abbildung 7: Gleichung der Gesamtstreuung (komplette Formel)

Abbildung 7: Gleichung der Gesamtstreuung (komplette Formel)

wobei
SS= Summe der Abweichungsquadrate („sum of squares“)
k=Anzahl Faktorstufen des Faktors A
j = Faktorstufe des Faktors A
m=Anzahl Faktorstufen des Faktors B
l = Faktorstufe des Faktors B
n=Stichprobengrösse
y=Gesamtmittelwert
yjli=Merkmalsausprägung der i-ten Untersuchungseinheit in den
Faktorstufen j und l

Bei mehr als zwei Faktoren (unabhängige Variablen) wird die Formel entsprechend erweitert.
Der Einfluss des ersten Faktors wird folgendermassen berechnet:

Abbildung 8: Gleichung der Streuung des ersten Faktors

Abbildung 8: Gleichung der Streuung des ersten Faktors

wobei
SS= Summe der Abweichungsquadrate („sum of squares“)
m=Anzahl Faktorstufen des Faktors B
n=Stichprobengrösse
k=Anzahl Faktorstufen des Faktors A
j = Faktorstufen des Faktors A
yj=Mittelwert der Faktorstufe j des Faktors A
y=Gesamtmittelwert

Der Einfluss des zweiten Faktors wird folgendermassen berechnet:

Abbildung 9: Gleichung der Streuung des zweiten Faktors

Abbildung 9: Gleichung der Streuung des zweiten Faktors

wobei
SS= Summe der Abweichungsquadrate („sum of squares“)
k=Anzahl Faktorstufen des Faktors A
n=Stichprobengrösse
m=Anzahl Faktorstufen des Faktors B
l= Faktorstufen des Faktors B
yj=Mittelwert der Faktorstufe l des Faktors B
y=Gesamtmittelwert

Die Streuung, die durch den Interaktionseffekt der beiden Variablen entsteht, wird folgendermassen berechnen:

Abbildung 10: Gleichung der Streuung der Interaktionseffekte

Abbildung 10: Gleichung der Streuung der Interaktionseffekte

wobei
SS= Summe der Abweichungsquadrate („sum of squares“)
n=Stichprobengrösse
k=Anzahl Faktorstufen des Faktors A
j = Faktorstufen des Faktors A
m=Anzahl Faktorstufen des Faktors B
l= Faktorstufen des Faktors B
yjl=Mittelwert der Faktorstufen j und l
ŷjl=Schätzwert (ohne Interaktion) für den Mittelwert der
Faktorstufen j und l

Der Schätzwert ist der zu erwartende gemeinsame Mittelwert, falls angenommen wird, dass keine Interaktion der beiden Faktoren vorhanden ist und wird folgendermassen berechnet:

Abbildung 11: Berechnung des Schätzwertes

Abbildung 11: Berechnung des Schätzwertes

wobei
ŷjl=Schätzwert (ohne Interaktion) für den Mittelwert der
Faktorstufen j und l
yj=Mittelwert der Faktorstufe j des Faktors A
yj=Mittelwert der Faktorstufe l des Faktors B
y=Gesamtmittelwert

Folgende Gleichung beschreibt die Summe der Abweichungsquadrate der individuellen Werte vom jeweiligen Gruppenmittelwert („within“; innerhalb der Gruppen):

Abbildung 12: Gleichung der Streuung innerhalb der Gruppen

Abbildung 12: Gleichung der Streuung innerhalb der Gruppen

wobei
SS= Summe der Abweichungsquadrate („sum of squares“)
k=Anzahl Faktorstufen des Faktors A
j = Faktorstufen des Faktors A
m=Anzahl Faktorstufen des Faktors B
l= Faktorstufen des Faktors B
n=Stichprobengrösse
yjli=Merkmalsausprägung der i-ten Untersuchungseinheit in den
Faktorstufen j und l
yjl=Mittelwert der Faktorstufen j und l

In folgender Tabelle sind die Freiheitsgrade angezeigt, mit denen die einzelnen Streuungen normiert werden, um die entsprechenden Varianzen zu erhalten:

Tabelle 1: Freiheitsgrade

Tabelle 1: Freiheitsgrade

Die Teststatistiken der Haupteffekte sowie des Interaktionseffektes werden berechnet, indem die berechneten Varianzen durch die Varianz innerhalb der Gruppen geteilt wird:

Abbildung 13: Berechnung der Teststatistik

Abbildung 13: Berechnung der Teststatistik

Die F-verteilten Teststatistiken werden mit dem kritischen Wert auf der durch die Freiheitsgrade bestimmten theoretischen F-Verteilung verglichen.

2.3 Test auf Varianzhomogenität

Als Voraussetzung für die Durchführung einer mehrfaktoriellen Varianzanalyse gilt, dass Varianzhomogenität zwischen den Gruppen besteht.

Vor der Berechnung der Varianzanalyse muss ein Test auf Varianzhomogenität durchgeführt werden. Dabei handelt es sich um den Levene-Test, der eine Erweiterung des F-Tests darstellt. In SPSS kann der Test auf Varianzhomogenität im Dialogfenster „Univariat“ unter den Optionen ausgewählt werden. Beim Levene-Test lautet die Nullhypothese, dass die Varianzen der unterschiedlichen Gruppen homogen sind.

Bei den Beispieldaten gibt SPSS für den Levene-Test auf Varianzhomogenität einen p-Wert von .000 aus (siehe Kapitel 3: „Mehrfaktorielle Varianzanalyse mit SPSS“). In der Literatur wird beschrieben, dass der p-Wert des Tests auf Varianzhomogenität grösser als .100 sein soll, will man heterogene Varianzen aussschliessen. Der p-Wert der Beispieldaten deutet darauf hin, dass die Varianzen nicht homogen sind und dass deshalb die Voraussetzung der Varianzhomogenität nicht erfüllt ist.
Da es sich bei den Beispieldaten um eine grosse Stichprobe handelt ( n = 1503), kann die mehrfaktorielle Varianzanalyse auch bei Verletzung der Voraussetzung der Varianzhomogenität durchgeführt werden.

2.4 Prüfung auf Signifikanz

In diesem Abschnitt wird die berechnete Teststatistik auf Signifikanz überprüft. Der F-Wert wird mit dem kritischen Wert der theoretischen F-Verteilung verglichen.

Im vorliegenden Beispiel werden zwei Haupteffekte und ein Interaktionseffekt berechnet.

Für die Beispieldaten gibt SPSS bei der Variable „Geschlecht“ eine Prüfgrösse F von 64.923 und einen p-Wert von .000 und bei der Variable „Ausbildungsniveau“ eine Prüfgrösse F von 37.539 und einen p-Wert von .000 an (siehe Kapitel 3: „Mehrfaktorielle Varianzanalyse mit SPSS“). Diese Werte liegen unter dem Signifikanzniveau von .050. Die Nullhypothesen der Haupteffekte können zugunsten der Alternativhypothesen abgelehnt werden. Beide unabhängigen Variablen haben einen Einfluss auf die abhängige Variable. Es bestehen zwischen Männern und Frauen sowie zwischen mindestens zwei Kategorien der Variable „Ausbildungsniveau“ signifikante Unterschiede im jährlichen Einkommen. Da die mehrfaktorielle Varianzanalyse bei unabhängigen Variablen mit mehr als zwei Abstufungen, nur untersucht, ob mindestens einen Unterschied vorliegt, können anschliessend Post Hoc Tests durchgeführt werden, um zu überprüfen, welche Mittelwerte der unterschiedlichen Kategorien signifikant von den anderen abweichen.

Bei der Interaktion zwischen Geschlecht und Ausbildungsniveau gibt SPSS eine Prüfgrösse F von 5.926 und einen p-Wert von .000 an (siehe Kapitel 3: „Mehrfaktorielle Varianzanalyse mit SPSS“). Dieser Wert liegt unter dem Signifikanzniveau von .050. Die Interaktion der beiden unabhängigen Variablen hat einen Einfluss auf die abhängige Variable. Die graphische Darstellung der Wechselwirkung (siehe Abbildung 5) gibt einen Hinweis, wie die beiden unabhängigen Variablen interagieren. Mit steigendem „Ausbildungsniveau“ wird der Unterschied der Mittelwerte im jährlichen Einkommen zwischen Männern und Frauen grösser. Bei niedrigem „Ausbildungsniveau“ unterscheiden sich die Mittelwerte im jährlichen Einkommen kaum, bei hohem „Ausbildungsniveau“ verdienen jedoch Männer signifikant mehr.

2.5 Post Hoc Tests

Die mehrfaktorielle Varianzanalyse gibt bei unabhängigen Variablen mit mehr als zwei Abstufungen keine Auskunft darüber, welche Gruppenmittelwerte sich signifikant von den anderen unterscheiden. Dazu können Post Hoc Tests berechnet werden, die durch paarweise Vergleiche der Gruppen prüfen, welche Mittelwertsunterschiede dazu geführt haben, dass die Varianzanalyse signifikant wird. Es ist empfehlenswert, unter den Post Hoc Tests den „konservativen“ Scheffé-Test zu berücksichtigen, da somit die Wahrscheinlichkeit klein ist, dass rein zufällig entstandene Zusammenhänge signifikant werden.

Die Wahrscheinlichkeit einen Fehler 1. Art zu begehen (die irrtümliche Annahme der Alternativhypothese) steigt mit der Anzahl der durchgeführten Tests. Zur Behebung dieses Problems wird das Signifikanzniveau durch die Anzahl der durchgeführten Tests korrigiert. In SPSS kann diese Korrektur auf unterschiedlichen Art und Weise durchgeführt werden. Im Dialogfenster „Univariat“ können unter „Post Hoc“ die unterschiedlichen Prozeduren ausgewählt werden. Es ist empfehlenswert, die Ergebnisse von unterschiedlichen Prozeduren zu vergleichen.

3. Mehrfaktorielle Varianzanalyse mit SPSS

SPSS gibt bei der Berechnung der mehrfaktoriellen Varianzanalyse unter anderem die folgenden Abbildungen aus:

Abbildung 14: Levene-Test auf Varianzhomogenität

Abbildung 14: Levene-Test auf Varianzhomogenität

In Abbildung 14 sind die Ergebnisse des Levene-Tests auf Varianzhomogenität angezeigt. Ein signifikantes Ergebnis deutet darauf hin, dass die Varianzen der einzelnen Gruppen unterschiedlich gross sind und die Voraussetzung der Varianzanalyse nicht erfüllt ist. Im Beispiel beträgt der p-Wert .000, was auf nicht homogene Varianzen hindeutet. Da der Stichprobenumfang gross ist, können trotzdem weitere Berechnungen durchgeführt werden.

Abbildung 15: Teststatistik der mehrfaktoriellen Varianzanalyse

Abbildung 15: Teststatistik der mehrfaktoriellen Varianzanalyse

In Abbildung 15 ist das Ergebnis der mehrfaktoriellen Varianzanalyse angezeigt. Es wurden zwei Haupteffekte (sex, educ) und einen Interaktionseffekt (sex * educ) untersucht.

Abbildung 15: Teststatistik der mehrfaktoriellen Varianzanalyse

Abbildung 15: Teststatistik der mehrfaktoriellen Varianzanalyse

In Abbildung 16 gibt die zweite Spalte die Differenz zwischen den jeweiligen Gruppen an, wobei die p-Werte der vierten Spalte relevant sind. Es bestehen signifikante Unterschiede zwischen bestimmten Gruppen. Es gibt beispielsweise zwischen Personen ohne Highschool-Abschluss und Personen mit Bachelor-Abschluss oder mit Hochschulabschluss einen signifikanten Unterschied im jährlichen Einkommen (siehe rote Markierungen in Abbildung 16). Da die ausgegebenen p-Werte dieser Vergleiche kleiner als .050 sind, kann davon ausgegangen werden, dass sich diese Mittelwerte signifikant unterscheiden.

4. SPSS-Befehle

SPSS-Datensatz: Verwendeter Beispieldatensatz zum Mehrfaktorielle-Varianzanalyse.sav

Klicksequenz: Analysieren > allgemeines lineares Modell > Univariat

Syntax:
UNIANOVA earn BY sex educ
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/POSTHOC=educ(SCHEFFE)
/PLOT=PROFILE(sex educ educ*sex)
/EMMEANS=TABLES(sex) COMPARE ADJ(BONFERRONI)
/EMMEANS=TABLES(educ) COMPARE ADJ(BONFERRONI)
/EMMEANS=TABLES(sex*educ)
/PRINT=HOMOGENEITY DESCRIPTIVE
/CRITERIA=ALPHA(.05)
/DESIGN=sex educ sex*educ.

5. Literatur

Field, A. (2009). Discovering statistics using SPSS. London: Sage Publications, Inc.
Gravetter, F. J. & Wallnau, L. B. (2009). Statistics for the behavioral sciences. Belmont: Wadsworth Cengage Learning.
Welkowitz, J., Cohen, B.H. & Ewen, R.B. (2006). Introductory Statistics for the Behavioural Sciences. New Jersey: John Wiley and Sons.

top