Ressourcen für empirische Methoden

Pearson-Chi-Quadrat-Unabhängigkeitstest


entscheidbaum


1. Einführung
2. Vorgehensweise
3. Pearson-Chi-Quadrat-Unabhängigkeitstest mit SPSS
4. SPSS-Befehle
5. Literatur

1. Einführung

Der Pearson-Chi-Quadrat-Unabhängigkeitstest ist ein nicht-parametrisches statistisches Verfahren mit Chi-Quadrat-verteilter Teststatistik und dient der Überprüfung, ob zwei Merkmale voneinander unabhängig sind. Der Chi-Quadrat-Unabhängigkeitstest stellt eine Erweiterung des „klassischen“ Vierfeldertest dar, der zwei Merkmale mit jeweils zwei Ausprägungen untersucht.

Anhand von Kreuztabellen können unterschiedliche Koeffizienten berechnet werden, die Stärke und Richtung der Zusammenhänge wiedergeben.

2. Vorgehensweise

Mit folgender Fragestellung wird im vorliegenden Kapitel die Vorhergehensweise beim Chi-Quadrat-Unabhängigkeitstest näher erläutert:

Gibt es einen Zusammenhang zwischen dem Auftreten von Darmkrebs und dem Alter?

Der Ablauf des Chi-Quadrat-Unabhängigkeitstest wird in vier Schritten zusammengefasst, die im Folgenden beschrieben werden.

2.1 Schematische Darstellung

Die Fragestellung wird anhand eines Datensatzes vom „SAS Institute” (“Statistical Analysis Institute”) untersucht. Es handelt sich um die Daten von 406 Personen, bei denen eine Koloskopie (Darmspiegelung) durchgeführt wurde.

Zur Beantwortung der Fragestellungen kann eine schematische Darstellung hilfreich sein, die im vorliegenden Fall folgendermassen aussieht:

Abbildung 1: Schematische Darstellung

Abbildung 1: Schematische Darstellung

Im vorliegenden Beispiel wurden die Variablen „Darmkrebsbefund“ (0 = „negativer Befund“; 1 = „kleines Adenom“; 2 = „grosses Adenom“) und „Alter“ (1 = 30-39 Jahre; 2 = 40-49 Jahre; 3 = 50-59 Jahre; 4 = 60-69 Jahre; 5 = 70-79 Jahre) berücksichtigt.

2.2 Berechnung der Koeffizienten

Es können unterschiedliche Koeffizienten berechnet werden, die Stärke und Richtung der Zusammenhänge wiedergeben. Drei dieser Koeffizienten werden im Folgenden beschrieben.

In Abbildung 2 sind die Häufigkeiten des Auftretens der Ausprägungskategorien der beiden untersuchten Variablen dargestellt:

Abbildung 2: Kreuztabelle der Beispieldaten

Abbildung 2: Kreuztabelle der Beispieldaten

Die Chi-Quadrat-Teststatistik wird durch den Vergleich der Tabelle der beobachteten Häufigkeiten mit der Tabelle der erwarteten Häufigkeiten im Falle von statistischer Unabhängigkeit berechnet. Die Werte der Tabelle der erwarteten Häufigkeiten werden anhand der Marginalverteilungen (Summen über Zeilen und Spalten, siehe unter „Gesamt“ in Abbildung 3) berechnet. Die Marginalverteilungen entsprechen den geschätzten Wahrscheinlichkeitsverteilungen der Gruppen unter der Nullhypothese.

Abbildung 3: Tabelle der erwarteten Häufigkeiten

Abbildung 3: Tabelle der erwarteten Häufigkeiten

Der Chi-Quadrat-Test überprüft, in welchem Mass die beobachteten Werte (siehe Abbildung 2) von der statistischen Unabhängigkeit (siehe Abbildung 3) abweichen. Die Chi-Quadrat-Teststatistik wird folgendermassen berechnet:

Abbildung 4: Berechnung der Chi-Quadrat-Teststatistik

Abbildung 4: Berechnung der Chi-Quadrat-Teststatistik

wobei
k= Anzahl der Zellen
fb= innerhalb der Zelle j beobachtete absolute Häufigkeit
fe= innerhalb der Zelle j erwartete absolute Häufigkeit

Die berechnete Chi-Quadrat-Teststatistik wird anschliessend auf Signifikanz überprüft.

Der Chi-Quadrat-Wert hat immer ein positives Vorzeichen und hängt von der Anzahl der Untersuchungseinheiten ab. Mit dem Chi-Quadrat-Test kann ausschliesslich ausfindig gemacht werden, ob ein Zusammenhang zwischen den untersuchten Variablen vorhanden ist oder nicht. Es gibt verschiedene normierte Zusammenhangsmasse, die auf die Chi-quadrat Teststatistik basieren. Anhand dieser Koeffizienten können die Stärke sowie die Richtung des Zusammenhangs bestimmt werden. Die Normierung führt dazu, dass das berechnete Zusammenhangsmass Werte zwischen 0 und 1 annimmt.
Eine erste Normierungsvariante stellt der Koeffizient Cramer’s V dar, der folgendermassen berechnet wird:

Abbildung 5: Berechnung des Koeffizienten Cramer’s V

Abbildung 5: Berechnung des Koeffizienten Cramer’s V

wobei
n= Anzahl der Untersuchungseinheiten
r= Anzahl der Zeilen
c= Anzahl der Spalten

Der Ausdruck „min(r-1, c-1)“ besagt, dass die Anzahl der Zeilen bzw. Spalten um eins verringert wird und der kleinere der beiden Werte in die Formel eingesetzt wird. Cramer’s V kann unter anderem nützlich sein, um mehrere Zusammenhänge zwischen Variablen miteinander zu vergleichen.

Eine zweite Normierungsvariante stellt der Kontingenz-Koeffizient nach Pearson dar, der folgendermassen berechnet wird:

Abbildung 6: Berechnung des Kontingenz-Koeffizienten nach Pearson

Abbildung 6: Berechnung des Kontingenz-Koeffizienten nach Pearson

wobei
n= Anzahl der Untersuchungseinheiten

Die obere Grenze von C ist folgendermassen festgelegt:

Abbildung 7: Berechnung des Kontingenz-Koeffizienten nach Pearson

Abbildung 7: Berechnung des Kontingenz-Koeffizienten nach Pearson

wobei
R= min (r, c)
r= Anzahl der Zeilen
c= Anzahl der Spalten

Der Kontingenz-Koeffizient nach Pearson dient ausschliesslich dem Vergleich von Tabellen mit gleicher Zeilen- und Spaltenanzahl.

Für die Beispieldaten werden folgende Koeffizienten berechnet:

Tabelle 1: Koeffizienten der Beispieldaten

Tabelle 1: Koeffizienten der Beispieldaten

2.3 Prüfung auf Signifikanz

In diesem Abschnitt werden die berechneten Teststatistiken auf Signifikanz überprüft. Der berechnete Chi-Quadrat-Wert wird mit dem kritischen Wert auf der Chi-Quadrat-Verteilung verglichen, die durch den Freiheitsgrad bestimmt wird. Ist der berechnete Wert grösser als der kritische Wert, kann davon ausgegangen werden, dass ein signifikanter Zusammenhang vorhanden ist.
Tabelle 2 gibt die Übersicht über die berechneten p-Werte:

Tabelle 2: P-Werte der Koeffizienten der Beispieldaten

Tabelle 2: P-Werte der Koeffizienten der Beispieldaten

Da der p-Wert des Chi-Quadrat-Koeffizienten kleiner ist als das Signifikanzniveau von .050, besteht zwischen den untersuchten Variablen „Darmkrebsbefund“ und „Alter“ ein Zusammenhang.

Die p-Werte des Koeffizienten Cramer’s V sowie des Kontingenz-Koeffizienten nach Pearson sind ebenfalls kleiner als das Signifikanzniveau von .050. Da der Koeffizient Cramer’s V kleiner als .300 ist, weisen die untersuchten Variablen einen schwachen Zusammenhang auf.

2.4 Voraussetzungen für einen Chi-Quadrat-Test

Die Durchführung des Chi-Quadrat-Tests ist mit drei Voraussetzungen verknüpft, die im Folgenden beschrieben werden.

Als erste Voraussetzung sollte die Stichprobe mindestens 50 Untersuchungseinheiten umfassen. Falls die Stichrobengrösse zwischen 20 und 50 liegt, sollte das Chi-Quadrat nach Yates korrigiert werden (in SPSS wird bei zwei Variablen mit zwei Ausprägung in diesem Fall automatisch eine „Kontinuitätskorrektur“ durchgeführt). Ist der Stichprobenumfang kleiner als 20, sollte anstelle des Chi-Quadrat-Tests der exakte Test nach Fisher verwendet werden.

Zweitens sollten erwarteten Häufigkeiten in sämtlichen Zellen der Kreuztabelle grösser als 5 sein. Falls diese Voraussetzung nicht erfüllt ist, sollte ebenfalls anstelle des Chi-Quadrat-Tests der exakte Test nach Fisher angewendet werden.

Drittens sollten die Freiheitsgrade v = (r – 1) • (c – 1) grösser als 1 sein. Beim „klassischen“ Vierfeldertest, der zwei Merkmale mit jeweils zwei Ausprägungen untersucht, ist diese Voraussetzung nicht erfüllt. In diesem Fall sollte das Chi-Quadrat nach Yates korrigiert werden.

Im vorliegenden Beispiel ist die zweite Voraussetzung nicht erfüllt. Da die beiden Variablen jedoch mehr als zwei Ausprägungen aufweisen und nicht mehr als 20% der erwarteten Häufigkeiten kleiner als 5 sind, kann der Chi-Quadrat-Test trotzdem durchgeführt werden.

3. Chi-Quadrat-Unabhängigkeitstest mit SPSS

SPSS gibt bei der Berechnung des Chi-Quadrat-Unabhängigkeitstests folgende Abbildungen aus:

SPSS gibt bei der Berechnung des Chi-Quadrat-Unabhängigkeitstests folgende Abbildungen aus: Abbildung 8: Chi-Quadrat-Teststatistik

SPSS gibt bei der Berechnung des Chi-Quadrat-Unabhängigkeitstests folgende Abbildungen aus:
Abbildung 8: Chi-Quadrat-Teststatistik

In Abbildung 8 ist die Chi-Quadrat Teststatistik nach Pearson und der dazugehörige p-Wert angezeigt. Der ausgegebene p-Wert ist kleiner als .050. Es besteht einen Zusammenhang zwischen dem Auftreten von Darmkrebs und Alter.

Abbildung 9: Cramer’s V und Kontingenz-Koeffizient

Abbildung 9: Cramer’s V und Kontingenz-Koeffizient

In Abbildung 9 sind der Koeffizient Cramer’s V und der Kontingenz-Koeffizient sowie die dazugehörigen p-Werte dargestellt. Da es sich um signifikante, positive Koeffizienten handelt, besteht ein positiver Zusammenhang zwischen dem Auftreten von Darmkrebs und Alter.

4. SPSS-Befehle

SPSS-Datensatz: Verwendeter Beispieldatensatz zum Chi-Quadrat-Unabhängigkeitstest.sav

Klicksequenz: Analysieren > Deskriptive Statistiken > Kreuztabellen

Syntax: CROSSTABS TABLES

5. Literatur

Field, A. (2009). Discovering statistics using SPSS. London: Sage Publications, Inc.
Gravetter, F. J. & Wallnau, L. B. (2009). Statistics for the behavioral sciences. Belmont: Wadsworth Cengage Learning.

top