Ressourcen für empirische Methoden

Logistische Regression


entscheidbaum


1. Einführung
2. Vorgehensweise
3. Logistische Regression mit SPSS
4. SPSS-Befehle
5. Literatur

1. Einführung

Die logistischen Regressionsanalysen dienen im Allgemeinen dazu, ein Modell für die Wahrscheinlichkeit des Eintretens bestimmter Ereignissen aufgrund der Ausprägung einer oder mehreren unabhängigen Variablen zu entwickeln. Die unabhängigen Variablen können jedes beliebiges Skalenniveau aufweisen und müssen innerhalb einer Gleichung nicht einheitlich sein. Ist die abhängig Variable dichotom (mit zwei Ausprägungen), kommt die binäre logistische Regression zum Einsatz. Eine multinomiale logistische Regression kommt dann zum Einsatz, wenn eine nominalskalierte, abhängige Variable mit mehr als zwei Kategorien vorliegt. Wenn die abhängige Variable ordinalskaliert ist und mehr als zwei Kategorien aufweist, kann eine ordinale logistische Regression berechnet werden. Im vorliegenden Kapitel wird ausschliesslich auf die binäre logistische Regression eingegangen, die in der Forschungspraxis unter den logistischen Regressionsanalysen am häufigsten eingesetzt wird.

2. Vorgehensweise

Mit folgender Fragestellung wird im vorliegenden Kapitel die Vorhergehensweise bei einer logistischen Regressionsanalyse näher erläutert:

Welche Variablen beeinflussen bei Patienten, die auf der Intensivstation aufgenommen wurden, die Wahrscheinlichkeit, zu überleben?

Im Beispiel geht es darum, die unterschiedlichen Einflüsse mehrer unabhängiger Variablen auf die dichotome Variable Vitalstatus (mit den zwei Ausprägungen „lived“ und „died“) mittels binärer logistischen Regression zu untersuchen. Dabei geht es nicht darum, den konkreten Wert einer abhängigen Variablen zu schätzen, wie bei den linearen Regressionsanalysen, sondern um die Schätzung der Wahrscheinlichkeit des Eintretens bestimmter Ereignissen.

Der Ablauf einer logistischen Regressionsanalyse kann in fünf Schritten zusammengefasst werden, die im Folgenden beschrieben werden.

2.1 Modellformulierung

Im Beispiel ist die abhängige Variable dichotom und kann zwei Ausprägungen annehmen: 0 („Lived“) oder 1 („Died“). Abbildung 1 ist eine denkbare Verteilung für eine unabhängige und eine abhängige Variable dargestellt.

Abbildung 1: Beispielverteilung

Abbildung 1: Beispielverteilung

In Abbildung 2 wird der Versuch angezeigt, den dargestellten Daten eine Regressionsgerade hinzuzufügen.

Abbildung 2: Beispielverteilung mit Regressionsgerade

Abbildung 2: Beispielverteilung mit Regressionsgerade

Aus Abbildung 2 ist ersichtlich, dass die Daten durch die Regressionsgerade nicht optimal repräsentiert sind. Die Gerade geht beispielsweise auch über Werte, die grösser als 1 und kleiner als 0 sind. Anstatt einer Regressionsgeraden ist als Anpassungsfunktion der dargestellten Daten eine logistische Funktion angebracht, die nur Werte zwischen 0 und 1 annehmen kann. In Abbildung 3 ist die logistische Funktion für die Beispielverteilung dargestellt:

Abbildung 3: Beispielverteilung mit logistischer Funktion

Abbildung 3: Beispielverteilung mit logistischer Funktion

Die logistische Funktion gibt die Eintrittswahrscheinlichkeit eines Ereignisses an und nicht die Schätzung der Werte der abhängigen Variablen. Sie wird mit folgender Gleichung berechnet:

Abbildung 4: Logistische Funktion

Abbildung 4: Logistische Funktion

wobei
p = Wahrscheinlichkeit
e = Eulersche Zahl (ungefähr 2.718)

Die Variable z wird durch folgende Gleichung definiert:

Abbildung 5: Logistische Regressionsgleichung

Abbildung 5: Logistische Regressionsgleichung

wobei
k = Fall (Ereignis)
β = Koeffizienten
j = Anzahl unabhängige Variablen
xj,k = Ausprägung der unabhängigen Variable j bei Fall (Ereignis) k
uk = Fehlerterm

Die z-Werte werden auch als Logits und die Koeffizienten als Logit-Koeffizienten bezeichnet. Die Logit-Koeffizienten widerspiegeln die Stärke des Einflusses der unabhängigen Variablen.

Um ein Modell zur Berechnung einer logistischen Regression zu formulieren, muss im Allgemeinen zunächst bestimmt werden, welche Faktoren einen Einfluss auf die Wahrscheinlichkeit des Eintretens des interessierten Ereignisses haben könnten. Um die Beispielfragestellung zu untersuchen, müssen demnach zunächst die Faktoren bestimmt werden, die bei Patienten, die auf der Intensivstation aufgenommen wurden, einen Einfluss auf die Wahrscheinlichkeit haben könnten, zu überleben bzw. zu versterben.

Die Fragestellung wird anhand des Datensatzes aus Hosmer & Lemeshow (2000) untersucht, der zahlreiche Variable enthält. Dabei wurden aus didaktischen Gründen, durch einen vorangehenden Prozess, 10 Variablen selektioniert und in das Modell aufgenommen. Die Stichprobe setzt sich aus 200 Personen zusammen, die auf der Intensivstation aufgenommen wurden.

Das entsprechende Modell sieht so aus:

Abbildung 6: Beispielmodell. Anmerkung: ICU = „Intensive Care Unit“, CPR = „Cardiopulmonary resuscitation“

Abbildung 6: Beispielmodell. Anmerkung: ICU = „Intensive Care Unit“, CPR = „Cardiopulmonary resuscitation“

Im Beispielmodell werden folgende Variablen berücksichtigt: Die erste unabhängige Variable ist das Alter und ist intervallskaliert. Die zweite unabhängige Variable stellt das Geschlecht dar. Die dritte unabhängige Variable „Service at Intensive Care Unit admission“ hat die Ausprägungen „medical“ oder „surgical“. Die vierte („History of chronic renal failure“), fünfte („Infection probable at ICU admission“) und sechste unabhängige Variable („Cardiopulmonary resuscitation prior to ICU admission“) sind dichotom mit den Ausprägungen „no“ oder „yes“. Die siebte unabhängige Variable stellt den systolischen Bludruck (in mm Hg) dar und ist intervallskaliert. Die achte unabhängige Variable („Type of admission“) weist die Ausprägungen „elective“ oder „emergency“ auf. Die neunte unabhängige Variable („Creatinine from initial blood gases“) hat zwei Ausprägungen, die durch einen Cut-Off-Wert der Creatinwerte definiert sind. Die zehnte unabhängige Variable („Level of consciousness at admission“) hat die Ausprägungen „no coma or stupor“, „deep stupor“ oder „coma“.

2.2 Schätzung der logistischen Regressionsfunktion

In diesem Abschnitt wird aufgrund von empirischen Daten eine bestimmte Regressionsfunktion geschätzt. Bei der logistischen Regression erfolgt die Schätzung mittels logarithmierter Likelihood-Funktion. Im Beispiel wird von SPSS folgende Gleichung für z ausgegeben:

z = -3.98 + 0.03×1 – 0.25×2 – 0.11×3+ 0.44×4+ 0.20×5 + 0.55×6 – 0.01×7 + 1.84×8 + 0.55×9 + 1.74×10

wobei
z = Logit
x1 = Patient’s age in years (AGE)
x2 = Patient’s sex (SEX)
x3 = Service at ICU admission (SER)
x4 = History of chronic renal failure (CRN)
x5 = Infection probable at ICU admission(INF)
x6 = Cardiopulmonary resuscitation prior to ICU admission (CPR)
x7 = Systolic blood pressure at ICU admission in mm Hg (SYS)
x8 = Type of admission (TYP)
x9 = Creatinine from initial blood gases (CRE)
x10 = Level of consciousness at admission (LOC)

Die Regressionskoeffizienten oder Logit-Koeffizienten widerspiegeln die Stärke des Einflusses der unabhängigen Variablen auf die Eintrittswahrscheinlichkeit des Ereignisses (im Beispiel: Wahrscheinlichkeit, dass die Patienten versterben).

2.3 Interpretation der Regressionskoeffizienten

Die Regressionskoeffizienten einer logistischen Regression können nicht auf dieselbe Art und Weise interpretiert werden wie Koeffizienten einer linearen Regressionsanalyse (beispielsweise „erhöht sich die unabhängige Variable X1 um 1, dann erhöht sich die abhängige Variable um β1“). Der Zusammenhang zwischen unabhängigen und abhängigen Variablen sind bei der logistischen Regressionsanalyse nicht linear, d.h. die Wirkung der unabhängigen Variablen variiert über den Wertebereich: Eine Erhöhung der unabhängigen Variable X1 von 1 auf 2 kann sich anders auf die abhängige Variable auswirken, als ein Erhöhung von 3 auf 4. Zudem sind die Logit-Koeffizienten der unabhängigen Variablen untereinander nicht vergleichbar.

Bei einer logistischen Regression führen negative Regressionskoeffizienten bei steigenden x-Werten zu einer kleineren relativen Wahrscheinlichkeit und positive Regressionskoeffizienten zu einer grösseren relativen Wahrscheinlichkeit des Eintretens des Ereignisses.

Bei der logistischen Regression werden nicht die Koeffizienten direkt interpretiert, sondern die so genannten Odds (Wahrscheinlichkeitsverhältnisse). Diese sind Quotienten der Eintrittswahrscheinlichkeit für ein Ereignis (y = 1) und der Gegenwahrscheinlichkeit (y = 0). Die Odds werden mit folgender Formel berechnet:

Abbildung 7: Berechnung der Odds

Abbildung 7: Berechnung der Odds

wobei
p(a)= Eintrittswahrscheinlichkeit für Ereignis a

Bei der logistischen Regression gilt folgender Zusammenhang:

Abbildung 8: Logit-Berechnung

Abbildung 8: Logit-Berechnung

Die Logits einer logistischen Regression stellen die logarithmierten Odds dar. Die Odds Ratio sind das Verhältnis zweier Odds. Bei der Berechnung einer logistischen Regression gibt SPSS die Odds Ratio für jede Variable aus. Diese werden mit Exp(B) bezeichnet. Im Gegensatz zu den Logit-Koeffizienten, können Odds Ratios der unabhängigen Variablen untereinander verglichen weren.

Allgemein wird in der Fachliteratur folgende Interpretation der Regressionskoeffizienten vorgeschlagen:

Tabelle 1: Interpretation von Koeffizienten bei der logistischen Regression

Tabelle 1: Interpretation von Koeffizienten bei der logistischen Regression

Im Beispiel wird in SPSS für die unabhängige Variable Alter einen Odds Ratio von 1.03 angegeben (siehe Kapitel 3: „Logistische Regression mit SPSS“). Ein Patient, der auf der Intensivstation aufgenommen wurde und ein Jahr älter ist als ein Referenzpatient, hat demnach im Durchschnitt eine ungefähr um 3% kleinere relative Überlebenswahrscheinlichkeit. Das Odds Ratio der unabhängigen Variable „Type of admission“ beträgt 6.29. Dieser Wert kann folgendermassen interpretiert werden: Statistisch gesehen haben Patienten, die notfallmässig auf der Intensivstation aufgenommen wurden, eine 6.29mal grössere relative Wahrscheinlichkeit zu versterben, im Vergleich zu Patienten, die aus eigener Initiative gekommen sind.

2.4 Prüfung des Gesamtmodells

Nachdem die logistische Regressionsfunktion berechnet wurde, folgt die Prüfung des Modells. Dabei wird darauf geachtet, ob die Daten durch das Modell hinreichend repräsentiert werden. Das Gesamtmodell kann hierzu anhand des so genannten 2LL-Wertes (2-fache „Log Likelihood“) geprüft werden. In SPSS wird dabei zunächst ein Basismodell berechnet, in dem nur Konstanten einfliessen und alle Regressionskoeffizienten gleich 0 sind. Im nächsten Schritt wird das Modell mit sämtlichen Variablen berechnet. In SPSS werden die 2LL-Werte beider Modelle angegeben, sowie die Differenz zwischen den beiden Werten. Diese Differenz wird anhand des Chi²-Tests auf Signifikanz überprüft.

Im Beispiel gibt SPSS für das Basismodell einen 2LL-Wert von 200.16 und für das Modell mit allen Variablen einen 2LL-Wert von 146.36 aus (siehe Kapitel 3: „Logistische Regression mit SPSS“). Der Differenzwert beträgt 53.80 und ist signifikant (p-Wert kleiner als .05). Mindestens einer der Regressionskoeffizienten der unabhängigen Variablen ist demnach ungleich 0.

Bei der logistischen Regression stellt das R² (auch „Pseudo-R²“ genannt) einen Versuch dar, die durch die unabhängigen Variablen erklärte Varianz der abhängigen Variable zu quantifizieren. Das R² wird, obwohl anders berechnet, analog zum Bestimmtheitsmass R² der linearen Regression interpretiert. Für die Beispieldaten gibt SPSS einen Nagelkerke-R² von .373 aus (siehe Kapitel 3: „Logistische Regression mit SPSS“). Das Nagelkerke-R² kann Werte zwischen 0 und 1 annehmen. Werte über .5 werden in der Literatur als sehr gut beschrieben. Das Nagelkerke-R² von .373 des Beispiels deutet darauf hin, dass die Varianz der abhängigen Variable durch die unabhängigen Variablen nicht optimal aufgeklärt werden kann.

2.5 Prüfung der Merkmalsvariablen

Die im Abschnitt 2.4 besprochenen Statistiken prüfen, ob das Gesamtmodell geeignet ist, die Daten zu beschreiben. Dabei deutet ein signifikantes Ergebnis darauf hin, dass mindestens einer der Regressionskoeffizienten der untersuchten Variablen grösser als 0 ist. In einem nächsten Schritt werden die Koeffizienten einzeln auf Signifikanz überprüft.

Dazu dient die von SPSS ausgegebene Wald-Statistik. Sie testet die Nullhypothese, dass die einzelnen Regressionskoeffizienten der unabhängigen Variablen gleich 0 sind. Die Wald-Statistik wird anhand folgender Formel berechnet:

Abbildung 9: Berechnung der Waldstatistik

Abbildung 9: Berechnung der Waldstatistik

wobei
j = Index der unabhängigen Variablen
βj = Regressionskoeffizient
sβ=Standardfehler des Regressionskoeffizienten

Die berechnete Wald-Statistik stellt der quadrierte Regressionskoeffizienten dividiert durch den Standardfehler dar und wird anhand des Chi²-Tests auf Signifikanz überprüft. Die Wald-Statistiken mit den p-Werten der unabhängigen Variablen des Beispiels sind in Abschnitt 3 („Logistische Regression mit SPSS) in Abbildung 16 dargestellt.

3. Logistische Regression mit SPSS

SPSS gibt bei der Berechnung einer logistischen Regression unter anderem folgende Abbildungen aus:

Abbildung 10: 2LL-Wert des Basismodells

Abbildung 10: 2LL-Wert des Basismodells

Abbildung 10 „Iterationsprotokoll“ für den „Anfangsblock“ ist der 2LL-Wert für das Basismodell ohne unabhängige Variablen dargestellt.

Abbildung 11: Klassifizierungstabelle des Basismodells

Abbildung 11: Klassifizierungstabelle des Basismodells

In Abbildung 11 sind die Klassifizierungstabelle des Basismodells ohne Berücksichtigung der unabhängigen Variablen dargestellt.

Abbildung 12: 2LL-Werte und Regressionskoeffizienten der verschiedenen Schritten

Abbildung 12: 2LL-Werte und Regressionskoeffizienten der verschiedenen Schritten

In Abbildung 12 sind die 2LL-Werte für das Modell mit allen Variablen dargestellt. Ausserdem sind die Werte der Regressionskoeffizienten sämtlicher Variablen abgebildet, die in sechs Schritten berechnet wurden. Dabei ist die unterste Zeile relevant. Da sind die Regressionskoeffizienten des letzten Schrittes dargestellt.

Abbildung 13: Signifikanz für das Gesamtmodell

Abbildung 13: Signifikanz für das Gesamtmodell

In Abbildung 13 „Omnibus-Tests der Modellkoeffizienten“ wird angezeigt, ob das Modell als ganzes signifikant ist. Die unabhängige Variablen wurden alle auf einmal ins Modell eingeführt („blockweise“ Einschluss). Deswegen sind alle Werte in der Tabelle identisch.

Abbildung 14: Klassifizierungstabelle des Modells unter Berücksichtigung der UVs

Abbildung 14: Klassifizierungstabelle des Modells unter Berücksichtigung der UVs

In Abbildung 14 wird angezeigt, dass 85.0% der Patienten mit dem Modell hinsichtlich der abhängigen Variablen richtig klassifiziert werden konnten. Dabei konnten die Patienten, die überlebt haben, treffsicherer zugeordnet werden (98.1% richtig) als Patienten, die verstorben sind (32.5% richtig). Der Wert von 85.0% richtig zugeordneten Patienten liegt über dem Anteil von 80.0% aus der Klassifizierungstabelle des Basismodells (siehe Abbildung 11), indem die unabhängigen Variablen nicht berücksichtigt wurden. Die Vorhersagekraft des Gesamtmodells unter Berücksichtigung der unabhängigen Variablen hat sich im Vergleich zum Basismodell allerdings nur leicht verbessert (um 5%).

Abbildung 15: 2LL-Wert und Nagelkerkes-R²

Abbildung 15: 2LL-Wert und Nagelkerkes-R²

In Abbildung 15 ist der 2LL-Wert des Gesamtmodells und der Nagelkerkes-R² abgebildet.

Abbildung 16: Regressionskoeffizienten und Odds Ratio

Abbildung 16: Regressionskoeffizienten und Odds Ratio

In Abbildung 16 sind nochmals die Regressionskoeffizienten, die Odd Ratios sowie die p-Werte sämtlicher Variablen dargestellt. Die unabhängigen Variablen Alter, „Type of admission“ und „Level of consciousness at admission“ weisen p-Werte auf, die kleiner als .05 sind. Die Regressionskoeffizienten dieser Variablen sind signifikant. Es kann davon ausgegangen werden, dass bei Patienten, die auf der Intensivstation aufgenommen wurden, diese unabhängige Variable einen signifikanten Einfluss auf die Wahrscheinlichkeit haben, zu versterben.

4. SPSS-Befehle

SPSS-Datensatz: Verwendeter Beispieldatensatz zum Logistische-Regression.sav

Klicksequenz: Analysieren > Regression > Binär Logistisch

Syntax: LOGISTIC REGRESSION

Syntax der Beispielberechnungen:
LOGISTIC REGRESSION VARIABLES STA
/METHOD=ENTER AGE SEX SER CRN INF CPR SYS TYP CRE LOC
/PRINT=ITER(1)
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5).

5. Literatur

Field, A. (2009). Discovering statistics using SPSS. London: Sage Publications, Inc.
Hosmer, D.W. & Lemeshow, S. (2000). Applied Logistic Regression. New York: Wiley.
Tabachnick, G.G. & Fidell, L.S. (2007). Using Multivariate Statistics. Boston: Pearson Educational

top