Ressourcen für empirische Methoden

Einfache Regression


entscheidbaum


1. Einführung
2. Vorgehensweise
3. Einfache Regression mit SPSS
4. SPSS-Befehle
5. Literatur

1. Einführung

Die einfache lineare Regressionsanalyse eignet sich einerseits zur Messung des Einflusses eines Merkmals auf ein anderes und kann anderseits zur Vorhersage eines Merkmals durch ein anderes herangezogen werden. Voraussetzung ist hierbei, dass beide Variablen ein intervallskaliertes Skalenniveau aufweisen und normalverteilt sind. Eine einfache lineare Regressionsanalyse wird immer dann einer bivariaten Korrelationsanalyse vorgezogen, wenn eine Aussage über die vermutete Richtung des Zusammenhangs gemacht werden kann. Im Gegensatz zur Multiplen Regressionsanalyse mit mehreren unabhängigen Variablen untersucht die einfache lineare Regressionsanalyse den Einfluss genau einer unabhängigen Variable auf die abhängige Variable.

Problemstellung

Bei vielen Fragestellungen ist die Richtung des Zusammenhanges ziemlich eindeutig. So ist anzunehmen, dass die verkaufte Menge an Regenschirmen vom Wetter abhängig ist und nicht umgekehrt. Bei anderen Fragestellungen ist die Richtung jedoch nicht so eindeutig. Die Kausalität lässt sich mit einer Regression jedoch nicht beweisen. Es ist deshalb wichtig, die angenommene Richtung des Zusammenhanges theoretisch gut zu begründen. Mit Hilfe der Regressionsanalyse lassen sich folgende Arten von Problemstellungen bearbeiten:

  1. Die Ursachenanalyse untersucht die Stärke des Einflusses der unabhängigen auf die abhängige Variable
  2. Die Wirkungsanalyse geht der Frage nach, wie die abhängige Variable auf eine Änderung der unabhängigen Variablen reagiert
  3. Die Prognose erlaubt Vorhersagen der abhängigen für neue Werte der unabhängigen Variable

Die einfache Regressionsanalyse eignet sich demzufolge für Hypothesen wie zum Beispiel „Verändert sich die Effizienz einer Person, wenn diese/dieser am Arbeitsplatz einer starken Lärmbelastung ausgesetzt ist“, „Wie verändert sich die Effizienz einer Person, wenn diese/dieser am Arbeitsplatz einer starken Lärmbelastung ausgesetzt ist.“ „Steigt die Lärmbelastung am Arbeitsplatz um X, so verändert sich die Effizienz um Y.“

Hinweis: Für die abhängige Variable wird auch häufig der Begriff Regressand, für die unabhängige Variable häufig der Begriff Regressor verwendet.

2. Vorgehen

Das Vorgehen bei einer Regressionsanalyse soll nun an folgender möglicher Fragestellung aus dem Bereich Marketing erläutert werden.

Beeinflusst die Höhe der Werbeausgaben für ein bestimmtes Produkt die Anzahl der verkauften Produkte?

Es wird ein linearer Zusammenhang zwischen den Werbeausgaben in CHF und der Anzahl verkaufter Produkte angenommen. Es kann somit vermutet werden, dass je höher die Werbeausgaben ausfallen, desto mehr Produkte verkauft werden. Ziel ist es zu untersuchen, in welchem Masse sich die Werbeausgaben auf die Verkaufszahlen des Produktes auswirken.

2.1 Hypothesenformulierung

Um die Forschungsfrage statistisch zu überprüfen, werden Hypothesen aufgestellt. Dabei werden erstens Hypothesen zur Überprüfung des Gesamtmodells und zweitens Hypothesen zu Überprüfung der einzelnen Regressionskoeffizienten ausformuliert. Es soll damit möglich sein zu klären, ob die Regressionsgleichung der Stichprobe auf die Grundgesamtheit verallgemeinert werden kann.

1. Die Nullhypothese und die Alternativhypothese für das Gesamtmodell lauten wie folgt:

einfache-regression-tab1

Wobei die Gleichung einer einfachen linearen Regression sich wie folgt formulieren lässt:

einfache-regression-gleichung1

Hinweis: Die Regressionsgerade ist diejenige Gerade, die die Summe der quadrierten Vorhersagefehler (Fehlerterm) minimiert. Es gibt stets genau eine solche Gerade.

2. Die Nullhypothese und die Alternativhypothese für die einzelnen Regressionskoeffizienten lauten wie folgt:

einfache-regression-tab2

Zur Überprüfung der Hypothese werden Daten herangezogen (vgl. Tabelle 1: Beispieldatei).

Tabelle1: Beispieldatei

Tabelle1: Beispieldatei

 

 

 

Abbildung 1: Streudiagramm

Abbildung 1: Streudiagramm

Das Streudiagramm lässt vermuten, dass ein linearer Zusammenhang zwischen den Variablen „Werbeausgaben“ und „Anzahl verkaufter Produkte“ besteht.

2.2 Berechnungen der Regressionsgeraden

Das Ziel der einfachen linearen Regressionsanalyse ist die Berechnung bzw. die Schätzung der Regressionsgleichung. Bei einem perfekten linearen Zusammenhang würden alle Punkte auf einer Geraden liegen. In Abbildung 1: Streudiagramm ist jedoch ersichtlich, dass keiner der Datenpunkte genau auf der Geraden liegt. Diese Vorhersagefehler, dass heisst die Differenz zwischen dem jeweiligen beobachteten Wert (Datenpunkt) und dem durch die Regressionsgerade vorhergesagten Wert, werden als Residuen bezeichnet. Es soll deshalb eine Gerade ermittelt werden, welche die Summe der Residuen minimiert. Im Allgemeinen wird hierzu die sogenannte Ordinary Least Squares Method (OLS) verwendet. Hierbei werden die Residuen aller Datenpunkte quadriert, summiert und die Summe dann minimiert. Die Residuen werden quadriert, damit grössere Abstände stärker gewichtet werden und sich positive und negative Abstände nicht aufheben. Dieses Verfahren liefert die besten Schätzwerte der Koeffizienten der Grundgesamtheit.

Güte des Regressionsmodells

Das Bestimmtheitsmass R2 gibt an, wie gut die Regressionsfunktion zu den empirischen Daten passt. Dies wird anhand der oben erwähnten Residuen bestimmt. Allgemein gibt R2 an, welcher Anteil der Varianz der abhängigen Variable durch die Regressionsfunktion erklärt wird, wobei R2 als standardisiertes Mass Werte zwischen 0 und 1 annehmen kann.

einfache-regression-tab4

Hinweis: Nimmt R2 den maximalen Wert von 1 an, ist der lineare Zusammenhang perfekt. Das bedeutet, dass alle Regressionsresiduen gleich Null sind.

Der Wert von R2 hat die Eigenschaft, mit der Anzahl der unabhängigen Variablen anzusteigen. Dies ist unabhängig davon, ob weitere unabhängige Variablen wirklich einen Beitrag zur Erklärungskraft liefern. Das korrigierte Bestimmtheitsmass R2korr trägt diesem Sachverhalt Rechnung.

Hinweis: Im Fall einer einfachen linearen Regression lässt sich das Bestimmtheitsmass R2 alternativ als Quadrat der Korrelation r zwischen den beobachten und den geschätzten Werten der abhängigen Variable berechnen.

2.3 Durchführen des Hypothesentest

Damit ein Merkmal in einer Stichprobe sinnvoll durch eine Regressionsgleichung vorausgesagt werden kann, muss diese auf die Grundgesamtheit generalisierbar sein. Die Überprüfung der Regressionsfunktion sowie der einzelnen Regressionskoeffizienten auf Signifikanz erlaubt eine solche Verallgemeinerung.

  1. Mit Hilfe des F-Tests lässt sich überprüfen, ob das geschätzte Modell auch für die zugrunde liegende Grundgesamtheit Gültigkeit besitzt. Um die Generalisierbarkeit der Regressionsfunktion zu prüfen, muss die berechnete F-Teststatistik mit dem theoretischen Wert aus der Wahrscheinlichkeitsverteilung verglichen werden. Ist der berechnete F-Wert höher als der kritische F-Wert, der zu dem im Voraus festgelegten Signifikanzniveau α gehört, kann die Nullhypothese verworfen werden, dass die Regressionskoeffizienten (β0, β) als Gruppe gleich Null sind. Der F-Test erlaubt demzufolge eine Aussage über die Signifikanz des gesamten Regressionsmodells.
  2. Neben der Überprüfung des Regressionsmodells als Ganzes lassen sich auch die einzelnen Regressionskoeffizienten auf Signifikanz testen. Diese Überprüfung der Regressionskoeffizienten wird mit Hilfe der t-Statistik durchgeführt. Auch hier wird der berechnete Wert mit dem theoretischen Wert einer Wahrscheinlichkeitsfunktion verglichen, in diesem Fall mit der aus der t-Verteilung. Übersteigt der empirische Wert den kritischen Wert für das festgelegte Signifikanzniveau α, kann die Nullhypothese verworfen werden, dass der Regressionskoeffizent gleich Null ist.

2.4 Prüfung der Modellvoraussetzungen

Neben der Voraussetzung normalverteilter und intervallskalierter Variablen setzt das lineare Regressionsmodell die Erfüllung verschiedener Annahmen voraus, die der Berechnung einer linearen einfachen Regressionsanalyse zugrunde liegen. Diese sogenannten Gauss-Markov Kriterien gewährleisten, dass die OLS Schätzung den Best, Linear, Unbiased Estimator (BLUE) der Parameter (β0, β1) der Grundgesamtheit erzeugt.

Dies sind die (vgl. Wooldridge (2005))…

Einfache Regression Tabelle 1  Einfache Regression Tabelle 2

Einfache Regression Tabelle 3

Abbildung 2: Streudiagramm

Abbildung 2: Streudiagramm

Abbildung 3: Streudiagramm standardisierte Residuen

Abbildung 3: Streudiagramm standardisierte Residuen

Abbildung 4: Histogramm standardisierte Residuen

Abbildung 4: Histogramm standardisierte Residuen

3. Einfache Regression mit SPSS

Die folgenden Abbildungen zeigen die Ergebnisse der einfachen linearen Regression in der Reihenfolge wie SPSS sie ausgibt.

Abbildung 5: Bestimmtheitsmass

Abbildung 5: Bestimmtheitsmass

Der Wert des korrigierten R2 beträgt .650 (vgl. Abbildung 5: Bestimmtheitsmass). Dies bedeutet, dass 65% der Varianz der Variable „Anzahl verkaufter Produkte“ durch das Regressionsmodell erklärt werden kann.

Abbildung 6: Prüfung der Regressionsfunktion

Abbildung 6: Prüfung der Regressionsfunktion

Aus der Tabelle in Abbildung 6: Prüfung der Regressionsfunktion kann der F-Wert und das dazugehörige Signifikanzniveau (p-Wert) abgelesen werden. Dabei gilt die Faustregel, dass der ausgegebene p-Wert kleiner als .050 sein sollte. SPSS gibt für dieses Beispiel eine F-Statistik von 17.732 und eine Signifikanz (p-Wert) von .003 an. Da dieser p-Wert kleiner als .050 ist, kann davon ausgegangen werden, dass ein statistischer Zusammenhang zwischen den Variablen „Werbeausgaben“ und „Anzahl verkaufte Produkte“ besteht.

Abbildung 7: Prüfung der Regressionskoeffizienten

Abbildung 7: Prüfung der Regressionskoeffizienten

Aus der Abbildung 7: Prüfung der Regressionskoeffizienten können die Regressionskoeffizienten der Regressionsgeraden und der standardisierten Regressionsgleichung abgelesen werden. Der obere Wert (angeschrieben mit Konstante) in der roten Spalte stellt den Y-Achsenabschnitt, der untere Wert (angeschrieben mit ausgaben) die Steigung der Geraden dar. In der blau markierten Spalte stehen die standardisierten Regressionskoeffizienten. Da die standardisierte Gerade keinen Y-Achsenabschnitt hat, gibt es für die Konstante hier keinen Wert. In der letzten Spalte lässt sich das Signifikanzniveau der Regressionskoeffizienten ablesen.

Mit Hilfe der Regressionskoeffizienten aus Abbildung 7: Prüfung der Regressionskoeffizienten lässt sich die Regressionsgerade in unserem Beispiel berechnen. Die Konstante β0 ist in diesem Modell nicht signifikant. Im Falle der einfachen linearen Regression stellt dies kein Problem dar. Ein nicht signifikanter β0 Wert bedeutet, dass die Regressionslinie die Y-Achse beim Nullpunkt schneidet und damit durch den Ursprung verläuft. Der unstandardisierte Regressionskoeffizient β für „Anzahl verkaufter Produkte“ ist signifikant verschieden von Null (p=.003) und hat einen Wert von .830. Die geschätzte Regressionsfunktion lautet im vorliegenden Fall:

y = .830x oder „Anzahl verkaufte Produkte“ = .830 × „Werbeausgaben“

Eine Erhöhung der Werbeausgaben um 1 CHF hätte demzufolge einen Anstieg der Anzahl verkaufter Produkte um 0.830 Produkte zur Folge.

Hinweis: Bei dieser Darstellung der Regressionsgeraden ist darauf zu achten, welche Einheiten die Variablen haben. Es ist daher nicht möglich, Aussagen über die Stärke des Zusammenhanges anhand des Wertes von β zu machen. Auch lassen sich die Regressionskoeffizienten von verschiedenen Untersuchungen nicht miteinander vergleichen. SPSS gibt neben den unstandardisierten auch die standardisierten Regressionskoeffizienten an (vgl. Abbildung 7: Prüfung der Regressionskoeffizienten). Bei einer standardisierten Gleichung ist der Wert der Konstante β0 = 0, das heisst die Gerade läuft durch den Ursprung. Mit Hilfe der standardisierten Gleichung lässt sich feststellen, wie stark der Zusammenhang ist und ob dieser signifikant ist. Besonders für eine multiple Regressionsanalyse ist die standardisierte Gleichung von grosser Bedeutung, da nur mit ihr festgestellt werden kann, welche unabhängige Variable den stärksten Einfluss auf die abhängige Variable hat. Es lässt sich mit dieser Gleichung jedoch keine Schätzungen der abhängigen Variablen berechnen.

4. SPSS-Befehle

Klicksequenz:
Regression: Analysieren ► Regression ► Linear
Streudiagramm: Diagramme ► Diagrammerstellung ► Einfaches Streudiagramm
(Für die Regressionsgerade im SPSS-Output auf das Diagramm doppelklicken und Anpassungslinie bei Gesamtwert auswählen)

Syntax:
Regression: REGRESSION
Histogramm: /RESIDUALS HISTOGRAM(ZRESID)
Streudiagramm Residuen: /SCATTERPLOT=(*ZRESID ,*ZPRED)

5. Literatur

Field, Andy (2009). Discovering Statistics using SPSS. 197-263.
Wooldridge, Jeffrey M. (2005). Introductory Econometrics. A modern Approach (2nd edition).

top