Logistische Regression zum Thema "Chronische Krankheiten" unter SPSS

From Teachwiki
Jump to: navigation, search

Einleitung zum Thema: Chronische Krankheiten[edit]

Mit der Einführung der Gesundheitsreform im Jahre 2000 wurde eine nationale Diskussion über das Gesundheitswesen in Gang gesetzt, die sämtliche soziale Schichten innerhalb Deutschlands betreffen. Die Reform betrifft insbesondere Patienten mit chronischen Krankheiten, die auf besondere Versorgung der Ärzte bezüglich der Medikamentation, sowie psychischer und physischer Betreuung angewiesen sind. Nun stellt sich natürlich die Frage, was man unter dem Begriff "chronische Erkrankung" zu verstehen hat:

Eine chronische Krankheit ist eine Krankheit, die

  • einen langwierigen Verlauf hat
  • in der Regel mit Komplikationen verbunden ist
  • nicht selten mit geringerer Lebenswartung einher geht
  • asymptomatisch oder symptomatisch sein kann und
  • für den Behandler eine Herausforderung ist.


Eine genaue Definition schwerwiegender chronischer Krankheiten ist sogar im Gesetz (vom 22.Januar 2004) verankert, welches im § 62 des Fünften Sozialgesetzbuches zu finden ist.
Warum gerade die Betrachtung von chronischen Erkrankungen so wichtig ist, machen folgende Fakten deutlich:

  • die Hälfte aller stationär und ambulant behandelten sind chronisch krank
  • der Anteil von chronisch Kranken an der Bevölkerung liegt bei 40 % und
  • Chronische Krankheiten machen 3/4 der Gesundheitskosten aus.


Die Folgen für den Patienten und nicht zuletzt auch für die Gesellschaft sind ebenfalls von erheblicher Bedeutung, u.a. sind dies regelmäßige Arztbesuche, medikamentöse Einstellung, Schulung, sowie regelmäßige Kontrollen zur Sekundärprävention.
(aus http://www.uke.uni-hamburg.de/institute/allgemeinmedizin/downloads/institut-allgemeinmedizin/VLchronKHkurz.pdf)


Beschreibung der Daten[edit]

Für die Analyse wird der Datensatz der "Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften" (ALLBUS) vom Jahre 2004 verwendet. Mit dieser Umfrage werden aktuelle Daten über Einstellungen, Verhaltensweisen und Sozialstruktur der Bevölkerung in der Bundesrepublik Deutschland erhoben. Seit 1980 wird alle zwei Jahre ein repräsentativer Querschnitt der Bevölkerung mit einem teils stetigen, teils variablen Fragenprogramm befragt (aus http://www.gesis.org/Dauerbeobachtung/Allbus)
Die Daten weisen die Besonderheit auf, dass die Befragten aus den neuen Bundesländern überpäsentiert sind.
Desweiteren umfasst der Datensatz 2946 Beobachtungen und 895 Variablen, wobei der größte Teil ordinal- bzw. nominal skaliert ist.


Die logistische Regression[edit]

Das Modell[edit]

Die logistische Regression ist ein multivariates Verfahren zur statistischen Modellierung der Abhängigkeit einer kategorialen abhängigen Variablen von einer Reihe erklärender (unabhängiger) Variablen.
Da im Folgenden der einfachste Fall, d.h die abhängige Variable ist binär kodiert (es existieren auschließlich die Ausprägungen 0 und 1), betrachtet wird, spricht man von einer Binär-logistischen Regressionsanalyse.
Auf die Mutlinomial-logistische Regressionsanalyse, bei welcher mehr als 2 Kategorien auftreten, wird hier nicht näher eingegangen.

Die logistische Regression versucht hier speziell mit Hilfe eines Regressionsansatzes zu bestimmen, mit welcher Wahrscheinlichkeit eine chronische Krankheit in Abhängigkeit verschiedener Einflussgrößen zu erwarten ist.
Der Regressionsansatz verwendet dabei die Logistische Funktion, die wie folgt definiert ist:

\pi_k = \frac{exp(\eta_k)}{1+exp(\eta_k)}

Durch Umstellen nach exp(\eta_k) erhält man die sogenannten odds, die das Verhältnis der Wahrscheinlichkeit eines Erfolges zur Wahrscheinlichkeit eines Misserfolges darstellen:

exp(\eta_k) =\frac{\pi_k}{1-\pi_k}

Wobei \eta_k = {x_k}^T \beta als Linkfunktion bezeichnet wird, ist also eine Verknüpfung der Erwartungswerte der abhängigen Variablen mit der Linearkombination der \beta`s.
Damit ergibt sich die logistische Regressionsgleichung formal als:

\pi_k = \frac{exp({x_k}^T \beta)}{1+exp({x_k}^T \beta)} = 
\frac{1}{1+exp(-{x_k}^T \beta)}


mit \eta_k = log(\frac{\pi_k}{1-\pi_k}) = {x_k}^T \beta = \sum_j x_{kj}\beta_j


Die Paramter \beta in der Linkfunktion sind unbekannt und müssen mit Hilfe der Maximum-Likelihood-Methode geschätzt werden.


Bei der Betrachtung eines binären Logit Modells mit einer mehrkategorialen (unabhängigen) X-Variable mit h Kategorien ist zu beachten, dass diese Variable nicht ohne Weiteres im Modell anwendbar ist. Um die mehrkategoriale Variable unmittelbar anwenden zu können, müssen die dazugehörigen Kategorien neu kodiert werden. Bei der Neukodierung werden, wie der Name schon verrät, h-1 neue Variablen (sogenannte Kontrast-Variablen) geschaffen. Die Anzahl h-1 ergibt sich aus dem einfachen Grund, dass ein Kategorie die Referenzkategorie darstellt. Zur Bildung von Kontrastvariablen gibt es u.a. die Möglichkeit der Indikator-Kodierung oder der Deviation-Kodierung.
Bei einer Indikator-Kodierung eines binären Logit-Modells mit 3 kategorialen Variablen, wobei die 3. Kategorie als Referenzkategorie dient, wird zunächst die Design-Matrix X erstellt:

 X = \begin{bmatrix} 1 & 1 & 0 \\ 1 & 0 & 1 \\ 1 & 0 & 0 \end{bmatrix}

Dabei dient die Design-Matrix der Aufstellung der Link-Funktion.
Gehört in etwa der Befragte der k-ten Kategorie an, so wird der k-te Zeilenvektor der Design-Matrix mit dem Spaltenvektor des Regressionskoeffiezienten \beta multipliziert. In diesem Beispiel ist

\beta\, = (\beta_0,\beta_{11}\beta_{12})^T

Daraus ergibt sich z.B.:
Gehört der Befragte der Referenzkategorie an, so enthält die Linkfunktion auschließlich die Konstante \beta_0.


Modellanwendung[edit]

Für die Analyse wird das statistische Softwareprogramm SPSS Version 12.0 vewendet.
Vor der Anwendung dieser Software werden zunächst die Anforderungen überprüft, die das Datenmaterial erfüllen sollte:

  • Fallzahl sollte pro Gruppe nicht kleiner als 25 sein
  • größere Zahl an unabhängigen Variablen verlangt auch nach höheren Beobachtunszahlen pro Gruppe
  • unabhängige Variablen sollten weitgehend frei von Multikollinearität sein
  • keine Autokorrelation
  • logistische Wahrscheinlichkeit sollte für die Fragestellung auch auf seine Plausibilität geprüft werden

(aus Backhaus, Erichson, Plinke, Weiber : "Multivariate Analysemethoden" (2003), Springer Verlag)

In der logistischen Regression kommen anstatt der Bestimmheitsmaße für lineare Regressionsmodelle die Pseudo-Bestimmheitsmaße zum Einsatz. Der Grund dafür liegt darin, dass eine Differenzbildung zwischen den beobachteten Werte y_k und den geschätzten Werte \hat\pi_k nicht sinnvoll ist. Die y_k beinhalten die Anzahl der Erfolge wohingegen die \hat\pi_k die Wahrscheinlichkeiten darstellen.

Pseudo-Bestimmheitsmaße sind u.a. das Maß von McFadden, sowie das von Cox/Snell und Nagelkerke.

Das Maß von McFadden vergleicht den maximalen Wert der Log-Likelihood-Funktion des interessierenden Modells mit den maximalen Wert der Log-Likelihood-Funktion eines Modells, welches nur die Konstante enthält.
Hingegen vergleicht das Maß von Cox/Snell und Nagelkerke die Werte der Likelihood-Funktion (LH-Funktion), anstatt die logarithmierte LH-Funktion.

Beide Maße können Werte zwischen 0 und 1 annehmen. Je höher dieser Wert ist, desto besser ist die Güte der Anpassung an die Daten. Da in der Realität ein Wert in der Nähe von 1 nur selten angenommen wird, gilt das Modell bereits bei Werten zwischen 0,2 und 0,4 als gut angepasst, bei einem Wert ab 0,5 liegt eine sehr gute Anpassung vor.


Analyse[edit]

Ziel der Analyse ist es, die Wahrscheinlichkeit des Vorhandenseins einer chronischen Erkrankung (abhängige Variable) mittels bestimmter Informationen (unabhängige Variablen) zu bestimmen.
Als chronische Erkrankung werde folgende Krankheisbilder zusammengefasst:

  • Allergie
  • Migräne
  • Bluthochdruck, Hypertonie
  • Durchblutungsstörung am Herzen
  • Rheuma, Arthritis, Gicht
  • Wirbelsäulenschäden
  • Chronische Bronchitis
  • Asthma
  • Hepatitis, Leberzirrhose
  • Zuckerkrankheit, Diabetes
  • Krebs
  • Osteoporose
  • sonstige chronische Erkrankungen


Der Anteil der chronisch Kranken an der Bevölkerung beträgt 57,8%. Am häufigsten leiden chronisch kranke Patienten unter Wirbelsäulenschäden mit 36,8%, was 21,0% der Gesamtbevölkerung ausmacht. Die Krankheiten Bluthochdruck bzw. Hypertonie treten bei 18,3% in der Gesamtbevölkerung auf, wobei dies bei den chronisch erkrankten Menschen einen Prozentsatz von 31,9 ausmacht.


In die erste Analyse fließen zunächst 8 unabhängige Variablen mit ein:

  • Geschlecht (dichotom)
  • Alter (metrisch)
  • allgemeiner Schulabschluss (mehrkategorial)
  • Rauchen Sie? (dichotom)
  • Body-Maß-Index (mehrkategorial)
  • Konsumhäufigkeit: Bier oder Wein (mehrkategorial)
  • Konsumhäufigkeit: Spirituosen (mehrkategorial)
  • durchschnittlicher Kaffekonsum (metrisch)


Bei kritischer Betrachtung der Fragestellung ist festzustellen, dass diese nicht den eigentlichen Sinn einer logistischen Regression erfüllt. Allgemein dient die Methode der logistischen Regression dazu, unter Kenntnis bestimmter Informationen Prognosen über das Auftreten/Nicht-Auftreten eines Ereignisses erstellen zu können. Dies setzt aber voraus, dass die unabhängigen Variablen die abhängige Variable beeinflussen und nicht(!) umgekehrt.

Im konkreten vorliegenden Fall bedeutet dies folgendes:
Die Variable Kaffekonsum, Alkoholkonsum und Rauchen beispielsweise können nicht als Ursache des Vorliegens einer Erkrankung gewertet werden, da es sich um eine punktuelle Aufnahme der Daten handelt. Zur Ursachenforschung wäre aber eine Längsschnittuntersuchung nötig. So ist bei einer groben explorativen Analyse (hier nicht aufgeführt) zu beobachten, dass kein Zusammenhang besteht bzw. dass tendentiell chronisch kranke Menschen weniger rauchen und sich gesünder ernähren als gesunde Menschen. Letzteres ist offensichtlich damit zu erklären, dass Menschen oft erst nach Auftreten einer Erkrankung beschließen (oder es ärztlich verordnet bekommen), gesünder zu leben. Das wiederum würde bedeuten, dass die abhängige Variable die unabhängigen bedingt. Will man also mit Hilfe der vorhandenen Informationen eine Prognose stellen, setzt diese bereits die Kenntnis über den Ausgang des zu prognostizierenden Ereignisses voraus. Das Ergebnis einer solchen Untersuchung wäre also nur schwer sachlogisch interpretierbar.

In einer zweiten Analyse wurden daher als mögliche Indikatoren Variablen ausgewählt, die nicht die Kenntnis des Ausganges der Untersuchung voraussetzen. Als unabhängige Variable wurden hier gewählt:.

  • Geschlecht (dichotom)
  • Alter (metrisch)
  • allgemeiner Schulabschluss (mehrkategorial)
  • Gesundheitliche Probleme: Alltagstätigkeit (mehrkategorial)
  • Letzte 4 Wochen: Niedergeschlagen (mehrkategorial)
  • Letzte 4 Wochen: Kontakte eingeschränkt (mehrkategorial)
  • Body-Maß-Index (mehrkategorial)

Diese Variablen sind zwar nicht wirklich für die betrachtete Fragestellung interessant, aber sie sind sachlogisch interpretierbar und erfüllen somit die Voraussetzungen einer logistischen Regression.


Die folgenden 10 Diagramme stellen sogenannte gruppierte Balkendiagramme dar. Anhand der Diagramme kann (ungefähr) abgelesen werden, wieviel Prozent der chronisch Kranken bzw. der Gesunden zu den einzelnen Kategorien der betrachteten unabhängigen Variablen zugehörig sind.
Dies bedeutet, dass beispielsweise beim Diagramm 2 (Alter) der rechtsstehende Balken nicht bedeutet, dass ungefähr 40% der über 50-Jährigen chronisch krank sind, sondern das 40% der chronisch kranken Menschen über 50 Jahre alt sind.
Desweiteren dienen die Diagramme dazu, sich einen Überblick zu verschaffen über die in die Analyse einfließenden Variablen.


Diagramm a.JPG Diagramm b.JPG Diagramm c.JPG Diagramm d.JPG


Zusammenfassende Bemerkungen:
Diagramm 1: Etwa 55% der chronisch kranken Menschen sind weiblich.
Diagramm 2: Der größte Anteil der chronisch Kranken ist über 50 Jahre alt.
Diagramm 3: Prozentsatz der übergewichtigen bzw. stark übergewichtigen Befragten (BMI >25)ist unter den Kranken (ca.58%) höher als bei den Gesunden (ca.44%)
Diagramm 4: Anteil der Raucher ist bei chronisch Kranken geringer als bei Gesunden
Diagramm 5: Von den Kranken sind knapp 50% ohne Schulabschluss bzw. mit Hauptschulabschluss, dieser Anteil liegt bei den Gesunden bei etwa 33%.
Diagramm 6-8: Chronisch kranke Menschen sind häufiger niedergeschlagen, haben öfter eingeschränkte Kontakte und Probleme mit Alltagstätigkeiten als gesunde Menschen.




Analyse 1[edit]

Im Anfangsblock wird zunächst nur das Modell mit einer Konstanten ohne unabhängige Variablen betrachtet. In diesem Beispiel ergibt sich für den Regressionskoeffizienten \beta_0 ein Wert von 0,314. Dieser ist signifikant.
Als Selektionsverfahren wird die schrittweise Vorwärts-Selektion mit Wald-Kriterium angewendet. Dabei wird in jedem Schritt eine weitere Variable in das Modell aufgenommen.
Mit dem Chi-Quadrat-Wert wird getestet, ob die aufgenommenen Variablen signifikant zur Verbesserung der Modellgüte beitragen (Schritt) und ob das gesamte Modell mit alllen hizugenommenen Variablen sich signifikant von dem Modell ohne unabhängige Variablen unterscheidet (Modell). Im vorliegenden Beispiel verbessern alle aufgenommenen Variablen das Modell signifikant.
Die Tabelle zeigt die Pseudo-Bestimmtheitsmaße für die Anpassung des Modells an die Daten von Cox/Snell bzw. Nagelkerke nach jedem Schritt (jeder weiteren zugenommenen Variable).
Erkennbar ist, dass die Pseudo-Bestimmheitsmaße mit jedem Schritt wachsen (da die Anpassung mit jeder weiteren Variable immer besser wird), jedoch die Höhe der Zuwächse tendentiell eher abnimmt. So werden nach Schritt 6 keine weiteren Variablen mehr aufgenommen, da sie zu keiner deutlichen Verbesserung mehr führen.
Die Klassifizierungstabelle zeigt, welcher Anteil der kranken bzw. gesunden Befragten richtigerweise mit Hilfe des Modells vorhergesagt werden kann. So werden nach Schritt 1 46,9% der Gesunden auch als gesund erkannt und 76,8% der Kranken als krank prognostiziert. Der Gesamtanteil der richtigen Prognosen liegt daher bei 64,2%. Nachdem keine weiteren Variablen mehr in das Modell aufgenommen wurden (Schritt 6), erhöht sich dieser Prozentsatz auf 65,8%.
Im obigen Output sind die einzelnen Regressionskoeffizienten für die Regressionsgleichung jeweils nach Aufnahme der ersten Variable „Alter“ (Schritt 1) und nach dem letzten Schritt aufgeführt. Die Schritte 2 bis 5 sind aus Gründen der Übersicht nicht aufgeführt.
Die Zahlen hinter den einzelnen Variablen stehen für die jeweilige Kategorie. Die jeweils letzte Kategorie (Referenzkategorie) erhält einen Wert von 0. Beispielsweise kann abgelesen werden, dass die Variable Schulabschluss zwar insgesamt signifikant ist, jedoch die Regressionskoeffizienten der ersten drei Kategorien nicht signifikant von 0 verschieden sind. Gleiches gilt für den Koeffizienten der Konstanten.
Die Werte in der letzten Spalte stellen das Verhältnis des Vorhandenseins einer chronischen Erkrankung in der jeweiligen Kategorie der Variablen zur Referenzkategorie dar. Beispielsweise sind die Befragten mit normalem BMI (2.Kategorie) 0,562 mal so oft erkrankt als diejenigen mit einem BMI von über 30 (Referenzkategorie).

Am Beispiel des 1.Outputs soll zunächst das Verfahren der logistischen Regression unter SPSS erklärt werden.

Als Selektionsverfahren wird die Vorwärts-Selektion (hier mit Wald-Kriterium) verwendet. Dadurch werden nur Variablen in das Modell aufgenommen, die signifikant zur Verbesserung der Modellgüte beitragen. Andere Möglichkeiten wären das Verfahren einer Rückwärtsselektion oder das Einschlussverfahren. In den beiden vorliegenden Fällen unterscheiden sich die Ergebnisse jedoch nicht (bzw. nur geringfügig) voneinander.

Zunächst wird im Anfangsblock (Schritt 0) nur der Wert der Konstanten geprüft. Die Wald-Statistik ergibt sich als Quotient aus Regressionskoeffizienten und Standardabweichung. Sie ist Chi-Quadrat-verteilt mit 1 Freiheitsgrad. Anhand des P-Wertes (Überschreitungswahrscheinlichkeit) ist ersichtlich, dass der Wert des Regressionskoeffizienten zum 5%-Niveau signifikant von Null verschieden ist.

In Schritt 1 wird nun die erste Variable, hier die metrisch skalierte Variable Alter, aufgenommen. In diesem neuen Modell beträgt deren Regressionskoeffizient 0,04 und der Wert der Konstante -1,571. Beide sind signifikant. Der Chi-Quadrat-Wert im Omnibus-Test der Modellkoeffizienten entspricht der Differenz der negativen Log-Likelihood-Werte des erweiterten Modells und des Modells mit nur einer Konstanten. Aus der Tabelle ist abzulesen, dass die Aufnahme der Variablen Alter bei einem Chi-Quadrat-Wert von 297,97 signifikant zu einer verbesserten Anpassung beiträgt. Die Pseudo-Bestimmtheismaße ( \rightarrow Modellanwendung) von Cox/Snell und Nagelkerke messen die Höhe dieser Anpassung. Im konkreten Fall liegen diese Werte bei 9,9% bzw. 13,4%, das Modell ist also zwar nicht so gut an die Daten angepasst, doch die geringe Verbesserung der Modellgüte durch Aufnahme der ersten Variablen ist signifikant.

In jedem weiteren Schritt wird nun genauso verfahren wie im ersten Schritt:
Es wird geprüft, ob die Aufnahme einer weiteren Variablen das Modell verbessert, wie stark diese Verbesserung ist und schließlich, ob die einzelnen Regressionskoeffizienten der Variable signifikant sind. Es ist zu bemerken, dass bei kategorisierten Variablen die so genannte Indikatorkodierung vorgenommen wird. Dabei wird eine Referenzkategorie gebildet, im vorliegenden Fall ist dies immer die letzte Kategorie. Durch Indikatoren (0,1-Variablen) wird angezeigt ob eine bestimmte Kategorie vorhanden ist (1) oder nicht (0), der Wert für die Referenzkategorie beträgt dabei immer 0. Die zugehörige Link-Funktion lässt sich dann schreiben als das Produkt der "Design"-Matrix und dem Vektor der einzelnen Regressionskoeffizienten. Das impliziert, dass der in die Link-Funktion mit einfließende Wert der Referenzkategorie immer Null ist.

Im vorliegenden Beispiel ergibt sich nun folgendes Modell:
Die Variablen Geschlecht, Alter, Schulabschluss, BMI, Konsumhäufigkeit: Spirituosen u. Kaffeekonsum wurden in das Modell aufgenommen. Die Pseudo-Bestimmtheitsmaße weisen Werte von 12,4% bzw. 16,7% auf, insgesamt ist das Modell also nicht sehr gut an die Daten angepasst. Dies wird auch deutlich bei Betrachtung der Klassifizierungstabelle: Diese zeigt auf, wie gut es möglich ist, mit dem erhaltenen Modell Prognosen über das Auftreten/ Nicht-Auftreten von chronischen Erkrankungen zu erstellen (ein Ereignis wird vorhergesagt, wenn die Wahrscheinlichkeit für das Auftreten höher als 0,5 ist). So werden zwar von denen, die chronisch krank sind, auch 73,1% als krank vorhergesagt, dieser Prozentsatz liegt jedoch bei den Nicht-Kranken bei 51%. Des weiteren ist bei den einzelnen Regressionskoeffizienten zwar festzustellen, dass diese insgesamt signifikant sind, doch teilweise in ihren einzelnen Kategorien nicht (z.B. Variable "allgemeiner Schulabschluss"). Das bedeutet, dass bei Vorhandensein einer solchen Kategorie keine klaren Ergebnisse zu erwarten sind. Insgesamt ist das Modell nicht verwendbar (aus bereits genannten Gründen). Die obige Analyse dient daher nur zur allgemeinen Erklärung des Ablaufes einer logistischen Regression.

Analyse 2[edit]

Wie in der vorigen Analyse beträgt der Wert des Regressionskoeffizienten für die Konstante im ersten Schritt 0,314 und ist signifikant zum 5%-Niveau.
Wie die Pseudo-Bestimmtheitsmaße zeigen, führt das Modell zu einer akzeptablen Anpassung an die Daten (Werte sind größer als 0,2). Hier werden lediglich vier Variablen aufgenommen.
Anhand der Klassifizierungstabelle kann abgelesen werden, dass insgesamt mit Hilfe des Modells 71,8% der Befragten richtigerweise als krank bzw. gesund vorhergesagt werden können. Unter den chronisch Kranken beträgt dieser Prozentsatz 68,0%, unter den Gesunden 77,1%.
Tabelle der Regressionskoeffizienten (Erklärung siehe Analyse 1)

Bei Betrachtung der Diagramme 6-8 (siehe oben) lässt sich ein Zusammenhang vermuten zwischen der Variable "Befragter chronisch krank" und jeweils den Variablen "Letzte 4 Wochen:Kontakte eingeschränkt", "Gesundheitlich Probleme:Alltagstätigkeit", "Letzte 4 Wochen:Niedergeschlagenheit" (was auch weiter nicht verwunderlich ist).
Der obenstehende Output fasst die Ergebnisse der Analyse zusammen:
In das Modell aufgenommen wurden die Variablen "Alter" und die drei eben genannten Variablen. Jede weitere Variable trägt nur noch unwesentlich ("Parameterschätzer änderten sich um weniger als 0,001") zur Verbesserung der Modellgüte bei. Die Pseudo-Bestimmtheitsmaße nehmen Werte von 24,5% bzw. 32,5% an, die Anpassung an die Daten ist also in einem akzeptablen Bereich. Die Regressionskoeffizienten sind mit Ausnahme der zweiten und vierten Kategorie ("oft" bzw. "fast nie") der Variable "Kontakte eingeschränkt" und der vierten Kategorie der Variable Niedergeschlagenheit signifikant auf dem 5%-Niveau. Der in der Tabelle an letzter Stelle aufgeführte Wert Exp(B) zeigt das Verhältnis vom Auftreten einer chronischen Erkrankung in der betrachteten Kategorie zur Referenzkategorie. So tritt in der Stichprobe unter den Befragten der ersten Kategorie ("immer") der Variable "Niedergeschlagenheit" 7,704 mal häufiger auf als unter den Befragten der letzten Kategorie ("nie").

Als Link-Funktion ergibt sich :

\eta_k  = x_k \tilde\beta = a_k \beta_1 + x_k \tilde\beta

wobei
 a_k\, = Alter des Befragten k

 \beta_1\, = Zugehöriger Regressionskoeffizient

  x_k \, = k-ter Zeilenvektor der Designmatrix

 \tilde\beta^T = Zeilenvektor der Regressionskoeffizienten der kategorialen Variablen

In diesm Fall ist:
\begin{matrix} 
\tilde\beta^T  & = &  
(\beta_0, \beta_{21}, \beta_{22}, \beta_{31}, \beta_{32}, \beta_{33}, \beta_{34}, \beta_{41}, \beta_{42}, \beta_{43}, \beta_{44})              
\\ \ & = & (-1,6\,;2,5854;1,449;1,414;0,502;0,577;0,068;1,0645;0,827;0,347;0,242)\end{matrix}

Mit Hilfe der Link-Funktion lassen sich nun für beliebige Befragte die Wahrscheinlichkeit des Vorhandenseins einer chronischen Erkrankung berechnen und anhand dieser erhaltenen Werte Prognosen erstellen. Die Klassifizierungstabelle zeigt, dass von den Kranken 68,0% als krank prognostiziert wurden, bei den Gesunden lag dieser Anteil bei 77,1%. Insgesamt liegt also der mit dem Modell richtig vorausgesagte Anteil bei 71,8%.


Beispiele zur Berechnung der Wahrscheinlichkeit:

Erstes Beispiel:

Befragter 1: 58 Jahre, hat ein wenig Probleme mit Alltagstätigkeiten (\beta_{22}), war in den letzten 4 Wochen oft niedergeschlagen (\beta_{32}) und hatte nie eingeschränkte Kontakte (Referenzkategorie). Dann ergibt sich:

\eta_1 = \beta_0 + 58 \beta_1 + \beta_{22} + \beta_{32} + 0
                     = -1,6 + 58 \cdot 0,021 + 1,449 + 0,502
                     = 1,569

Als geschätzte Wahrscheinlichkeit für das Vorhandensein einer chronischen Erkrankung ergibt sich also:

\pi_1= \frac{1}{1+exp(-1,569)} \approx 0,8276

Die Prognose lautet daher: Befragter 1 ist chronisch krank.


Zweites Beispiel:

Befragter 2: 21 Jahre alt, hat nie Probleme mit Alltagstätigkeiten (Referenzkategorie), war in den letzte 4 Wochen fast nie niedergeschlagen (\beta_{24}) und hatte fast nie eingeschränkte Kontakte (\beta_{34}). Dann ergibt sich:

\eta_2 = \beta_0 + 21 \beta_1 + 0 + \beta_{24} + \beta_{34}
                      = -1,6 + 21\cdot 0,021 + 0,068 + 0,242
                      = -0,849

und als geschätzte Wahrscheinlichkeit:

\pi_2= \frac{1}{1+exp(0,849)} \approx 0,3

Prognose: Befragter 2 ist nicht chronisch krank.


Literatur- und Internetquellenverzeichnis[edit]

  • Backhaus, Erichson, Plinke, Weiber : "Multivariate Analysemethoden" (2003), Springer Verlag
  • Rönz: Skript "Verallgemeinerte Lineare Modelle" (überarbeitete Version vom Jahre 1995)
  • Codebuch des Allbusdatensatzes von 2004
  • Bühl, Zöfel: "SPSS 12. Einführung in die moderne Datenanalyse unter Windows" (2005), Pearson Studium


Kommentare[edit]

  • Die Überschrift war unnötig, deswegen gelöscht
  • Deutsch Rechtschreibung
  • \eta_k=x_k^T\beta ist NICHT die Linkfunktion, sondern G in G(\eta_k)=\pi_k.
  • Gute Bemerkung zur Relevanz von Kaffeekonsum etc. und chronischen Krankheiten, allerdings könnte man argumentieren, dass Kaffeekonsum ein gewisses Muster darstellt, dem der Betreffende in der Vergangenheit vor der Krankheit auch schon gefolgt ist (vielleicht sogar in grösserem Maße).
  • Etwas überraschendes Ende