Zusammenhangsanalyse explorativ und mit Kontingenztabellen und anschließend Erstellung eines Log- linearen Modells

From Teachwiki
Jump to: navigation, search

Multivariate Verfahren II
bei Dr. Klinke und Dr. Hlavka






Zusammenhangs- oder Abhängigkeitsanalyse von ordinalen Daten explorativ und anhand von Kontingenztabellen
und anschließend Erstellung des geeigneten Log-linearen Modells







Einführung[edit]

In der Vorlesung „Multivariate Statistische Verfahren II“ lernten wir verschiedene multivariate Verfahren. Aus der großen Menge an Verfahren sollte man sich ein Gebiet heraussuchen und dies entweder theoretisch oder empirisch untersuchen. Ich habe mich dann für eine empirische Arbeit entschieden, damit ich anhand eines Beispiels zeigen konnte, wie man die erlernte Theorie in der Vorlesung dann in der Praxis sinnvoll anwenden kann.

Um eine empirische Arbeit zu bewerkstelligen braucht man für die Verfahren geeignete Daten. Diese Daten habe ich dann aus dem „ALLBUS 2000“ („Allgemeine Bevölkerungsumfrage der Sozialwissenschaften“) entnommen. Bei dieser Umfrage wurden 666 Personen befragt.

Aus der großen Anzahl der Variablen hat mich besonders eine Variable interresiert und zwar die Variable „ Lebensvorstellung realisiert“. Nun wollte ich wissen von welchen Variablen dies abhängen könnte, deshalb entschied ich mich eine Zusammenhangsanalyse mit den Variablen: „Geschlecht“, „Lebenseinstellung realisiert“ und „Zeitvergleich Wirtschaftslage“ zu machen.

Ziel meiner Arbeit ist es mit verschiedenen Verfahren zu zeigen, dass zwischen den 3 Variablen eine Abhängigkeit besteht, und später will ich versuchen eine Struktur des Zusammenhangs anhand eines Log- linearen Modells zu zeigen.


Variablen:.

A: Geschlecht

B: Lebenseinstellung realisiert

C: Zeitvergleich Wirtschaftslage


Zusammenhangsanalyse explorativ mit Hilfe von Clustered Bar Chart[edit]

Bei einer explorativen Zusammenhangsanalyse versucht man einen visuellen Eindruck über die Abhängigkeit zwischen den Variablen zu sehen.
Bei ordinalskalierten Variablen wie bei meinen Variablen benutzt man den „Clustered Bar Chart“.
Der Clustered Bar Chart ist ein gruppiertes Balkendiagramm, in dem für jede Ausprägung der einen Variablen eine Gruppe von Balken entsprechend den Ausprägungen der zweiten „Gruppierungs-“ Variablen erzeugt wird.(aus Rönz, Bernd: Comutergestützte Statistik II, Humboldt-Universität zu Berlin 2000)
Wenn jedes gruppierte Balkendiagramm deutliche Unterschiede in den bedingten Verteilungen zeigt, dann sind die Variablen nicht unabhängig und man kann sagen, dass sie abhängig sind also besteht zwischen den Variablen ein Zusammenhang2.Rönz, Bernd: Comutergestützte Statistik II, Humboldt-Universität zu Berlin 2000)



Clustered Bar Chart der Variablen
Zeitvergleich Wirtschaftslage und Lebenvorstellung realisiert

Diagramm 1.jpg


Clustered Bar Chart der Variablen
Lebenvorstellung realisiert und Zeitvergleich Wirtschaftslage

Diagramm 2.jpg


Clustered Bar Chart der Variablen
Lebenvorstellung realisiert und Geschlecht

Diagramm 3.jpg


Clustered Bar Chart der Variablen
Geschlecht und Lebenvorstellung realisiert

Diagramm 4.jpg


Clustered Bar Chart der Variablen
Zeitvergleich Wirtschaftslage und Geschlecht

Diagramm 5.jpg


Clustered Bar Chart der Variablen
Geschlecht und Zeitvergleich Wirtschaftslage

Diagramm 6.jpg



Man sieht bei jedem Vergleich von zwei Variablen, dass es bei den gruppierten Balkendiagrammen deutliche Unterschiede in den bedingten Verteilungen gibt, sodass man annehmen kann, dass es eine Abhängigkeit zwischen den drei Variablen geben könnte. Dies ist aber eine subjektive Beurteilung der Sachlage und muss noch bestätigt werden.


Zusammenhangsanalyse mit Hilfe von Kontingenztabellen und Zusammenhangsmaße[edit]

Mit Hilfe der gemeinsamen Häufigkeitsverteilung von zwei Variablen und einer Kontrollvariablen kann man mit Kontingenztabellen denn Zusammenhang von ordinalen oder nominalen Variablen untersuchen.



Tabelle I.jpg


Man kann aus den Werten in einer Kontingenztabelle viele Informationen erhalten, aber ich will mich nur auf die beziehen, die mir Auskunft geben, ob es ein Zusammenhang zwischen den drei Variablen gibt. Es gibt einen Zusammenhang zwischen den Variablen, wenn es deutliche Unterschiede zwischen den bedingten Verteilungen und deren Randverteilungen herrscht und die unstandardisierten Residuen groß sind, kann man wieder nur subjektiv sagen, dass eine Abhängigkeit zwischen Variablen vorhanden ist. Dies ist in meinem Beispiel der Fall, also besteht ein Zusammenhang zwischen den Variablen.


Diese Beurteilungen hinsichtlich der Abhängigkeit zwischen den drei Variablen waren bis jetzt subjektiv, um eine genauere Aussage machen zu können, muss man es testen und so kommt man zu den Zusammenhangsmaßen, welche Auskunft darüber geben, ob man von einer Abhängigkeit ausgehen kann und wenn ja wie stark sie ist und welche Form sie hat.

Um einen Zusammenhang zu testen kann man als erstes den Chi-Quadrat-Unabhängigkeitstest nach Pearson benutzen, welche unter H0 besagt, dass die Zufallsvariablen stochastisch unabhängig sind. In SPSS werden auch andere Werte ausgegeben, welche für nicht zu unsere Skalierung passen.


Die Vorraussetzungen für den Chi-Quadrat-Test sind erfüllt.



Tabelle a.jpg




Tabelle b.jpg




Tabelle c.jpg



Aus diesen Werten kann man sehen, dass alle Werte signifikant sind und es einen positiven Zusammenhang zwischen den Variablen gibt.

Nachdem man einen Zusammenhang zwischen den Variablen festgestellt hat, muss noch die Struktur der Abhängigkeit bestimmt werden. Dafür kann man die log-lin-Modelle benutzen, weil für diese Modelle die Kontingenztabelle die Grundlage ist, denn die Kontingenztabellen enthalten ebenfalls alle notwendigen Informationen, die notwendig sind.





Findung des geeigneten Log- linearen Modells[edit]

Das von mir benutzte Stichprobenmodell, ist das multinomiale Stichprobenmodell, also kann man das Log- lineare Modell benutzen.

Bei einem Log- linearem Modell wird ausschließlich einen statistische Modellierung von kategorialen Variablen gemacht. Von diesen Variablen wird keine als abhängige Variable bestimmt.

Das Ziel dieser Modellierung besteht darin, eine Assoziationsstruktur zwischen den Variablen zu finden und von diesen den Effekt auf die Zellhäufigkeit zu bestimmen. Zum Schluss wird ein Modell ausgewählt, welches eine gute Anpassung an die Daten zeigt.

„Generell werden hierarchische log- lin. Modelle unterstellt, was bedeutet, dass Terme höherer Ordnung nur in das Modell eingeschlossen werde, wenn bereits alle korrespondierenden Terme niederer Ordnung im Modell enthalten sind“.(aus Rönz, Bernd: Verallgemeinerte Lineare Modelle, Humboldt-Universität zu Berlin 2005)

Um das geeignete Modell zu finden benutzt das SPSS die Rückwärtseleminierung.

Detailiertere theoretischer Beschreibung der log- lin. Modelle siehe bitte im Skript „Verallgemeinerte Lineare Modelle“ von Prof. Rönz nach.


Im Folgenden werden die relevanten Teile des SPSS-Outputs angegeben.

Step 1,2.jpg
Step 3.jpg


Nach dem 2. Schritt sieht man, dass alle Effekte signifikant sind und deshalb kann man keinen Effekt mehr eleminieren, ohne eine signifikante Verschlechterung in der Anpassung zu führen.

An dem Likelihood ratio chi square = 3,08067 DF = 3 P = ,379 - Wert
erkennt man ebenfalls, dass unter H0 das Modell geeignet ist.


Das Modell (AC/BC)= (Geschlecht * Zeitvergleich Wirtschaftslage/ Lebensvorstellung realisiert * Zeitvergleich Wirtschaftslage) ist damit das Endergebnis.(aus Rönz, Bernd: Verallgemeinerte Lineare Modelle, Humboldt-Universität zu Berlin 2005)


Die link Funktion des Modells sieht folgendermaßen aus:

\eta = \beta\, + \beta_{A(j)} + \beta_{B(k)} + \beta_{C(l)} + \beta_{AC(jl)} + \beta_{BC(kl)}



Zusammenfassung[edit]

Ziel meiner Arbeit war es einen Zusammenhangsanalyse mit den Variablen: „Geschlecht“, „Lebenseinstellung realisiert“ und „Zeitvergleich Wirtschaftslage“ zu machen.

Im ersten Teil meiner Arbeit habe ich diese mit Hilfe der explorativen Statistik bivariate Zusammenhänge gezeigt. An den Unterschieden der verschiedenen gruppierten Balkendiagramme hat man gesehen, dass alle drei Variablen Abhängigkeitsstrukturen aufweisen.

Im zweiten Teil habe ich die Ergebnisse des ersten Teiles mit geeigneten Statistiken bewiesen.

Im letzten Teil der Arbeit wurde ein geeignetes log- lin. Modell erstellt. Es ergab das Modell der bedingten Unabhängigkeit, welches in meinem Beispiel folgende Bedeutung hat. Die Variablen „Geschlecht“ und „Zeitvergleich Wirtschaftslage“ und die Variablen „Lebenseinstellung realisiert“ und „Zeitvergleich Wirtschaftslage“ sind abhängig voneinander, aber die Variablen „Lebenseinstellung realisiert“ und „Zeitvergleich Wirtschaftslage“ sind bedingt unabhängig von den Variablen „Geschlecht“ und „Zeitvergleich Wirtschaftslage“.








Literaturliste[edit]

Backhaus, K., Erichson, B., Plinke, W., Weiber. R.: Multivariate Analysemethoden, 11.Auflage, Springer 2006

Brosius, Felix: SPSS 12, Bonn 2004

Bühl, A. Zöfel, P. : SPSS 12 Einführung in die moderne Datenanalyse unter Windows 9.Auflage, 2005 by Pearson Studium

Härdle, W., Simler, L.: Applied Multivariate Statistikal Analysis, Springer 2003

Hartung, J., Elpelt, B.: Multivariate Statistik, 3. Auflage, Oldenburg, München, Wien 1989

Rönz, Bernd: Comutergestützte Statistik II, Humboldt-Universität zu Berlin 2000

Rönz, Bernd: Comutergestützte Statistik I, Humboldt-Universität zu Berlin 2001

Rönz, Bernd: Verallgemeinerte Lineare Modelle, Humboldt-Universität zu Berlin 2005

Sachs, Lothar: Angewandte Statistik, 8. Auflage, Berlin 1997

Kommentare[edit]

  • Link zu Allbus
  • Tippfehler
  • Besser wäre eine univariate Analyse der Variablen und ein Vergleich anhand relativer (bzw. bedingter Hfk) gewesen.
  • Kontingenztabelle unleserlich, warum sind die entscheidenen Informationen nicht farblich markiert?
  • Der Verweis auf die log-linearen Modelle ist etwas sehr knapp
  • Insgesamt etwas dünn