Das Freizeitverhalten der Deutschen - Analyse des ALLBUS-Datensatzes 2004

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Einleitung[edit]

In der Lehrveranstaltung Applied Quantitative Methods wurden Methoden vorgestellt, die im Rahmen von Fragebogenanalysen die Identifizierung von latenten Strukturen ermöglichen, welche Aussagen über potenzielle Antwortmuster erlauben. Dabei wurde der Fokus insbesondere auf das Instrument der Faktorenanalyse gelegt, das somit gleichfalls den Schwerpunkt dieser Datensatzuntersuchung darstellen soll. Im Zentrum des Interesses steht im Folgenden das Freizeitverhalten der Deutschen, wobei eine getrennte Betrachtung von Ost- und Westdeutschland vorgenommen wird: Man darf gespannt sein, ob sich auch in diesem - ganz privaten - Bereich 15 Jahre nach der Wiedervereinigung tatsächlich unterschiedliche Vorlieben feststellen lassen.

Datengrundlage[edit]

Für die Analyse der zuvor erläuterten Fragestellung wurde die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) als Datenquelle gewählt. Diese zweijährliche Abfrage wird seit 1980 zusammen vom Zentrum für Umfragen, Methoden und Analysen (ZUMA) und dem Zentralarchiv für empirische Sozialforschung der Universität Köln durchgeführt und dient im Wesentlichen der Ermittlung von Einstellungen, Verhaltensweisen und der Sozialstruktur. Hierzu werden deutschsprachige volljährige Personen aus Privathaushalten per mehrstufig geschichteter Zufallsauswahl befragt, d.h. es wird eine Unterteilung in einander ausschließende Gruppen vorgenommen und aus jeder Gruppe eine zufällige Auswahl von Elementen getroffen (vgl. GESIS). Ferner wird eine Unterscheidung nach ost- und westdeutschem Erhebungsgebiet vorgenommen, wobei die neuen Bundesländer in der Umfrage überrepräsentiert sind.

Der von ALLBUS verwendete Fragenkatalog besteht aus einem stetigen und einem variablen Teil, wobei die hier im Analysefokus liegenden Fragen nach der Freizeitgestaltung der Deutschen auf letzteren Part des Jahres 2004 zurückgehen. Ferner wurde anstelle des vollständigen Datensatzes die in Umfang reduzierte und zum Teil anonymisierte Compact Version verwendet, welche Daten von 2946 Personen zu 448 Items beinhaltet.

Deskriptive Statistik[edit]

Erhebungsgebiet und -modalitäten[edit]

Im Rahmen der ALLBUS-Statistik wurden 2946 Personen hinsichtlich der Häufigkeit befragt, mit der sie verschiedenen Freizeitbeschäftigungen nachgehen. Die Gesamtpersonenzahl setzt sich dabei aus 1982 Befragten aus den alten Bundesländern sowie 964 in Ostdeutschland wohnhaften Personen, siehe Tabelle 1, zusammen, so dass von einer ungefähren zwei Drittel/ein Drittel-Aufteilung gesprochen werden kann. Da dies die bereits erwähnte Überrepräsentanz von Befragten aus den neuen Bundesländern widerspiegelt, ist für belastbare Aussagen im realen Kontext stets eine Umrechnung vorzunehmen. Hierzu wird die prozentuale Datensatzhäufigkeit mit dem personenbezogenen Ost/West-Gewicht multipliziert, um Ergebnissen eine der Realität entsprechende Gewichtung verleihen zu können.


Tabelle 1: Erhebungsgebiet
Erhebungsgebiet.png

* im Datensatz gegeben ** Datensatzhäufigkeit in Prozent x Personenbezogenes Gewicht


Abb. 1: Übersicht der abgefragten Items
Zur Ermittlung der Freizeitgestaltung wurde den Befragten eine Auflistung von 24 Tätigkeiten (siehe Abb. 1 für eine Übersicht) mit der Aufforderung vorgelegt, anhand folgender vorbestimmter Antwortmöglichkeiten einzuschätzen, ob diese
  • täglich
  • mindestens einmal jede Woche
  • mindestens einmal jeden Monat
  • seltener
  • nie

ausgeführt werden. Die den Antwortoptionen zugrundeliegende Struktur ist damit eindeutig ordinal und bezüglich der gewünschten Aussagefähigkeit der Analyse als zweckmäßig und sinnvoll zu erachten, so dass die Abstände zwischen den Antworten zwar nicht als gleich, hinsichtlich der Anwendung statistischer Methoden im weiteren Verlauf der Untersuchung aber als gleichwertig eingestuft werden.

Identifizierung und Behandlung fehlender Werte[edit]

Der ermittelte Anteil fehlender Werte im Datensatz ist äußerst gering: So liegen für fast 42% der Items die Daten in vollständiger Form vor, während sich bei Items mit fehlenden Angaben deren Anteil ebenfalls nur marginal ist. Wie auch aus Tabelle 2 zu entnehmen ist, nimmt dieser bei der Frage nach der Häufigkeit von Faulenzen seinen Maximalwert an, was bei einem Absolutwert von 14 lediglich 0,5% der Befragten entspricht. Dass das Maximum gerade bei diesem Item zu finden ist, könnte dabei möglicherweise an dessen vergleichsweise schwieriger Definition liegen, die aufgrund separat abgefragter und oftmals darunter verstandener Tätigkeiten wie Musik hören und Zeitschriften lesen eine weitere Einschränkung erfährt.

Da aber angesichts des bereits festgestellten geringen Anteils fehlender Werte keine Verzerrungen der weiteren Analyse zu erwarten sind, kann an dieser Stelle unabhängig von weiteren Interpretationen eine Einordnung derselben als "Missing Completely At Random" (MCAR) vorgenommen werden, die eine einfache Ersetzung mittels der Modi des jeweiligen Erhebungsgebietes gestattet.


Tabelle 2: Übersicht der Items und fehlender Werte
Items fehlende Werte.png

Analyse der Modi[edit]

Um einen ersten Überblick über etwaige Unterschiede zwischen dem ost- und dem westdeutschen Erhebungsgebiet hinsichtlich der Ausübung von Freizeittätigkeiten zu bekommen, wurden zunächst die jeweiligen Modi für jede Beschäftigung ermittelt. Die Ergebnisse sind in Tabelle 3 aufgelistet, die bei Vorlage von unterschiedlichen Modi der alten und neuen Bundesländer ebenfalls die Rangdifferenz der Antworten wiedergibt.

Wie auf den ersten Blick erkennbar, halten sich die Unterschiede - zunächst auf quantiativer Ebene - deutlich in Grenzen, da diese bei nur fünf von 24 Items nachzuweisen sind. Doch auch qualitativ zeichnen sich nur bei zwei Items größere Divergenzen hinsichtlich ihrer Präferenz bei Ost- und Westdeutschen ab: So ist beim Item Faulenzen eine Differenz von zwei, bei der Betrachtung von Sport sogar ein Abstand von drei Rängen festzustellen, wobei in Ostdeutschland mehr gefaulenzt und "nie" Sport gemacht wird, während sich die Westdeutschen laut ihren Angaben mindestens einmal pro Woche aktiv sportlich betätigen. An dieser Stelle sei allerdings darauf hingewiesen, dass trotz der Komplementarität beider Items in diesem Analyseschritt noch keine Aussage hinsichtlich möglicher Zusammenhänge der ausgeprägten Häufigkeiten beider Items getroffen werden kann, auch wenn dies intuitiv sinnvoll erscheinen mag. Um diesbezüglich zu belastbaren Ergebnissen zu gelangen, ist zuvor eine tiefergreifende Untersuchung notwendig, welche in Abschnitt 4.1 vorgenommen wird.


Tabelle 3: Modi nach Erhebungsgebieten
Modi.png

Abb. 1: Häufigkeit von Faulenzen nach Erhebungsgebiet
Abb. 2: Häufigkeit aktiver sportlicher Betätigung nach Erhebungsgebiet
Um nun die bei Faulenzen und Sport identifizierten Unterschiede etwas genauer zu beleuchten, wurde die jeweilige absolute Häufigkeitsverteilung mittels Balkendiagrammen visualisiert. Dabei ist Abbildung 1, welche die Häufigkeiten für Faulenzen in Abhängigkeit vom Erhebungsgebiet darstellt, zu entnehmen, dass sich im Falle der neuen Bundesländer die Häufigkeiten vom Modus „wöchentlich“ und der zweithöchsten Ausprägung „selten“, die gleichzeitig dem Modus der alten Bundesländer entspricht, um nur sechs Angaben unterscheiden. Da diese Differenz als äußerst marginal zu erachten ist wurde mit dem Ziel, mögliche Verzerrungen aufgrund der Ersetzung fehlender Werte aufzudecken, nochmals ein weiteres Balkendiagramm mit dem unbearbeiteten Originaldatensatz erstellt, das hier einzusehen ist. Die Betrachtung macht deutlich, dass der Unterschied zwischen beiden Ausprägungen nun noch weiter, nämlich auf nur noch zwei Angaben zusammenschmilzt, so dass die These verschiedener Vorlieben von Ost- und Westdeutschen für Faulenzen nicht beibehalten werden kann.

Ähnlich, wenngleich hinsichtlich des bereits erzielten Ergebnisse stabiler, gestaltet sich auch die Situation in Abbildung 2, in welcher der gleiche Grafiktyp zur Darstellung der Häufigkeitsverteilung von Sport verwendet wurde. Auch hier zeigt sich, dass die hohe Rangdifferenz der Modi von alten und neuen Bundesländern mit Zurückhaltung zu bewerten ist, da auch hier auf den Modus West bei der Ausprägung "wöchentliche sportliche Aktivität" mit einem eher geringen Abstand von 70 Zählungen die Ausprägung "nie" folgt, die ihres Zeichens den Modus Ost darstellt.

Angesichts dieser Resultate lässt sich das Zwischenfazit ziehen, dass sich Untersuchungsergebnisse auf Grundlage des Modus nur bedingt für belastbare Aussagen heranziehen lassen.

Untersuchung von Zusammenhängen[edit]

Im folgenden Abschnitt soll zunächst eine allgemeine Analyse der Zusammenhänge zwischen den Items vorgenommen werden, um im weiteren Verlauf durch Anwendung der explorativen Faktorenanalyse auf die Untersuchung des Datensatzes hinsichtlich latente Strukturen überzugehen, die möglicherweise weitere Aussagen zulassen.

Allgemeine Analyse der Korrelation[edit]

In einem ersten Schritt sollen die 24 Items auf mögliche lineare Zusammenhänge untereinander überprüft werden. Hierzu wurde auf die Berechnung von Spearman's Rangkorrelationskoeffizienten entschieden, dessen Anwendung auf die Ordinalskalierung der Daten zurückzuführen ist (Vgl. Rönz, 2000). Dieser auch als Spearman's rho bezeichnete Korrelationskoeffizient ist für alle Itemkombinationen der Matrix in Abbildung 3 zu entnehmen, in welcher oberhalb der Matrixdiagonalen die Werte für Ost-, unterhalb der Matrixdiagonalen die Koeffizienten für Westdeutschland angegeben sind. Um eine bessere Übersicht zu schaffen, wurden des Weiteren alle Ausprägungen ≥ 0,4 farbig markiert, so dass alle gelb unterlegten Werte den neuen Bundesländern, alle türkis hervorgehobenen Werte den alten Bundesländern zuzuordnen sind.


Abb. 3: Spearman's Rangkorrelationskoeffizient nach Item und Erhebungsgebiet
Correlations Modi ost und west unten.png

Es fällt zunächst auf, dass angesichts der Menge aller Kombinationen der prozentuale Anteil von mindestens mäßig korrelierten Items (Spearman's rho ≥ 0,4) insgesamt relativ niedrig ist und für die westdeutschen Daten nochmals geringfügig unter jenem der ostdeutschen liegt. Weiterhin ist feststellbar, dass sich die - mit Ausnahme von mit PC beschäftigen und Internet nutzen, welche eine hohe Korrelation verzeichnen - nur mäßig korrelierten Items in den neuen und alten Bundesländern größtenteils entsprechen und sich insbesondere in den folgenden zwei Bereichen nachweisen lassen:

  • Musik hören (V11), DVD gucken (V12), mit PC beschäftigen (V13), Internet nutzen (V14), private Weiterbildung (V15)
  • aktive sportliche Betätigung (V29), Besuch von Kino-/Pop-/Jazzkonzerten (V31), in den neuen Bundesländern: Besuch von Sportveranstaltungen (V30).

Da sich bei beiden Gruppen inhaltliche Verknüpfungen nicht leugnen lassen, ist hier ein Anhaltspunkt für die Durchführung einer Faktorenanalyse gegeben, um mit deren Hilfe möglicherweise vorhandene latente Strukturen zu identifizieren.

Explorative Faktorenanalyse[edit]

Die im vorangehenden Abschnitt auf Grundlage von Spearman’s rho identifizierten Zusammenhänge legen die Durchführung einer Faktorenanalyse nahe, um die Datenbasis durch Aufdeckung latenter Strukturen und entsprechender Faktorbildung zu reduzieren. Dabei wird die Untersuchung nach den Erhebungsgebieten getrennt durchgeführt, um die möglicherweise vorhandenen Unterschiede in der Freizeitgestaltung von Ost- und Westdeutschen aufdecken zu können. Gleichwohl wird der Rahmen der Analyse bei neuen und alten Bundesländern durch Wahl gleicher Methoden und SPSS-Voreinstellungen identisch gehalten, so dass die größtmögliche Vergleichbarkeit der Ergebnisse sichergestellt werden kann.


Neue Bundesländer[edit]

Im ersten Durchgang wird die Faktorenanalyse für das Erhebungsgebiet Ost vorgenommen. Um zu überprüfen, ob die dafür vorgesehenen Daten überhaupt geeignet sind, wird zunächst das Kaiser-Mayer-Olkin Maß (KMO) in Abbildung 4 betrachtet. Dieses nimmt hier die Ausprägung 0,851 an und spiegelt damit eine sehr gute Brauchbarkeit des verwendeten Datensatzes wieder. Diese Einschätzung wird beim Blick auf die „Measure of sampling adequacy“-Werte (MSA) bestätigt, welche ebenfalls die Eignung – allerdings auf der Basis der einzelnen Items – angeben und der Diagonalen der Anti-Image Correlation Matrix entnommen werden können. Dahingegen hat der zusammen mit dem KMO-Maß ausgegebene Bartlett-Test für die vorliegende Untersuchung keinen Aussagewert, da dieser nur bei Normalverteilung der Daten belastbare Ergebnisse liefert.

Abb. 4: KMO-Test für Erhebungsgebiet Ost
Abb. 5: Screeplot für Erhebungsgebiet Ost

Die Betrachtung der Tabelle in Abbildung 6 ist zu sehen, dass als Resultat der durchgeführten Analyse sechs Faktoren extrahiert werden, die zusammen 60,3% der Varianz der Items erklären. Dieses respektable Ergebnis ist nochmals grafisch anhand des Screeplots in Abbildung 5 verdeutlicht, der für jeden Faktor den entsprechenden Eigenwert auf der Y-Achse abträgt. Die sich durch Verbindung dieser Punkte ergebende Kurve weist einen Knick zwischen dem sechsten und siebten Faktor auf, was auf einen klaren Rückgang der durch Faktor 7 erklärten Varianz hinweist. Diese führt mit knapp 4% gleichzeitig zu einem Eigenwert unter eins, so dass Faktor 7 nicht mehr Varianz als die Varianz eines einzelnen Items erklärt und somit nicht mehr ausgewählt wird. Ferner veranschaulicht der Screeplot auch die überragende Dominanz des ersten Faktors, auf den allein fast 28% der gesamten erklärten Varianz zurückfallen, was einen deutlichen Abstand zum zweitstärksten Faktor (mit einer erklärten Varianz von 9,2%) erkennen lässt.


Abb. 6: Total Variance Explained für Erhebungsgebiet Ost
Total variance explained ost123.png

Mit Hilfe der rotierten Lösungen ist nun zu prüfen, inwieweit sich diese Gewichte in den Faktorladungen in Form von sinnvoll interpretierbaren Strukturen widerspiegeln. Hierzu wurde sowohl die Varimax-Rotation, siehe Abbildung 7, als auch zusätzlich die Promax-Rotation, Abbildung 8, ausgegeben. Dabei hat letztere den Vorteil, dass sie auch bei korrelierten Items angewendet werden darf, deren Vorliegen angesichts der Ergebnisse aus Abschnitt 4.1 (siehe Korrelation zwischen mit PC beschäftigen und Internet nutzen) nicht ausgeschlossen werden kann.


Abb. 7: Varimax-Rotation
Varimax ost.png

Im Falle der vorliegenden Faktorenanalyse für die neuen Bundesländer weisen beide Matrizen allerdings nur geringfügige Unterschiede auf: So ist hinsichtlich der Anzahl und Verteilung der Items, die mit einem Wert von mindestens 0,5 auf einen Faktor laden, zwischen beiden Rotationen kein Unterschied festzustellen. Dieser besteht lediglich für eine geringe Zahl von Items mit Faktorladungen von unter 0,5, so dass deren Einfluss ohnehin als wenig relevant eingestuft werden muss.


Abb. 8: Promax-Rotation
Promax ost.png

Aus beiden Matrizen lassen sich demnach Faktoren entnehmen, die folgendermaßen interpretiert werden können:

  • Faktor 1: Aktivität bzw. Engagement in Verbänden, Vereinen und Parteien
  • Faktor 2: Nutzung audiovisueller Unterhaltungsangebote (Musik, Filme, Konzerte, Kino)
  • Faktor 3: Beschäftigungen mit PC und Internet
  • Faktor 4: Beschäftigung mit Printmedien, Kunst und musischen Tätigkeiten

Da bei beiden Rotationen jeweils nur ein Item mit einer Ausprägung größer als 0,5 auf die Faktoren 5 und 6 lädt, ist deren Extraktion nicht unbedingt als sinnvoll zu erachten, so dass hier von einer weiteren Interpretation abgesehen werden kann.

Alte Bundesländer[edit]

Bei der Betrachtung der Faktorenanalyse für das Erhebungsgebiet West gilt es ebenfalls, zunächst die verwendeten Daten auf ihre Eignung zu testen. Auch hier gibt das KMO-Maß (siehe Abbildung 9) mit 0,828 einen sehr guten Wert an, der - wie schon im Falle der neuen Bundesländer - auch hier durch gute MSA-Ausprägungen untermauert wird.

Abb. 9: KMO-Test für Erhebungsgebiet West


Abb. 10: Screeplot für Erhebungsgebiet Ost
Erwartungsgemäß liegen auch hinsichtlich der Anzahl der extrahierten Faktoren keine Differenzen vor, so dass die Tabelle in Abbildung 11 ebenfalls die Auswahl von sechs dieser theoretischen Konstrukte anzeigt. Unterschiedlich ist jedoch die Höhe der durch die sechs Faktoren erklärten Gesamtvarianz, die mit 54,4% eindeutig geringer als für das Erhebungsgebiet Ost ausfällt. Damit ergeben sich auch Abweichungen in der Höhe der erklärten Varianz durch die einzelnen Faktoren: So liegt diese für den stärksten Faktor mit gut 20% deutlich unter dem Wert der ostdeutschen Analyse, welcher sich auf fast 28% beläuft. Ferner ist der Unterschied zwischen dem letzten ausgewählten Faktor 6 sowie dem nachfolgenden Faktor 7 nicht sehr ausgesprägt, was auch der Screeplot in Abbildung 10 beweist. Der Knick im Kurvenverlauf, der auf eine deutliche Reduzierung der zusätzlich erklärten Varianz je Faktor hindeutet, ist hier zwischen dem vierten und fünften Faktor identifizierbar. Um dessen Grundlage besser beurteilen zu können bedarf es weiterer Interpretation, die unter Betrachtung der Varimax- und Promax-Rotationsmatrizen, siehe Abbildungen 12 und 13, vorgenommen wird.


Abb. 11: Total Variance Explained für Erhebungsgebiet West
Total variance explained west.png

Mit der Beschränkung auf Ladungen mit einem Wert von mindestens 0,5 ergibt die Analyse der Varimax-Rotation eine recht gleichmäßige Verteilung der Items auf die sechs extrahierten Faktoren: Ausnahmen bilden lediglich Faktor 2 und 3, da letzterer lediglich mit einem Item über 0,5 lädt und damit aus der weiteren Interpretation ausgeklammert wird, während dieser Wert bei Faktor 2 von drei Items übertroffen wird. Eine inhaltliche Auslegung des Ergebnisses könnte folgendermaßen aussehen:

  • Faktor 1: Nutzung von Unterhaltungsmedien, allein oder im Freundeskreis
  • Faktor 2: Beschäftigung mit PC und Internet
  • Faktor 4: Soziales/gesellschaftliches Engagement
  • Faktor 5: Beschäftigung mit Politik/aktuellem Zeitgeschehen
  • Faktor 6: Kontaktpflege mit Familie und Freunden

Die hier herausgearbeiteten Strukturen sind dabei im Vergleich zur Untersuchung für das Erhebungsgebiet Ost etwas weniger eindeutig und vermitteln rein intuitiv das Potenzial weiterer Vereinfachung, das jedoch in weiteren Analysen mit vorab reduzierter Faktorenzahl nicht bestätigt werden konnte.


Abb. 12: Varimax-Rotation
Varimax west.png

Mit dem Ziel, anhand von veränderten Faktorladungen qualitativ bessere Aussagen zu ermöglichen, wird abschließend eine Promax-Rotation durchgeführt, deren Ergebnis in Abbildung 13 ersichtlich ist. Dabei wird deutlich, dass hier eine Verschiebung zu quantitativ ungleicheren Faktorladungen stattgefunden hat, die bezüglich ihrer Interpretation eine handfeste Herausforderung darstellen. Während die letzten beiden Faktoren (5 und 6) aufgrund der zu geringen Anzahl von ladenden Items irrelevant sind und die Faktoren 2 (Nutzung audiovisueller Unterhaltungsangebote), 3 (Nutzung von PC und Internet) und 4 (gesellige Aktivitäten) noch einigermaßen belastbare Zusammenfassungen ermöglichen, präsentiert sich der erste und stärkste Faktor als Sammelsurium von Freizeitbeschäftigungen, die keine sinnvolle Interpretation zulassen. Die Promax-Rotation hat demnach zu keiner Verbesserung des Ergebnisses geführt.


Abb. 13: Promax-Rotation
Promax west.png

Fazit[edit]

Die Analyse des ALLBUS-Datensatzes zeigt, dass es 15 Jahre nach der Wiedervereinigung nur geringe Unterschiede im Freizeitverhalten der Ost- und Westdeutschen gab. So lassen sich quantitative Differenzen, die in einigen Bereichen identifiziert wurden, bei näherer Betrachtung relativieren und auch bezüglich der inhaltlichen Verknüpfungen ergab die Faktorenanalyse nur wenig Anhaltspunkte für grundsätzliche Unterscheidungen. Es darf also angenommen werden, dass - insofern es überhaupt Differenzen gab - diese verwässert sind, was möglicherweise auch auf die grundsätzlichen Änderungen in der Freizeitgestaltung zurückgeführt werden kann, die im Zuge der Etablierung und Verbreitung neuer Medien stattgefunden haben.

Literatur und Datenquelle[edit]

Bühl, A. (2006): SPSS 14 - Einführung in die moderne Datenanalyse, 10. überarb. und erw. Auflage, Pearson Studium, München.

Härdle, W./ Simar, L (2003): Applied Multivariate Statistical Analysis, Springer-Verlag.

Klinke, S. (2007): Skript Applied Quantitative Methods, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.

Rönz, B. (2000): Skript Computergestützte Statistik II, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.

GESIS - Gesellschaft sozialwissenschaftlicher Infrastruktureinrichtungen, 2008