Datenanalyse des ALLBUS-Datensatzes 2006

From Teachwiki
Jump to: navigation, search

Einleitung - Der ALLBUS Datensatz 2006[edit]

Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) ist eine Umfrageserie zu Einstellungen, Verhaltensweisen und Sozialstruktur der Bevölkerung in der Bundesrepublik Deutschland. Die Erhebungen werden seit 1980 in zweijährigem Abstand durchgeführt. In persönlichen Interviews wird jeweils ein repräsentativer Querschnitt der bundesdeutschen Bevölkerung befragt. Die Grundgesamtheit der Personenstichprobe umasste im Jahr 2006 3421 Personen, wobei 2299 Befragte auf die alten Bundesländer und 1122 Befragte auf die neuen Bundesländer entfallen.

Der Personenstichprobe liegt eine zweistufige, disproportional geschichtete Zufallsauswahl in West- und Ostdeutschland aus allen deutschsprachigen Personen, die zum Befragungszeipunkt in Privathaushalten lebten und vor dem 01.01.1988 geboren sind, zugrunde. Dabei wurden in der ersten Auswahlstufe Gemeinden in Westdeutschland und Ostdeutschland mit einer Wahrscheinlichkeit proportional zur Zahl ihrer erwachsenen Einwohner ausgewählt, in der zweiten Auswahlstufe wurden schließlich Personen aus den Einwohnermeldekarteien zufällig gezogen.

Der in dieser Arbeit benutzte Datensatz ist der sogenannte ALLBUScompact Datensatz, der statt der 740 Variablen lediglich 386 tatsächlich beinhaltet, was aber für die folgende Analyse, die sich stark am Skript von Herrn Prof. Dr. Bernd Rönz(2001) orientiert, ausreichend ist.

Datenanalyse[edit]

Entdeckung und Identifikation von Ausreissern[edit]

Der Stem-and-Leaf Plot[edit]

Das erste Verfahren zur möglichen Entdeckung von Ausreissern bei einer univariaten Datenanalyse ist der Stem-and-Leaf Plot. Anhand der Variable für das persönliche Nettoeinkommen in Euro (v381) soll dieses Verfahren demonstriert werden.


Abb.1: Stem and Leaf Plot
Abb.1.1: Potentielle Ausreisser


In Abb.1 sowie Abb.1.1 sehen wir den SPSS-Output: Der erste Blick auf den Plot lässt eine rechtsschiefe Verteilung erahnen, auf die noch später eingegangen wird. Zu prüfen wird sein, ob die angegebenen 92 Extremwerte Ausreisser darstellen, und inwiefern sie die Verteilung beeinflussen. Die Stamm-Einheit beträgt 100, sodass die Blätter des Plots Zehner angeben, wobei jedes Blatt fünf Fälle anzeigt. In Abb.1.1 werden zusätzlich die fünf höchsten beziehungsweise niedrigsten Werte angezeigt, die zudem anhand der Variable "Ost-West" gekennzeichnet sind. Nicht allzu überraschend, stammen die Personen mit den höchsten Einkommen aus den alten Bundesländern.


Der Boxplot[edit]

Ein weiteres graphisches Verfahren zur Entdeckung von Ausreissern ist der Boxplot. Wie zuvor soll auch hier die Variable für das Nettoeinkommen herangezogen werden. Abb.2 veranschaulicht das Ergebnis für Gesamtdeutschland sowie unterteilt nach alten und neuen Bundesländern. SPSS kennzeichnet im Boxplot extreme Werte durch einen Kreis, wenn sie zwischen dem 1,5fachen und dem 3fachen des Interquartilsabstandes von der Box entfernt liegen, und durch einen Stern, wenn sie mehr als das 3fache des Interquartilsabstandes von der Box entfernt sind. Wie man anhand den Abbildungen sehen kann, sind zwar viele Extremwerte definiert, jedoch könnte man intuitiv nicht mit Bestimmtheit sagen, dass die höchsten Werte Ausreisser darstellen. Weitere Untersuchungen sind demnach notwendig.

Abb.2: Boxplots für das Nettoeinkommen in €

Weitere Verfahren[edit]

Verfahren zur Ausreisser- und Clusterentdeckung, die bei der univariaten und multivariaten Datenanalyse verwendet werden sind unter anderem der Scatterplot sowie der Andrews Plot. Aufgrund der Beschaffenheit des hier verwendeten Datensatzes konnte kein aussagekräftiges Ergebnis generiert werden.


Ausreissertests[edit]

Da die behandelten Ausreissertests nicht in SPSS implementiert sind, ist eine genauere Untersuchung schwierig. Zwar ließen sich mittels des SPSS Outputs Werte bestimmen, welche sich jedoch nicht mit den kritischen Werten der für die jeweiligen Tests erstellen Tabellen abgleichen ließen.


Prüfung der Verteilungform von Variablen[edit]


In diesem Teil der Arbeit werden ausgesuchte Variablen des ALLBUS Datensatzes mittels der explorativen und konfirmatorischen Datenanalyse auf ihre Verteilung hin untersucht. Eine solche Untersuchung dient einerseits der effizienten Präsentation der Daten und ermöglicht somit eine intuitive Interpretation. Zum anderen setzen viele statistische Verfahren bestimmte Verteilungen voraus, insbesondere bei metrisch skalierten Variablen kommt der sogenannten Normalverteilung eine besondere Rolle zu.


Explorative Datenanalyse[edit]

Das Balkendiagramm eignet sich vor allem für nominalskalierte und ordinalskalierte Variablen, indem es die Häufigkeit jeder Variablenausprägung einer Variablen X als separaten Balken darstellt. Das gruppierte Balkendiagramm stellt die Häufigkeitsverteilung einer Variablen X separiert nach den Ausprägungen einer Gruppierungs- oder Faktorvariablen Y dar, womit sich bedingte Häufigkeitsverteilungen ergeben. Abb.3 stellt beide Versionen dar. Auf der linken Seite das einfache Balkendiagramm der Variable "Alter"(kategorisiert). Daneben ein gruppiertes Balkendiagramm, welches die Häufigkeitsverteilung der Variablen "Wirtschaftslage in Deutschland heute" separiert nach den Ausprägungen der Faktorvariablen "Alter" darstellt.

Abb.3: Einfaches Balkendiagramm und gruppiertes Balkendiagramm

Der bereits erwähnte Boxplot sowie Stem-and-Leaf-Plot eignen sich ebenfalls dazu, erste Aussagen über die Verteilung zu machen. In Abb.1, in der das Nettoeinkommen mittels des Stem-and-Leaf-Plots dargestellt wird, erkennt man eine rechtsschiefe Verteilung. Die gleiche Erkenntnis zieht man aus Abb.4, in der das persönliche Nettoeinkommen nach dem Geschlecht separiert wurde.

Abb.4: Verteilung anhand des Boxplots


Mit dem Histogramm kommt eine weitere graphische Darstellungsmöglichkeit der Häufigkeitsverteilung hinzu. Bei der Erstellung eines Histogramms ergeben sich zwei Probleme: die Wahl des Startpunktes und die Wahl der Klassenbreiten. Beide Faktoren beeinflussen das Bild des Histogramms und damit auch die Auswertung. Anhand der Variable "Persönliches Nettoeinkommen in €" soll dieses Problem veranschaulicht werden. In der linken Graphik der Abb.5 ist der SPSS-Output mit den vorgegebenen Einstellungen dargstellt. Die Klassenbreite beträgt hier b=200,der Startpunkt liegt bei x_{0}=0 und der Wertebereich erfasst die Werte 0 bis 8000. Bei der mittleren Graphik wurde die Klassenbreite auf b=300 gesetzt und die fünf höchsten Werte gemäß Abb.1.1 wurden ausgeklammert, sodass der Wertebereich nun bei 0 bis 6000 liegt. Die letzte Graphik schließlich zeigt die Häufigkeitsverteilung bei einer Klassenbreite von b=400 und einem Wertebereich von 0 bis 4000. Die Erhöhung der Klassenbreite führt zu einer Glättung des Histogramms, wobei wichtige Eigenschaften der Verteilung erhalten bleiben. Da die Vorgehensweise bei der Wahl der Klassenbreite intuitiv und damit subjektiv ist, sollen nun noch zwei Regeln zur rechnerischen Ermittlung der Klassenbreite hinzugezogen werden:

1.)b_{1}=\frac {3,48 \cdot\ s}{\sqrt[3]{n}} 2.) b_{2}=\frac {2\cdot\ IQR}{\sqrt[3]{n}}

Mit s= 872,29, n=2644 sowie IQR= 950 ergeben sich für b_{1}=220 und für b_{2}=137.

Abb.5: Histogramme mit verschiedenen Klassenbreiten und Wertebereichen


Im SPSS-Output der Histogramme lässt sich, wie in Abb.5 ersichtlich, die Kurve der Normalverteilung anzeigen. Eine weitere Möglichkeit grafisch zu prüfen, ob die empirische Verteilung einer stetigen Variablen einer angenommenen Testverteilung entspricht, also in diesem Fall der Normalveteilung, bieten die Wahrscheinlichkeitsplots. Im folgenden soll wiederum anhand der Variable "Persönliches Nettoeinkommen in €" mittels des (trendbereinigtem) P-P Plot sowie des (trendbereinigtem) Q-Q Plot geprüft werden inwieweit die Verteilung dedr Variablen der Normalverteilung entspricht.

Abb.6: Wahrscheinlichkeitsplots mit Test auf Normalverteilung

Die relativ starke Abweichung am oberen Ende des Q-Q Plots von der Normalverteilung, die durch die Winkelhalbierende angedeutet wird, signalisiert die bereits angesprochene Rechtsschiefe. Bei einer Normalverteilung in der Grundgesamtheit sollten alle Punkte mehr oder weniger auf der Geraden liegen, was hier augenscheinlich nicht der Fall ist. Ein anderes Bild ergibt sich, wenn man die Variable transformiert, bespielsweise mit einer ln-Transformation. Nachfolgend das Ergebnis der ln-transformierten Variable "Nettoeinkommen in €". Eine sichtbare Annäherung an die Normalverteilung konnte durch die Transformation erreicht werden.

Abb.6.1: Histogramm und Q-Q Plot für die ln-transformierte Variable

Statistische Tests[edit]

Da die "sichtbare" Verbesserung durch die ln-Transformation eine recht subjektive Aussage ist, soll jene in diesem Kapitel anhand von nichtparametrischen Tests entweder bestärkt oder verworfen werden. Mittels des Kolmogorov-Smirnov-Tests soll die vorangegangene Analyse erweitert werden. Folgende Voraussetzungen müssen für diesen Test erfüllt sein:

Abb.8: Kolmogorov.Smirnov-Test
  • Die Variable X muß metrisches Skalenniveau aufweisen.
  • Die Variable X darf nicht klassiert vorliegen
  • Die theoretische Verteilung F_0(x) muß stetig sein.
  • Die Parameter der hypothetischen Verteilung F_0(x) müssen vollständig bekannt sein

Da letztere nicht erfüllt ist, da \mu und \sigma^2 im allgemeinen unbekannt sind, werden diese unbekannten Parameter der Normalverteilung dann durch die Schätzungen \bar x und s aus der Stichprobe ersetzt. Die Nullhypothese lautet somit wie folgt:

H_0 = Die Stichprobe stammt aus einer Grundgesamtheit mit einer Normalverteilung N(\mu;\sigma^2), wobei \mu und \sigma^2 unbekannt

Wenn Sig. \le \alpha ist, wird die Nullhypothese H_0 aufgrund der Stichprobe vom Umfang n und zum vorgegebenen Signifikanzniveau abgelehnt; wenn Sig. \ge \alpha ist, besteht keine Veranlassung, die Nullhypothese zu verwerfen. Es wird sowohl die ursprügliche Variable "Nettoeinkommen" sowie die ln-transformierte Version auf Normalverteilung geprüft. Beide male muss die Nullhypothese verworfen werden.


Der Chi-Quadrat Anpassungstest soll anhand der Variable "Alter" demonstriert werden. Dabei werden verschiedene Klassifizierungen vorgenommen und unterschiedliche Verteilungen angenommen. Die Variable liegt ursprünglich in sechs Klassen vor: 1. 18-29 Jahre, 2. 30-44 Jahre, 3. 45-59 Jahre, 4. 60-74 Jahre, 5. 75-89 Jahre und 6. >90 Jahre. Eine Prüfung auf Gleichverteilung ergibt erwartungsgemäß eine Ablehnung der Nullhypothese: "Alle Altersklassen sind gleichverteilt." Es werden nun Umkodierungen vorgenommen und weiterhin auf Gleichverteilung getestet. Zunächst werden die Klassen 1. und 2. sowie 4. bis 6. zusammengefasst, sodass insgesamt drei Klassen vorhanden sind. Anschließend wird die 3. Klasse noch in die Klassen 4. bis 6. eingegliedert und auf ein Verhältnis von 43:57 getestet. Wie man in der Abbildung sehen kann, wird die Gleichverteilung stets abgelehnt. Erst bei dem Test der Verteilung auf 43:57 wird die Nullhypothese bei einem Signifikanzniveau von 5% nicht abgelehnt. Der Chi-Quadrat Wert (1,27) liegt nicht im Ablehnungsbereich (der kritische Wert liegt bei 3,851 für  \alpha=0,05)

Abb.9: Chi-Quadrat Tests


Parametervergleiche bei unabhängigen Stichproben[edit]


In diesem Kapitel interessiert die Frage, ob es wesentliche Unterschiede in der Verteilung bzw. den Parametern der Verteilung einer ausgewählten metrischen Variablen gibt, die nach den Ausprägungen einer zweiten Variablen (nominal- oder ordinalskaliert) separiert wird. Wie im vorangegangenen Kapitel gibt es die Möglichkeit, zunächst explorativ Unterschiede zu erkennen, bevor man anhand von statistischen Tests das sichbare empirisch belegt bzw. verwirft.

Explorative Analyse[edit]

Anhand des Fehlerbalken-Diagramms soll zunächst geprüft werden, inwieweit sich die Mittelwerte des Nettoeinkommens separiert nach dem Geschlecht, Alter sowie Schulabschluss unterscheiden.

Abb.10: Fehlerbalkendiagramme

Im Falle der Separierung nach dem Geschlecht ist ein eindeutiges Ergebnis zu erkennen: Die mittleren Einkommen der Frauen unterscheiden sich signifikant von denen der Männer. Bei der Separierung nach dem Alter besteht ein signifikanter Unterschied zwischen den berufstätigen Klassen (Altersspanne: 30-59 Jahre) und den nicht-berufstätigen (Alterspanne: 60-89 Jahre). Eine interessante Beobachtung kann bei der Separierung nach dem Schulabschluss gemacht werden.: Personen mit einem Hauptschulabschluss bzw. einer mittleren Reife unterscheiden sich signifikant von Personen mit einem Fachhochschulabschluss bzw. dem Abitur. Zumindest bei Personen mit einer mittleren Reife und einem Fachhochschulabschluss würde man intuitiv eine Überlappung des mittleren Einkommens erwarten, was hier jedoch nicht der Fall ist.


Statistische Tests[edit]

Mittels des Lavene-Tests soll nun die Prüfung der Stichprobenvarianzen durchgeführt werden. Die Nullhypothese lautet: "Die Stichproben stammen aus Grundgesamtheiten mit gleichen Varianzen". Dieser Test eignet sich besonders für die Variable des Nettoeinkommens, da keine Normalverteilung vorliegt. Desweiteren ist die Prüfung mehrerer Varianzen auf Gleichheit möglich. Auf einem Signifikanzniveau von 5% wird die Nullhypothesein für alle Faktorvariablen erwartungsgemäß verworfen.

Abb.11: Lavene-Tests für das Nettoeinkommen nach Geschlecht, Alter und Schulabschluss


Als nächstes soll der Test der Mittelwerte zweier Grundgesamtheiten mit ungleichen, unbekannten Varianzen durchgeführt werden. Dazu soll die Einkommensverteilung separiert nach dem Geschlecht verwendet werden, da die für diesen Test notwendigen Bedingungen bereits analysiert wurden. Im Detail müssen folgende Voraussetzungen zur Durchführung dieses Tests erfüllt sein:

  • Unabhägigkeit der Stichproben: Ist gegeben, da die Beobachtungen der Stichprobe der Männer unabhängig von den Beobachtungen der Stichprobe der Frauen sind.
  • Keine normalverteile Grundgesamtheit/Ausreichender Stichprobenumfang: Wurde mittels des Kolmogorov-Smirnof Tests bestätigt (Abb.8)/ Umfang mit n=1344 für Männer und n=1300 für Frauen ausreichend umfangreich (Abb.12)
Abb.12: Einkommen nach Geschlecht
  • Ungleiche Varianzen: Anhand des Lavene-Tests bestätigt
  • Es besteht Varianzheterogenität

Es soll auf einem Signifikanzniveau von \alpha= 0,05 geprüft werden, ob die Einkommensverteilung der Männer einen größeren Mittelwert aufweist als die der Frauen. Folgender Output wird realisiert:

Abb.13: Mittelwerttest zweier Grundgesamtheiten

Der mitausgegebene Lavene-Test bestätigt abermals die Varianzheterogenität, sodass die Zeile "Equal variances not assumed" für die Analyse relevant ist. Da Sig./2 kleiner 0,05 ist, wird die Nullhypothese(Einkommensmittelwert der Männer ist kleiner/gleich der Frauen) verworfen und es ist somit empirisch bestätigt, dass das mittlere Einkommen der Männer höher ist als das der Frauen.

Die gleiche Untersuchung soll abermals durchgeführt werden, jedoch mit der umkodierten Faktovariable "Alter". Diese wurde in 2 Klassen eingeteilt, Klasse 1 beinhaltet die Personen mit dem Alter 18-44, Klasse 2 repräsentiert alle Personen mit dem Alter 45-90.

Abb.14: Mittelwerttest: Einkommen mit Faktorvariable Alter

Obwohl eine leichte Überlappung zu sehen ist im Fehlerbalken-Diagramm, führt das Ergebnis letztendlich doch zur Verwerfung der Nullhypothese, dass das Einkommen der unter 45-jährigen größer/gleich der über 45-jährigen beträgt.

Literatur und Quellen[edit]

  • W. Härdle, ; L.Simar, : Applied Multivariate Statistical Analysis. Springer Verlag Berlin-Heidelberg, 2003
  • W. Härdle, ;M. Müller, ;S. Sperlich, ;A. Werwatz: Nonparametric and Semiparametric Models. Springer Verlag Berlin-Heidelberg, 2004
  • Rönz, B. (2001), Skript: Computergestützte Statistik I, Vorlesungsskript, Humboldt Universität Berlin

Internet: