Analyse des Mikrozensus 1998 - Mieten in Deutschland

From Teachwiki
Jump to: navigation, search

Einleitung[edit]

In der vorliegenden Arbeit werden verschiedene, in der Vorlesung "Computergestützte Statistik Wintersemester" behandelte, Methoden angewendet. Da diese zu einem grossen Teil ein metrisches Skalenniveau der untersuchten Variablen voraussetzen, konzentriert sich die Analyse hauptsächlich auf eine im Abschnitt 2 beschriebene Variable, deren Antworten in relativ vielen Klassen vorliegen, so dass sie als nahezu metrisch skaliert angesehen werden kann. Die betrachtete Variable wird im Abschnitt 3 zunächst auf Ausreisser hin untersucht und im Abschnitt 4 bezüglich ihrer Verteilungsform analysiert. Im Abschnitt 5 schliesslich werden die Parameter verschiedener Untergruppen miteinander verglichen und inhaltliche Aussagen getroffen.

Daten[edit]

Im Rahmen des Mikrozensus wird jedes Jahr ein Prozent der Haushalte in Deutschland zum Familien- und Haushaltszusammenhang, zur Erwerbstätigkeit, zum Einkommen sowie zur Ausbildung befragt. Im Jahre 1998 umfasste die Befragung ausserdem einen zusätzlichen Fragenblock zur Wohnsituation, welcher freiwillig beantwortet werden konnte.

Für diese Arbeit wird das von den Forschungsdatenzentren der Statistischen Ämter erstellte Campus-File verwendet. Hierbei handelt es sich um eine anonymisierte 3,5%-Wohnungsstichprobe aus den Originaldaten des Mikrozensus 1998, welche 199 Angaben zu 25410 Personen umfasst.

Im Zentrum des Interesses steht im Folgenden die Variable "Wie hoch war Ihre Miete im April 1998?". Die Antworten liegen in 284 Klassen vor. Die Klassenbreiten reichen von 5,- bis 600,-DM. Die letzte Klasse umfasst jedoch sogar fast 6000,-DM ("4001,- bis 9998,-DM"). Im Datensatz sind die Antworten jeweils als Klassenober- bzw. -untergrenzen codiert. Für die Analyse werden diese einheitlich durch die jeweiligen Klassenmitten ersetzt und die entsprechende Variable kurz als "Monatsmiete" bezeichnet. Es werden im Folgenden nur die 12221 Personen berücksichtigt, welche ihre Wohnung als Hauptmieter bewohnen und auf die o.g. Frage eine gültige Antwort gegeben haben.

Analyse[edit]

Ausreisser[edit]

Rönz (2001) definiert Ausreisser als "extreme Beobachtungswerte (...), die qualitativ von der Gesamtheit abweichende statistische Elemente signalisieren". Bevor mit der eigentlichen Analyse begonnen werden kann, ist zu prüfen, ob der Datensatz Ausreisser enthält und ggf. zu entscheiden, wie diese behandelt werden, um zu vermeiden, dass sie in weiteren Schritten zu Verzerrungen der Ergebnisse führen.

Zur Entdeckung von Ausreissern stehen diverse Verfahren zur Verfügung, von denen in diesem Abschnitt eine Auswahl angewandt wird.

Um einen ersten Eindruck von dem verwendeten Datensatz zu gewinnen, wird in der Abbildung 1 ein Stem & Leaf Plot für die Variable Monatsmiete dargestellt. Aus diesem ist abzulesen, welche Werte unter den Beobachtungen wie häufig auftreten. So steht beispielsweise das Blatt "4" in der ersten Zeile für 20 von den 32 Beobachtungen mit Werten kleiner als 50 und das angefangene Blatt "&" für die restlichen 12. Da die 32 Beobachtungen auch kleiner als 100 sind, ist ihr Stamm "0" usw.

Abb. 1: Stem & Leaf Plot Monatsmiete

Monatsmiete Stem-and-Leaf Plot

 Frequency    Stem &  Leaf

    32,00        0 .  4&
    72,00        0 .  899&
    52,00        1 .  44&
   112,00        1 .  57999&
   188,00        2 .  011234444
   244,00        2 .  566778999999
   331,00        3 .  0011122333344444
   449,00        3 .  5556667777888899999999
   565,00        4 .  0000111111222223333344444444
   789,00        4 .  555556666666677777778888889999999999999
   756,00        5 .  00000111111112222222233333444444444444
   908,00        5 .  555555566666666777777778888899999999999999999
   782,00        6 .  0000001111111222222223333333344444444444
   845,00        6 .  555555666666677777777788888899999999999999
   770,00        7 .  00000011111112222223333333444444444444
   810,00        7 .  55555566666667777777788888899999999999999
   572,00        8 .  0001111222233333344444444444
   553,00        8 .  5555666677778888899999999999
   517,00        9 .  0000111112222333344444444
   475,00        9 .  55566677788999999999999
   302,00       10 .  00112223344444
   313,00       10 .  566778999999999
   243,00       11 .  001122234444
   270,00       11 .  5667789999999
   179,00       12 .  011223444
   140,00       12 .  56789999
   113,00       13 .  123444&
   149,00       13 .  56789999
    66,00       14 .  244&
   114,00       14 .  57999&
    56,00       15 .  124&
    20,00       15 .  6&
   434,00 Extremes    (>=1576)

 Stem width:     100,0
 Each leaf:      20 case(s)

 & denotes fractional leaves.

Der Stem & Leaf Plot kann bereits erste Hinweise auf die Verteilungsform liefern. In diesem Fall weist der Plot eine gewisse Ähnlichkeit mit einem um 90° gedrehten Histogramm einer normalverteilten Variable auf. In der letzten Zeile des Stem & Leaf Plots wird angegeben, dass 434 Beobachtungen Werte ab 1576,-DM aufweisen und von SPSS bereits als Extremwerte betrachtet werden. Diese Information wird in den folgenden Schritten näher untersucht, bevor im nächsten Abschnitt genauere Aussagen zur Verteilung der Variablen Monatsmiete gemacht werden.

Der Boxplot fasst verschiedene Masszahlen der Verteilung einer Variablen in einer Grafik zusammen. Die Linie innerhalb der Box steht für den Median, die obere und untere Grenze der Box für das 75%- bzw. 25%-Quartil, so dass die Höhe der Box gleich dem Interquartilsabstand (IQR) ist. Die "Barthaare" reichen bis zum grössten bzw. kleinsten Wert innerhalb des 1,5-fachen IQR. Werte, zwischen dem 1,5- und 3-fachen IQR werden als Kreise, ausserhalb des 3-fachen IQR als Sterne dargestellt.

Die Abbildung 2 stellt den Boxplot für die Variable Monatsmiete für alle in Frage kommenden Beobachtungen dar. Besonders auffällig ist ein Stern am oberen Ende, der weit von den übrigen Werten entfernt liegt. Bei näherer Betrachtung dieses Punktes wird deutlich, dass es sich hierbei nicht um einen einzelnen Ausreisser handelt. Vielmehr liegen hier alle sechs Beobachtungen aus der höchsten Klasse übereinander, womit eher eine "Ausreisserklasse" vorliegt. Wie weit die einzelnen Beobachtungen voneinander entfernt liegen, ist aufgrund ihrer Klassierung nicht mehr erkenntlich. Die Klassenbreiten nehmen am oberen Ende zu, so dass ihre Mittelpunkte entsprechend weiter von den übrigen Werten entfernt liegen. Da es im oberen Wertebereich in der Tat nur wenige Beobachtungen gibt, liegt die Vermutung nahe, dass diese bereits von den für die Erstellung des Campus-Files zuständigen Mitarbeitern der Forschungsdatenzentren als Ausreisser angesehen und in "Restklassen" zusammengefasst wurden. Für die weiteren Analysen werden daher die nur noch diejenigen Klassen berücksichtigt, deren Breiten zwischen 5,- und 20,-DM betragen. Dies entspricht etwa 91% aller Hauptmieter im Datensatz und umfasst Monatsmieten bis einschliesslich 1700,-DM. Der um die oberen Klassen reduzierte Boxplot ist in Abbildung 3 dargestellt. Die Grafik scheint im Gegensatz zur vorherigen entzerrt, weist aber noch immer zahlreiche Extremwerte am oberen Ende auf, was auf eine rechtsschiefe Verteilung der Variable hindeutet.

Abb. 2: Boxplot Monatsmiete Abb. 3: Boxplot Monatsmiete bis 1700,-DM
Csbox1.png Csbox2.png


Eine weiteres Mittel, um u.a. mögliche Ausreisser zu entdecken besteht darin, die interessierende Variable im Zusammenhang mit einem anderen Merkmal in einem Scatterplot darzustellen. In der Abbildung 4 werden die Werte der Monatsmiete gegen die Wohnungsgrösse (Werte ebenfalls durch die Klassenmitten ersetzt) abgetragen. Erwartungsgemäss zeigt die Punktwolke einen deutlich positiven Zusammenhang zwischen beiden Variablen. Da die Monatsmiete im vorangegangenen Schritt auf Werte bis 1700,-DM beschränkt wurde, ist die Punktwolke in Bezug auf diese Variable nach oben hin klar begrenzt. Ausreisser sind daher nur hinsichtlich der Wohnungsgrösse erkennbar, sollen hier jedoch nicht näher betrachtet werden.

Auffällig ist, dass die Punktwolke im oberen Teil dünner besetzt ist, was wiederum für eine Rechtsschiefe der Verteilung der Monatsmiete spricht.

Abb. 4: Scatterplot Monatsmiete und Wohnungsgrösse

Verteilung[edit]

Nachdem im vorangegangenen Abschnitt bereits am Rande einige Merkmale der Verteilung der Monatsmiete identifiziert wurden, soll nun gezielt die Verteilungsform etwas genauer untersucht werden. Insbesondere gilt es zu klären, ob eine Normalverteilung angenommen werden kann.

Die Abbildung 5 zeigt ein Histogramm für die Monatsmiete. Ein erster Blick auf den Verlauf der Balken könnte eine Normalverteilung vermuten lassen. Der Vergleich mit der ebenfalls eingezeichneten entsprechenden Normalverteilungskurve deutet jedoch wiederum auf eine gewisse Rechtsschiefe hin.

Abb. 5: Histogramm Monatsmiete

Wahrscheinlichkeitsplots dienen insbesondere zur Beantwortung der Frage, ob eine beobachtete von einer theoretischen Verteilung abweicht.

Im Normal Q-Q Plot in der Abbildung 6 werden die unter Normalverteilung erwarteten Quantile gegen die Quantile aus dem Datensatz abgetragen. Ist die untersuchte Variable normalverteilt, so liegen die ermittelten Punkte nahezu auf der 45° Linie. Abweichungen wird es bei der Verwendung realer Daten in der Regel immer geben. Von Interesse ist jedoch, ob diese systematisch auftreten und damit gegen eine Normalverteilung sprechen. In diesem Fall scheinen sich die beobachteten Quantile nur an den Enden von den erwarteten zu unterscheiden.
Abb. 6: Normal Q-Q Plot Monatsmiete
Die Systematik der Abweichungen von der Normalverteilung ist im trendbereinigten Normal Q-Q Plot in Abbildung 7 noch besser zu erkennen. Hier werden die Differenzen der beobachteten von den erwarteten Werten dargestellt. Bei Vorliegen einer Normalverteilung betragen diese Null. Systematische Abweichungen von der horizontalen Null-Linie sprechen gegen die Normalverteilung. Im Gegensatz zur Abbildung 6 ist hier zu erkennen, dass auch die beobachteten Werte in der Mitte nicht mit der Normalverteilung übereinstimmen.
Abb. 7: Trendbereinigter Normal Q-Q Plot Monatsmiete

Die bisher betrachteten Grafiken deuten darauf hin, dass die Variable Monatsmiete nicht normalverteilt ist. Weitere Informationen über die Art der Abweichung der empirischen von der Normalverteilung können durch verschiedene Kenngrössen gewonnen werden. Die Abbildung 8 gibt die Schiefe und die Kurtosis für die Monatsmiete an.


Abb. 8: Schiefe und Kurtosis Monatsmiete

Csskew.png

Beide Masszahlen betragen für eine Normalverteilung Null. Eine positive Schiefe, wie in diesem Fall von 0,585, besagt, dass die Verteilung rechtsschief ist. Die positive Kurtosis (auch "Exzess") von 0,199 spricht für eine leptokurtische (steiler als die Normalverteilung) Form der Verteilung. Somit bestätigen diese Kenngrössen den Eindruck, der bereits bei der Betrachtung des Histogramms in Abbildung 5 gewonnen wurde.

Nachdem alle bisher angewandten Verfahren gegen eine Normalverteilung sprechen, ist zu überprüfen, ob die Abweichungen der beobachteten Verteilung der Monatsmiete signifikant sind.

Abb. 9: Kolmogorov-Smirnov Test Monatsmiete

Csksm.png

Dazu wird ein Kolmogorov-Smirnov Test durchgeführt, dessen Ergebnis in Abbildung 9 zusammengefasst wird. Die Nullhypothese der Normalverteilung der geprüften Variable wird auf allen gängigen Signifikanzniveaus (z.B. 10%, 5%, 1%) verworfen. Auch die Transformation der Variablen Monatsmiete führt nicht zu einer Normalverteilung. Allgemein lehnt der Kolmogorov-Smirnov Test die Normalverteilungsannahme bei grossen Stichprobenumfängen relativ schnell ab. Da jedoch auch sämtliche vorher verwendeten Verfahren dagegen sprechen, kann im Folgenden nicht davon ausgegangen werden, dass die Variable normalverteilt ist.

Parametervergleiche[edit]

In diesem Abschnitt werden die Beobachtungen in unabhängige Stichproben geteilt und so auf Unterschiede in der Variablen Monatsmiete zwischen verschiedenen Untergruppen untersucht.

Region[edit]

Zunächst werden die Beobachtungen in die Regionen "West" und "Ost" aufgeteilt.

In Abbildung 10 werden für beide Teilstichproben die jeweiligen Boxplots der Monatsmieten dargestellt. Offensichtlich bestehen Unterschiede zwischen den beiden Verteilungen: Die Quartile der Monatsmiete im Westen liegen etwas höher und im Osten gelten höhere Werte eher als Ausreisser.

Im Fehlerbalkendiagramm in der Abbildung 11 erkennt man zudem, dass zwischen den Mittelwerten der beiden Teilgruppen ein signifikanter Unterschied besteht: Zwischen den 95%-Konfidenzintervallen für die Mittelwerte liegt ein Abstand von mehr als 100,-DM.

Abb. 10: Boxplots Monatsmiete nach Region
Abb. 11: Fehlerbalken Monatsmiete nach Region

Bevor letztere Aussage durch einen Test geprüft werden kann, ist zu bestimmen, ob die Varianzen in West und Ost gleich gross sind.

Abb. 12: Levene-Test Monatsmiete nach Region Cslev1.png

Da auch die einzelnen Teilstichproben nicht normalverteilt sind, wird der Levene-Test benutzt, um zu prüfen ob sie aus Grundgesamtheiten mit gleichen Varianzen stammen. Die Ergebnisse in Abbildung 12 zeigen, dass die Nullhypothese gleicher Varianzen der Monatsmiete in West und Ost verworfen wird.

Um zu prüfen, ob die Mittelwerte der Monatsmiete in den Regionen gleich sind, wird der Welch-Test verwendet. Seine Ergebnisse sind in Abbildung 13 dargestellt.

Abb. 13: Welch-Test Monatsmiete nach Region

Cswelch1.png

Dieser bestätigt erwartungsgemäss die Aussage des Fehlerbalkendiagramms in Abbildung 11. Die durchschnittliche Monatsmiete liegt ist im Westen signifikant höher als im Osten.

Familienstand[edit]

Eine weitere Gruppierungsmöglichkeit bietet der Familienstand der Befragten. Hier wird unterschieden zwischen "ledig", "verheiratet", "verwitwet" und "geschieden".

Die Boxplots für die vier Teilstichproben sind in Abbildung 14 dargestellt. Zunächst fällt auf, dass die Boxen Lediger und Verheirateter sich sehr ähnlich sind, etwas höher liegen und breiter sind als die übrigen. Das Fehlerbalkendiagramm in Abbildung 15 lässt signifikante Unterschiede zwischen den Mittelwerten aller Untergruppen, mit Ausnahme der Ledigen und Verheirateten, erkennen.
Abb. 14: Boxplots Monatsmiete nach Familienstand
Error creating thumbnail: File missing
Abb. 15: Fehlerbalken Monatsmiete nach Familienstand

Da laut Levene-Test die Varianzen der Monatsmiete in den Teilstichproben wiederum unterschiedlich gross sind, wird zur Prüfung auf Gleichheit ihrer Mittelwerte der Kruskal-Wallis-Test durchgeführt.

Abb. 16: Kruskal-Wallis-Test Monatsmiete nach Familienstand

Cskw.png

Das Testergebnis des Kruskal-Wallis-Tests ist in Abbildung 16 zusammengefasst. Die Verwerfung der Nullhypothese bedeutet hier, dass es mindestens ein Paar von Teilstichproben gibt, deren Mittelwerte sich signifikant unterscheiden.

Um zu bestimmen, wo genau die Unterschiede zwischen den Mittelwerten der Monatsmiete verschiedener Familienstände liegen, ist ein Post-Hoc-Test durchzuführen. Die Ergebnisse des Scheffé-Tests sind in Abbildung 17 dargestellt.

Abb. 17: Scheffé-Test Monatsmiete nach Familienstand Csscheff1.png

Danach bestehen zwischen allen Teilgruppen signifikante Unterschiede in den Mittelwerten der Monatsmieten, ausser zwischen den Verheirateten und Ledigen.

Abb. 18: Homogene Untergruppen Monatsmiete nach Familienstand

Cshom1.png

Somit können letztere, wie in Abbildung 18 dargestellt, als eine homogene Untergruppe zusammengefasst werden, während Verwitwete und Geschiedene jeweils eine eigenständige Gruppe bilden. Die durchschnittlichen Monatsmieten Lediger und Verheirateter sind daher signifikant höher als die Geschiedener, welche wiederum signifikant höher sind als die Verwitweter.

Dieses Ergebnis erscheint sinnvoll, da anzunehmen ist, dass z.B. geschiedene Personen häufiger allein (d.h. ohne Partner) leben als verheiratete und somit nur eine kleinere Wohnung benötigen (s. dazu Abbildung 4). Weiterhin sind z.B. Verwitwete vermutlich durchschnittlich älter als die anderen Personengruppen, so dass seltener Kinder mit in ihrem Haushalt wohnen und sie häufiger nicht mehr erwerbstätig sind, was wiederum dazu führt, dass sie kleinere Wohnungen benötigen und dafür weniger Geld zur Verfügung haben.

Heizungsart[edit]

Die Angabe der für die Beheizung der Wohnung überwiegend verwendeten Energieart ermöglicht die Unterteilung der Beobachtungen in sieben Teilstichproben: Beheizung mit Fernwärme, Gas, Elektrizität, Heizöl, Briketts/Braunkohle, Koks/Steinkohle und Holz/sonstigen erneuerbaren Energien. Auf diese Gruppen werden die gleichen Methoden wie bei der Unterscheidung nach dem Familienstand angewendet.

Aus den Boxplots in Abbildung 19 ist bereits ersichtlich, dass die Monatsmiete für die verschiedenen Heizungsarten unterschiedlich verteilt ist. Die Boxen für Fernwärme, Gas, Elektrizität und Heizöl liegen etwas höher als die übrigen. Die Fehlerbalken in Abbildung 20 zeigen signifikante Unterschiede zwischen fast allen Mittelwerten. Allein die Konfidenzintervalle für die Mittelwerte der Monatsmieten von Wohnungen, die mit Koks/Steinkohle oder Holz beheizt werden, überlappen sich deutlich.
Abb. 19: Boxplots Monatsmiete nach Heizungsart
Abb. 20: Fehlerbalken Monatsmiete nach Heizungsart

Nachdem mittels des Levene-Tests festgestellt wird, dass die Varianzen der Monatsmiete in den einzelnen Teilgruppen verschieden sind, bestätigt der Kruskal-Wallis-Test, dass auch zwischen den Mittelwerten signifikante Unterschiede vorliegen. Der Scheffé-Test prüft wiederum, welche der Mittelwerte sich signifikant unterscheiden und bestimmt fünf homogene Untergruppen, wie in Abbildung 21 dargestellt.

Abb. 21: Homogene Untergruppen Monatsmiete nach Heizungsart

Cshom2.png

Die Untergruppen sind, anders als bei der Unterscheidung nach dem Familienstand, nicht klar getrennt, sondern überlappen einander. Deutlich ist jedoch, dass die durchschnittlichen Monatsmieten für Wohnungen mit moderneren Heizungsarten wie Gas, Heizöl, Fernwärme und Elektrizität höher sind als für solche, die mit Briketts/Braunkohle, Koks/Steinkohle oder Holz beheizt werden.

Fazit[edit]

Die Analyse der Daten gestaltete sich etwas problematisch. Aufgrund der Klassierung der betrachteten Variable und insbesondere der unterschiedlichen Klassenbreiten ist es kaum möglich, Ausreisser zu identifizieren. Des weiteren kann auch nach dem Ausschluss von "Ausreisserklassen" oder Transformationen der Daten keine Normalverteilung angenommen werden. Dadurch wird die Auswahl der zur Analyse geeigneten Methoden deutlich eingeschränkt. Mit den verwendeten Verfahren konnten dennoch sinnvolle (d.h. den Erwartungen entsprechende) Ergebnisse ermittelt werden: Höhere Mieten werden demnach gezahlt

  • in Westdeutschland,
  • von Verheirateten und Ledigen und
  • für modernere Heizungsarten.

Literatur[edit]