Kinder kriegen: eine Frage von Geld oder Liebe?

From Teachwiki
Jump to: navigation, search

Untersuchung von Zusammenhängen zwischen der Kinderzahl und dem Einkommen anhand einer Korrespondenz Analyse

Abstract[edit]

Diese Arbeit untersucht den Zusammenhang zwischen dem Einkommen und der Kinderanzahl. Im ersten Teil geht es um die Vorbereitung der Daten zur Erstellung der Variablen. Es wird die Datenbank vorgestellt, insbesondere das Vorgehen zu ihrem Aufbau, und der Fragebogen wird beschrieben. Im Hinblick auf die Variablen bezüglich der Familie werden zwei unterschiedliche Konzepte diskutiert. Anschliessend wird die Durchführung der Untersuchung vorgestellt. Die vorbereitenden Untersuchungen umfassen die grafischen Darstellungen, die Tests für Unabhängigkeit und verschiedene Korrelationskoeffizienten. Schliesslich wird eine Korrspondenz Analyse durchgeführt. Nach der ausführlichen Besprechung der resultierenden Daten folgt die Betrachtung der Grafik. Es wird unter anderem die Möglichkeit diskutiert, eine Gruppe von der Analyse auszuschliessen. Die Ergebnisse zeigen deutlich, dass das Einkommen sehr wohl einen Einfluss auf die Kinderanzahl ausübt, und zwar in dem Sinne, dass höheres Einkommen mit einer grösseren Kinderanzahl korreliert.


Die Daten[edit]

Diese Arbeit beruht auf dem Mikrozensus Campus File 1998. Dies ist eine Datenbank, die für das Publikum zur Verfügung steht. Sie stammt aus dem Mikrozensus 98, die eine 1% Bevölkerungsstichprobe ist. Es wurden Fragebogen an etwa 370 0000 zufällig und repräsentativ ausgewählte Haushalte geschickt. Es gab grundsätzlich einen Fragebogen pro Haushalt, in dem allgemeine Fragen über den Haushalt (Zahl der Leuten, gemeinsames Nettoeinkommen…) die Wohnung (Art des Gebäudes, der Heizung, Grösse und Alter des Gebäudes) gestellt wurden, die nur eine Person (im Text: die Bezugsperson) ausfüllen musste. Es wurden dazu einzelne Fragen an jedes Mitglied des Haushaltes zu seinen Personalien (Alter, Staatsangehörigkeit, Einkommen, Ausbildung, Erwerbstätigkeit…) gestellt. Insgesamt gab es 120 Fragen, die nur durch die Bezugsperson oder durch alle auszufüllen waren. Aus dem Originalmaterial wurden 70 % für die Datenbank „Scientific Use File Mikrozensus 98“ verwendet, welche den Forschern und Forschungsinstituten, aber nicht dem Publikum zur Verfügung steht, unter anderem wegen des Datenschutzes.

Mit dem Ziel, eine konsequente und anonyme Datenbank für Studenten und Lehrer bereitzustellen, damit sie diese für verschiedene Übungen, kleine statistische Analysen und Demonstrationen benutzen können, wurde das Campus File hergestellt. Dazu wurden durch Anonymisierung ca. 5% der Daten beibehalten, was 24621 Personen umfasst, die aus 12271 Haushalten kommen. Ausgehend von den 120 Fragen des Fragebogens wurden 195 Variablen eruiert, die man in drei grobe Gruppen einteilen kann:

  • Angaben zur Person (Alter, Geschlecht, Staatsangehörigkeit, Schulbesuch)
  • Angaben über die Erwerbstätigkeit (Haupt- und Nebentätigkeit, Beruf, Wirtschaftzweig, Arbeitsuche, Lohn…)
  • Angaben über die Wohnung und deren Bewohner

Bei der Lektüre der Gruppen entstehen zwei verschiedene Konzepte der Familie. Das erste Konzept ist unter dem „Traditionellen Familienkonzept“ bekannt und das zweite unter den „Neuen Lebensformen“. Das traditionelle Konzept unterscheidet drei Einheiten: die Wohnung, den Haushalt und die Familie. Diese beziehen sich auf andere Ebenen, wobei die Wohnung der Oberbegriff ist, der die zwei anderen umfasst. Die Wohnung ist der Ort, wo die Leute gemeinsam wohnen, und kann vom Einzelzimmer bis zum ganzen Haus reichen. Hinsichtlich des Haushaltes lautet die Definition: „Jede zusammen wohnende und eine wirtschaftliche Einheit bildende Personengemeinschaft sowie Personen, die allein wohnen und wirtschaften. „ Die Begriffbestimmung des Haushaltes beruht also nicht nur auf dem gemeinsamen Wohnen, sondern auch auf einer gemeinsamen Haushaltführung. Darin besteht der Unterschied mit der Wohnung, die nur der Ort des gemeinsamen Wohnens ist. Eine Wohnung kann also aus vielen Haushalten bestehen, was der Fall der Wohngemeinschaft ist. Die Familie wird nach dem Ehe- oder dem Abstammungsprinzip definiert. Das heisst, Ehepaare ohne Kinder, Ehepaare mit Kindern und ledige Leute zahlen jedes Mal für eine Familie, während beispielsweise ein Ehepaar und die Schwägerin als zwei Familien gelten. Es kann also Haushalte mit mehreren Familien geben.

Die nächste Abbildung veranschaulicht die verschiedenen Ebenen und Situationen, die sich ergeben können. In dieser Wohnung sind zwei Haushalte. Der erste Haushalt besteht aus einem Ehepaar, und gilt somit als eine Familie. Der zweite besteht aus einem Ehepaar sowie dem Schwäger und seinem Kind. Diese werden also als zwei Familien gerechnet, aber nur als ein Haushalt, weil sie zusammen zum Beispiel die Kosten der Erziehung des Kinds teilen (Kriterium des zusammen Wirtschaftens).

Graphe langerer.jpg

Quelle: Lengerer (2005)

Diese Einteilung ist aber problematisch, weil sich die Formen des Zusammenlebens verändert haben (der erste Mikrozensus wurde 1957 eingeführt), und mehr verschiedene Situationen sind nun möglich. Viele Paare leben zusammen und haben Kinder, ohne verheiratet zu sein. Es gibt viele geschiedene Paare, die immer noch zusammen leben. Es gibt auch Paare, bei denen beide Partner geschieden sind und Kinder aus der alten und/oder neuen Ehe haben. Weiters gibt es auch Homosexuelle, die zusammen leben, usw. Um der Situation besser zu entsprechen wurde das Konzept „der neuen Lebensformen“ eingeführt. Die Einheit ist nicht mehr die Familie, sondern die Lebensgemeinschaft, die durch Partnerschaft (und nicht mehr Ehe) und Elternschaft bestimmt wird. In dem oben genannten Beispiel würden sich das traditionelle und das Konzept der neuen Lebensformen entsprechen, aber in dem Fall, in dem die zwei Personen auf der linken Seite nicht verheiratet sind, hätte man mit dem traditionellem Konzept zwei Familien und mit dem neuen eine Lebensgemeinschaft. Es ist also zu erwarten, dass es weniger Lebensgemeinschaften als Familien gibt. Zur Erinnerung: im Campus File wurden 12271 Haushalte befragt. Davon wurden 12270 (ef509 ) als Bezugsperson nach dem traditionellen Familienkonzept und nur 11661 (ef514) nach dem Konzept der neuen Lebensformen definiert. Als Ehegatte der Bezugsperson (ef509) galten 5879 Personen und als Ehegatte/Lebenspartner 6489 (ef514). Der Unterschied von 610 (6489-5879) ergibt sich aus der Zahl der nicht ehelichen Lebenspartner.

Selektion der Variablen[edit]

Für unser Ziel, Zusammenhänge zwischen der Anzahl der Kinder und dem Einkommen zu finden, ist zunächst die Anzahl der Kinder als erste Variable zu untersuchen. Da die Anzahl der Kinder nicht direkt erfragt wurde, muss sie rekonstruiert werden. Sie ist in Anbetracht der verschiedenen Lebensformen und der vielfältigen Konzepte und Definitionen kompliziert zu erlangen. Ein grosses Problem besteht in der Redundanz der Daten: jedes Mitglied einer Familie oder Lebensgemeinschaft ist in den Daten vertreten. Das heisst, dass die gemeinsamen Informationen über eine Familie mehrmals gegeben werden. Diese Mitglieder haben einzelne Angaben zu ihrer Person gegeben, aber dazu fügen sich aber auch die Angaben zu gemeinsamer Wohnung und gemeinsamem Haushalt… sowie zur Anzahl der Kinder! Das heißt auch, dass in den Daten eines Babys schon das Nettoeinkommen und die Zahl der Kinder inbegriffen sind. Folge der Betrachtung aller Individuen der Datenbank wäre eine Verzerrung der Ergebnisse durch eine Überrepräsentativität der großen Familien.

Folgendes Beispiel soll dies erläutern. Es gibt in der Datenbank nur eine Familie, die aus zwei Eltern und zehn Kindern besteht. Dementsprechend sind diese zwölf Personen in den Daten vertreten. Werden alle diese Personen in Betracht gezogen, so geht aus den Daten hervor, dass es zwölf Familien mit 10 Kindern gibt. Wir wollen die Ergebnisse aber so darstellen, dass der Fall einer 10-Kinder-Familie nur einmal aufscheint. Der erste Schritt ist also, die Kinder aus den Daten herauszunehmen. Die Kinder sollen nicht nach dem Alter, sondern mit Bezug auf die Eltern betrachtet werden. Anders gesagt, eine Person von 16 Jahren kann schon als Elternperson gelten, wenn sie außerhalb des Elternhauses wohnt, und eine Person von 27 Jahren kann als Kind gelten, solange sie im Elternhaus lebt. Glücklicherweise ist die Variable „Stellung innerhalb der Familie/Lebensgemeinschaft (ef509/ef514)“ vorhanden, welche drei mögliche Fälle enthält:

Grafik1.jpg

Auf diese Weise ist es einfach, die Kinder von den Daten auszuschließen. Es bleibt aber das Problem, dass wegen der Ehegatten die 10-Kinder-Familie immer noch zweimal erscheinen wird. Daher muss man konsequenterweise auch einen der Ehegatten/Lebenspartner ausschließen. Soll man also die Ehegatten und Lebenspartner ausschliessen und nur die Bezugspersonen in Betracht nehmen? Dies würde zwar das Problem der Redundanz teilweise lösen, aber die Daten würden ungefähr 6000 allein lebende Leute umfassen. Sind diese Personen für unser Thema relevant? Erinnern wir uns an den Titel: „Kinder Kriegen: eine Frage von Geld oder Liebe?“ Wenn es hier darum gehen soll, Zusammenhänge zwischen der Kinderzahl und dem Einkommen zu untersuchen, spielt doch die Liebe eine Rolle: Kinder zeugt man zu zweit, und allein lebende Personen haben eher keine Kinder, weil sie eher keinen Liebespartner haben. Bezogen auf die 11661 (ef514=1) Bezugspersonen in den Lebensgemeinschaften sind ca. 55% Paare, ca. 40% allein lebende Personen ohne Kinder (davon ca. 22% ledig und 18% geschieden, verwitwet, verheiratet aber getrennt lebend) und ca. 5% allein erziehende Personen (ledig, geschieden, verwitwet, verheiratet aber getrennt lebend) (ef630).

Es ist also für unser Thema gerechtfertigt, die Personen, die allein wohnen und keine Kinder haben, auszuschliessen. Ihre Gründe, keine Kinder zu haben, dürften nämlich nicht die gleichen wie die von den Paaren. Sollen die Alleinerziehenden mit Kindern behalten werden? Logischerweise sollte die Antwort ja sein. Da sie aber nur genau 6.1% der Bezugspersonen darstellen und wahrscheinlich ganz andere Eigenschaften als die Paare aufweisen (Einkommen, Grösse der Wohnung …) und daher zu grosse Unterschiede verursachen können, werden sie auch ausgeschlossen. Die für die Analyse relevanten Personen sind also die Paare, und die Daten wurden so reduziert, dass jedes Paar nur einmal erscheint. Dies wurde durch Selektion der Lebenspartner der Bezugspersonen erreicht (das heisst: ef514=2). Dieses Vorgehen entspricht der Selektion der Zusammenlebenden, wenn man nur die Bezugspersonen (ef514=2) betrachtet, ist aber viel direkter. Die Datei beträgt jetzt N= 6489, also 26.35% der originalen Datei. Das Konzept der neuen Lebensformen wurde dem traditionellen Familienkonzept vorzogen, da es wie gesagt nicht nur die Ehepaare betrachtet.

Nachdem wir jetzt bei den relevanten Paaren angelangt sind, stellt sich die Frage, wie nun die Kinderanzahl zu schätzen ist. Ideal wäre gewesen, dass man für jedes Paar die Zahl der Kinder, die das Paar geboren hat, zur Verfügung gehabt hätte. Leider ist das nicht der Fall; man kann bloss wissen, wie viele Kinder in der Familie, im Haushalt oder in der Lebensgemeinschaft leben. Leben zwei Personen zusammen als Ehegatten /Lebenspartner mit Kindern aus anderen Ehen und/oder aus dieser Ehe/Partnerschaft, werden alle Kinder gezählt. Lebt ein Kind bei Onkel und Tante, wird es als ihr Kind aufscheinen. Da drängt sich eine erneute Selektion auf. Eine solche ist aber leider nur für die nicht ehelichen Paare möglich, da nur die Variable „Type der nicht ehelichen Lebensgemeinschaften“ (ef630) Information über die Abstammung der Kinder beinhaltet. So wurden gleichgeschlechtliche Paare und Paare mit Kindern aus erster Ehe noch ausgeschlossen; insgesamt ergeben sich also 165 Individuen weniger und die Datei besteht jetzt aus 6324 Individuen, was 24.68% der originalen Datenbank darstellt.

Die Anzahl der Kinder wird in Alterskategorien aufgeteilt. So ergeben sich die Variablen „Kinder unter 3 Jahre“ (ef631), „Kinder zwischen 3 und 6 Jahren“ (ef632) usw. Um die Zahl aller Kinder zu haben, kann einfach die Summe der Variablen genommen werden. Bei dieser Operation wird aber Information verloren, weil die Variablen so gestaltet sind: • 0: kein Kind diese Alters • 1: 1 Kind dieses Alters • 2: 2 Kinder dieses Alters • 3: 3 und mehr Kinder dieses Alters

Die Summierung wird also die Fälle, wo 3 und mehr (Zwillinge, Stief- oder Pflegekinder) Kinder vorhanden sind, unterschätzen. Da diese aber höchstens 0.9% der Fälle umfassen, ist diese Unterschätzung nicht sehr bedeutend. Da nur wenige Lebensgemeinschaften 5, 6, 7, 8, 9 und 10 Kinder haben, und zwecks einer klareren grafischen Darstellung , wurden diese in eine Kategorie „4 und mehr“ zusammengetragen.

Grafik 2 Kopie.jpg

Man sieht also, dass die meisten Paare kein Kind haben, danach kommen die Paare mit zwischen einem und zwei Kindern, und nur wenige haben drei Kinder. Der Fall einer Lebensgemeinschaft mit 4 oder mehr Kindern ist die Ausnahme.

Untersuchung[edit]

Was kann die Kinderzahl am meisten beeinflussen? Ist sie nur eine Frage von Liebe oder Weltanschauung, oder kann man noch Zusammenhänge mit anderen Variablen finden? Die erste erklärende Variable, die in den Sinn kommt, ist das Einkommen. Andere Variablen könnten aber hinzukommen. Gibt es regionale Unterschiede, kulturelle und religiöse Einflüsse? Können auch die Ausbildung der Eltern, ihre wirtschaftliche Situation, ihr Beruf, ihre Arbeitzeit, oder vielleicht sogar die Grösse der Wohnung auf die Kinderzahl einen Einfluss haben?

Einige dieser Variablen finden sich in der Datenbank und andere nicht. Zunächst soll der Zusammenhang mit dem Einkommen erörtert werden. Die Kosten für die Erziehung sind heutzutage hoch. Von der Geburt bis zur beruflichen Ausbildung fallen jedes Jahr Ausgaben für Nahrungsmittel, Kleider, Krankenversicherungen, Kindergarten/Schule/Universitätsgebühren… und Freizeit an. Dazu sind noch Kosten für eine grössere Wohnung und der Zeitaufwand der Eltern hinzuzufügen. Man könnte also die Vermutung anstellen, dass die Kinderzahl umso grösser ist, je grösser das Einkommen ist. Als Information über das Einkommen stehen die Variablen personales Nettoeinkommen im April in DM (ef372) und Nettoeinkommen der Lebensgemeinschaft im April in DM (ef641) zur Verfügung. Die Auswahl der Variable „Einkommen der Lebensgemeinschaft“ ist geeignet, weil in dieser Arbeit die Einflüsse der Entscheidungen der Lebenspartner zu untersuchen sind. Diese Variable ist aber eine ordinale Variable, es wird nämlich nur darauf hingewiesen, zu welchem Klassenintervall das Einkommen der Lebensgemeinschaften gehört. Die Anzahl dieser Intervalle (18 plus drei „sonstige“) wurde auf 8 Klassen reduziert. Die achte Klasse betrifft verschiedene andere Klassen, und zwar: „Mindestens ein Mitglied der Lebensgemeinschaft ist Selbständiger Landwirt in der Haupttätigkeit“, „Kein Einkommen“, „Angabe fehlt“ und „Gemeinschafts-/Anstaltsunterkunft“. Die Verteilung des Einkommens hat die klassische Form für Einkommensverteilungen, mit einer starken Asymmetrie links. Wie kann man den Zusammenhang zwischen Einkommen und Zahl der Kinder untersuchen? Und zuvor noch: sind diese Variablen abhängig oder nicht? Dafür eignet sich die Likelihood-Ratio und der Pearson Chi-Quadrat Test für Unabhängigkeit.

Grafik3.jpg

Beide Tests weisen bei p= 0.001 darauf hin, dass diese Variablen nicht unabhängig sind. Die Bedingungen für den Chi-Quadrat Test sind aber nicht ganz erfüllt: die theoretischen Werte sollten tatsächlich grösser als 5 sein. Da aber der beobachtete Chi-Quadrat Wert so gross ist im Vergleich zu dem p=1% Chi-Quadrat Wert ist, welcher bei 28 Freiheitsgraden 48.278 beträgt, kann man ohne Problem davon ausgehen, dass die Variablen nicht unabhängig sind. So ist die Voraussetzung einer Abhängigkeit zwischen unseren Variablen erfüllt, um in der Untersuchung voranzuschreiten. Als nächstes kommt die Frage: was für ein Zusammenhang besteht zwischen diesen beiden Variablen? Anhand einer grafischen Darstellung kann der mögliche Zusammenhang veranschaulicht werden. Die Ergebnisse sind schwer zu interpretieren.

Grafik 4a.jpg

Modalitäten

1: Weniger als 600

2: 600-1800

3: 1800-3000

4: 3000-4500

5: 4500-6000

6: 6000-7500

7: 7500 und mehr

8: Anders

Da die Variablen ordinal sind und die Klassen stark unterschiedliche Zahlen von Individuen enthalten, scheint das Einkommen keinen linearen Einfluss zu haben. Durch eine andere grafische Darstellung, die die Prozentsätze betrachtet- kann man dieses Problem lösen und eine bessere Veranschaulichung erhalten.

Grafik 5.jpg

Auf dieser Grafik mit Panels erscheinen nun doch einige Tendenzen. Ausser bei „Weniger als 600“ findet sich der Modus immer bei „Kein Kind“. Abgesehen von „7500 und mehr“ und „Anders“ sinkt die Häufigkeit der Klasse „Kein Kind“ mit dem Einkommen, während die Häufigkeiten von „1 Kind“ und „2 Kinder“ mit dem Einkommen steigen. Dies weist teilweise auf einen linearen Zusammenhang hin: je höher das Einkommen, desto kleiner der Prozentsatz von Lebensgemeinschaften mit keinem Kind und desto grösser der Prozentsatz von Lebensgemeinschaften mit einem oder zwei Kindern. Dies gilt aber nicht für die zwei „extremen“ Klassen. Die erste Klasse hat tatsächlich „2 Kinder“ als Modus. Sie enthält auch keine Paare mit 3 und 4 und mehr Kindern. Die andere „extreme“ Klasse –die von 7500 und mehr- verstärkt nicht die oben besprochene Tendenz, bestätigt sie aber teilweise insofern, als kein neuer Trend entsteht. Geht man von der deskriptiven Statistik weg und versucht man, sich auf die Inferenzstatistik zu berufen, ist die Korrelation zwischen den beiden Variablen relevant. Für ordinale Variablen scheinen die Korrelationskoeffizienten von Spearman und Kendall geeigneter zu sein, als der von Pearson.

Grafik 6.jpg

Die drei Koeffizienten, die alle bei p=0.01 signifikant sind, weisen auf keinen linearen Zusammenhang hin. Ihre Werte sind nämlich zu klein. Um den Zusammenhang zu untersuchen gäbe es die Möglichkeit, nicht-lineare Regressionen für ordinale Variablen durchzuführen. Dies ist aber ziemlich kompliziert und wurde in der Vorlesung nicht eingeführt. Hier werden nur in der Vorlesung erörterte Methoden verwendet.

Im Falle zweier ordinaler Variablen ist die Korrespondenz Analyse eine wertvolle Analysemethode. Sie hat als Ziel, Die Unterschiede und Ähnlichkeiten zwischen den Variablen und den Merkmalen auf einer Grafik zu veranschaulichen. Das Vorgehen ist folgendes: es wird zuerst eine Matrix C der Ähnlichkeiten bemessen, entweder mit Chi-Quadrat oder der Euklidischen Distanz. In dieser Arbeit wird - wie üblich - die Chi-Quadrat Distanz benutzt. Diese kommt aus dem Chi-Quadrat Test für Unabhängigkeit und stellt den Unterschied zwischen dem beobachtetem Wert und dem unter der Hypothese von Unabhängigkeit erwartetem Wert dar. Es gilt also:

cij= (xij – eij)/ (eij 1/2))mit eij dem erwartetem Wert: eij = xi+∙x+j/N

Diese Matrix C wird danach in die Singulärwerte und Singulärvektoren zerlegt. Die Anzahl dieser Werte entspricht min(Anzahl der Reihengruppen minus 1, Anzahl der Spaltengruppen minus 1). Ausgehend von den Singulärwerten und Singulärvektoren werden für alle Punkte der Merkmale und Variablen so viele Werte, wie es Singulärwerte gibt, berechnet. Als zentrales Ergebnis der Korrespondenzanalyse gilt, dass die Summe der Quadrate der Singulärwerte λ, also ∑ λ2 , der Chi-Quadrat Statistik (dividiert durch N) entspricht. Diese Summe wird „gesamte Trägheit“ benannt. Das heisst, dass das Ausmass der Abhängigkeit (die gesamte Trägheit) durch diese Dimensionen zerlegt wird. Es ist oft so, dass der erste oder die zwei ersten λ viel bedeutender als die anderen sind, was erlaubt, die anderen zu vernachlässigen. In diesem Sinn ist die Korrespondenz Analyse eine datenreduzierende Methode. Es gibt noch ein zentrales Ergebnis, und zwar, dass die Werte der Reihengruppen mit den Werten der Spaltengruppen verbunden sind. Der Wert einer Reihegruppe entspricht tatsächlich der gewichteten Summe der Werte der Spaltengruppen. Am Ende wird eine grafische Darstellung der Merkmale und Variablen mit den Werten ermöglicht. So ergeben sich deutlich auf einer Grafik die Ähnlichkeiten und Unterschiede zwischen Variablen und Merkmalen.

Für die Berechnungen wurde das Programm SPSS 14 in seiner französischen Version benutzt. Die Ergebnisse konnten auf Deutsch geliefert werden. Die Korrespondenz Analyse ist zwar zunächst eine besonders grafisch gesehen interessante Methode, es ist jedoch ganz wichtig, die verschiedenen Informationen über die Erstellung der Grafik bzw. über die Werte der Punkte zu untersuchen. So werden wir uns zuerst mit diesen Informationen beschäftigen und erst danach die Grafik betrachten.

Grafik 7a.jpg

Zunächst erscheint es sehr wichtig, die Repräsentativität der Dimensionen und daher die Pertinenz der Reduzierung zu bewerten. Diese ist durch die Trägheit der Singulärwerte gegeben. Hier beträgt die Trägheit des ersten Singulärwertes 94% der totalen Trägheit, welche – wie schon oben gesagt- dem Chi-Quadrat Wert dividiert durch N gleicht:

Χ2/N = Gesamt Trägheit 441.017/6324 = 0.070

Das heisst, dass die Abweichungen der beobachteten Werte von den theoretischen für 94% durch den ersten Singulärwert und daher durch die erste Dimension erklärt werden. Dies ist sehr bedeutend und, wenn man noch den zweiten Wert in Betracht zieht, hat man 97% der Abweichungen erklärt. Ein Vergleich der zwei anderen Dimensionen erscheint vorerst weniger wichtig. Dies betrifft aber nur die totale Trägheit und es ist auch wichtig, die Trägheit jeder Gruppe von Variablen zu untersuchen und erklären. Danach kommt als erster Schritt der Interpretierung der Ergebnisse die Frage, was es ist, was die Dimensionen unterscheiden und gruppieren. Es ergibt sich deutlich, dass die erste Dimension abgesehen von den zwei Klassen „Weniger 600“ und „Anders“ die Einkommensklassen kontinuerlich abfallend ordnet. Was soll man von diesen beiden Klassen halten? Die Klasse „Weniger als 600“ umfasst eigentlich nur sechs Individuen (in unserem Falle: Paare) also 0.09% der Paare. Es ist auch fragwürdig, wie ein Paar mit Kindern mit so wenig Geld (Zur Erinnerung: es geht um Deutsche Mark) leben kann. Es stellt sich also die Frage, ob man diese Klasse als outlier betrachten soll. Da aber ihr Beitrag zu der Trägheit der ersten Dimension bei 2% steht, wird sie hier behalten. Die Kategorie „Anders“ stammt aus einer Gruppierung verschiedener Gruppen, für welche auf das Einkommen nicht hingewiesen wurde, was zu gewissen Problemen für unser Thema führt. Auch wenn diese Gruppe bedeutsamer ist hinsichtlich ihrer Anzahl (5% der Paare) sowie ihres Beitrages an die Trägheit der ersten Dimension (6%), lässt sich die Frage stellen, ob man sie nicht ausschliessen kann. Diese Diskussion wird vorerst noch vernachlässigt und soll erst später betrachtet werden.

Grafik 8.jpg

Für die Interpretierung sind die Werte pro Dimension bestimmt sehr wichtig, aber auch der Beitrag des Punktes an der Trägheit der Dimension. Diese ist mit der Trägheit des Punktes nicht zu verwechseln. Zur Erinnerung: die Summe der Trägheiten der Dimension entspricht dem durch N dividierten Chi-Quadrat Wert. Dieser stammt aus der doppelten Summe (Spalten- und Reihengruppen) der standardisierten Residuen cij. Summiert man sie nur einmal, so hat man den „Chi-Quadrat“ Wert für eine Spalten- oder Reihengruppe. Diese erste Summe – wie üblich durch N dividiert - ist die Trägheit des Punktes und zeigt, welche Gruppen am meisten von den erwarteten Werten unter der Hypothese von der Unabhängigkeit abweichen und zu der gesamten Trägheit beitragen. In diesem Fall ist die Gruppe 1800-3000 am weitesten von einem unabhängigen Verhalten entfernt, während „weniger als 600“, 3000-4500 und „anders“ sehr gering abweichen. So weit zur Trägheit des Punktes. Hinsichtlich der Trägheit der Dimension kann man den Beitrag jedes Punktes berechnen. Die Trägheit einer Dimension gleicht der mit der Masse gewichteten Summe der Quadrate der Werte der Punkte. Der Beitrag eines Punktes entspricht also seinem Beitrag an dieser Summe dividiert durch die Trägheit der Dimension. Hier sieht man, dass die Klasse „1800-3000“ den grössten Beitrag an der ersten Dimension leistet, das heisst den grössten Einfluss ausübt. Sie ist auch diejenige Klasse, deren Trägheit am grössten ist, das heisst, deren Werte am meisten von den erwarteten abweichen. Es ergibt sich auch, dass drei Klassen („Weniger als 600“, „3000-4500“ und „Anders“) kaum einen Beitrag leisten und auch eine sehr geringe Trägheit haben. So sieht man deutlich (die Korrelation nach Pearson zwischen den beiden steht bei 0.99), dass die erste Dimension die Trägheit der Gruppen wiedergibt. Hinsichtlich der Werte ist die Klasse „3000-4500“ diejenige, die dem Wert 0 am nächsten liegt, das heisst, dass diese Gruppe sich sehr nahe bei dem mittleren Profil („centroid“) befindet.

Die Beiträge der Dimensionen an der Trägheit des Punktes (die letzten Spalten in der Tabelle) sind ebenfalls wichtig zu untersuchen. Sie zeigen nämlich, wie repräsentativ die Dimension für den Punkt ist. Zur Erinnerung: die erste Dimension war sehr repräsentativ, indem sie 97% der gesamten Trägheit erklärte. Dies betrifft aber nur die gesamte Trägheit und es kann den Fall geben, dass die Trägheit einzelner Punkte durch diese erste Dimension schlecht erklärt wird. Theoretisch und allgemein gesehen zeigt es, dass die alleinige Betrachtung des Beitrages der ersten Dimension für die gesamte Trägheit nicht hinreichend ist. Dies ist in unserem Fall zutreffend. Während die erste Dimension gut 94% fast aller Punkte erklärt, sind es nur 26% für die „extremliegenden“ Klassen und sogar 2.5% für diese „3000-4500“ Klasse. Diese Klassen haben eine geringere Abweichung der beobachteten von der erwarteten Anzahl hinsichtlich der Chi-Quadrat Statistik miteinander gemeinsam. Ihr Anteil an der gesamten Trägheit steht nämlich bei 1%. Die Frage ist demnach, ob die zweite Dimension ihre Trägheit genug erklärt oder ob die dritte oder sogar vierte Dimension dafür notwendig sind. Da die Werte der Punkte der Einkommensklassen mit den Werten der Kinderanzahl verbunden sind, beschäftigen wir uns zuerst mit der ersten Dimension hinsichtlich der Zahl der Kinder.

Grafik 9.jpg

Wie zuvor kommt als erste Frage, was die Dimension unterscheidet. Man sieht gut, dass abgesehen von der Gruppe „4 und mehr Kinder“ gilt, dass mit dem Wert auch die Kinderanzahl steigt. Betrachtet man die mit grösserer Kinderanzahl sinkenden Werte zusammen mit den mit grösserem Einkommen sinkenden Werten, kann man erwarten, dass die Kinderanzahl mit dem Einkommen steigt. Die Gruppe „Kein Kind“, die auch die grösste und die am meisten von den erwarteten Werten abweichende Gruppe ist, ist diejenige, die den bedeutsamsten Beitrag zur Trägheit der Dimension leistet. Die erste Dimension spiegelt deutlich (der Korrelationskoeffizient steht auch bei 0.99) auch für die Variable Kinderanzahl die Grösse der Trägheit wieder. Was die Repräsentativität der ersten Dimension für die Trägheit der Punkte betrifft, so ist diese sehr gut für die Klassen „Kein Kind“ „1 Kind“ und „2 Kinder“ (von 93% bis zu 100%) gut für die Klasse „3 Kinder“ und nicht hinreichend für die Klasse „4 und mehr Kinder“.

Beschäftigen wir uns jetzt mit der zweiten Dimension. Die drei oben benannten Einkommensklassen, deren Trägheit durch die erste Dimension nicht gut erklärt wurde, haben positive Werte und alle anderen negative. Es ist aber schwer zu interpretieren, was diese Gruppen ausser ihrer geringen Trägheit gemeinsam haben. Dafür könnte hilfreich sein zu untersuchen, wie diese zweite Dimension die Anzahl der Kinder unterscheidet. Hier scheint keine besondere Logik vorhanden zu sein, es gibt positive sowie negative Werte, die Klasse „Kein Kind“ hat einen Wert von gleich null und die Klasse „4 und mehr Kinder“ einen stark positiven Wert. Diesen positiven Wert kann man mit den positiven Werten der Einkommensgruppen verbinden: sie haben alle eine geringe Trägheit gemeinsam. So unterscheidet die zweite Dimension, welche Gruppen wenig oder stark von der Unabhängigkeit abweichen. Dementsprechend ist der Beitrag der Gruppe „4 und mehr“ am grössten, und derjenige der Gruppen „Anders“ und „3000-4500“ ebenfalls relativ gross. Es bleibt noch zu untersuchen, ob die zweite Dimension einen genügend grossen Beitrag an die Trägheit der Gruppen leistet. Dies kann man an der letzten Spalte der Tabelle sehen, die auf die durch die zwei Dimensionen erklärte Trägheit hinweist. Dieser Beitrag ist für die Kinderanzahl gross, am geringsten ist er mit 86% in der Klasse „4 und mehr“. Was das Nettoeinkommen betrifft, so ist der Beitrag auch überwiegend gut. Die am wenigsten gut erklärte Klasse liegt bei 70%, wenn man von der Klasse „Weniger als 600“ (nur 45%) absieht. Jetzt können wir die grafische Darstellung betrachten.

Grafik 10.jpg

Es ergibt sich deutlich, dass die erste Dimension den Zusammenhang Einkommen-Kinderanzahl bestätigt und gut veranschaulicht. Die zwei "armen" Klassen „600-1800“ und „1800-3000“ sind der Gruppe „Kein Kind“ am nächsten, die Gruppe der mittleren Einkommen („3000-4500“) liegt ebenfalls zwischen keinem und einem Kind. Die „reichen“ Klassen („4500-6000“, „6000-7500“ und „7500 und mehr“) liegen sehr nahe bei 2 bzw. 3 Kindern. Die Position des Punktes „Weniger als 600“ ist widersinnig: es gibt nämlich keine Personen in dieser Klasse, die „3“ oder „4“ und mehr Kinder haben, aber sie liegt ziemlich nahe bei diesen. Wie soll man das verstehen?

Bezogen auf die oben gezeigte Grafik haben aber die meisten Paare dieser Klasse 2 Kinder. Dieser Punkt soll also nah von 2 und weit von „3“, „4 und mehr“… und „1“ oder „kein“ sein! So lässt sich verstehten, dass er links liegt. Bei „4 und mehr“ erscheint auch ein solches Problem. Diese Klasse ist nämlich gut in der Gruppe „7500 und mehr“ und „3000-4500“ vertreten. Da diese aber auf der ersten Dimension abfallend geordnet sind, soll sie gleichzeitig nahe von diesen entfernten Punkten sein, also nicht ganz links. So lässt sich diese zweite Dimension besser verstehen: sie bringt Gruppen einander näher, deren Ähnlichkeiten durch die erste Dimension schlecht wiedergegeben werden. So sieht man tatsächlich, dass die Punkte (abgesehen von der Gruppe „Anders“) mit positivem Wert genau diejenigen sind, die oben genannt wurden: das „Paar“ der Punkte „Weniger 600“ und „2“ sowie das Paar der Punkte „4 und mehr“ und „3000-4500“. Es entsteht aber bedauerlicherweise der falsche Eindruck, dass „4 und mehr“ und „Weniger als 600“ nahe liegen.

Die Klasse „Anders“ stellte einige Probleme. Dies kann daher kommen, dass sie sehr verschiedene Gruppen umfasst. Ursprünglich war es nicht geplant, sie in die Analyse einzubeziehen. Es stellt sich also die Frage, ob man diese Gruppe nicht überhaupt vernachlässigen soll.

SPSS liefert eine interessante Möglichkeit dafür, eine Gruppe nicht in die Erstellung der Dimensionen einzubeziehen, sie aber trotzdem in der Grafik darzustellen. Dementsprechend sind die Beiträge dieser Punkte an die Trägheit der Dimension gleich null. Dies wurde also hier durchgeführt, mit den Klassen „Weniger als 600“ und „Anders“ als Ergänzungspunkte.

Grafik 11.jpg

Interessant ist, dass der erste Singulärwert weniger Trägheit erklärt, nämlich nur 70%. In der Grafik erscheint ein grösserer Unterschied als vorher; die Zeichen der Werte wurden umgekehrt: das Einkommen verläuft jetzt von links nach rechts. Der positive Zusammenhang zwischen Einkommen und Kinderanzahl ist immer noch zu sehen. Die widersinnige Nähe von „Weniger als 600“ und „4 und mehr Kinder“ sowie ihre Entfernung von den anderen Punkten auf der zweiten Dimension bleiben trotzdem. Die Nichteinbeziehung der Punkte in die Erstellung der Dimension hat es jedoch ermöglicht, dass es jetzt grössere Abweichungen zwischen den „normalen“ Punkten gibt. Der Punkt „Anders“ liegt zentraler als vorher und von nun an sehr zentral in Bezug auf dem Punkt (0;0). Das heisst, dass die Eigenschaften des Punktes denen des „mittleren“ Profils gut entsprechen. Würden wir wissen, ob dieser Punkt repräsentativ für eine andere Stichprobe ist, könnten wir daraus erschliessen, dass unsere Korrespondenz Analyse auch für andere Stichproben repräsentativ ist.

Schlussfolgerung[edit]

Die lange Diskussion über die Erstellung der Datenbank und daher der Variablen erwies sich als wichtig: ohne sie wäre die Analyse irrelevant gewesen. Die entstandene reduzierte Datenbank ist zwar kleiner, aber für unser Ziel relevanter. Ausgehend von der direkten Betrachtung der geeigneten Grafik schien es, dass es eine Tendenz zu einem linearen Zusammenhang zwischen dem Einkommen und der Kinderanzahl gab. Dagegen sprachen einige Ausnahmen und Gruppen mit abweichendem Verhalten. Somit wiesen die geringen Korrelationskoeffizienten nicht auf einen klaren Zusammenhang hin. Um die greifbare Tendenz zu bestätigen erwies sich die Korrespondenz Analyse für unseren Fall als effizient. Eine erste Dimension bestätigte den positiven Zusammenhang, während die zweite Dimension Nuancen und geringere Ähnlichkeiten hervorhob, die gegen den generellen Zusammenhang sprachen.

Referenzen[edit]

-Härdle, W., Simar, L. (2003) Applied Multivariate Statistical Analysis. Springer Verlag, Heidelberg.

-Johnson R., Wichern D. (1998) Applied Multivariate statistical analysis, vierte Auflage, Prentice Hall, Upper Saddle Rive

-Lengerer, A./Bohr, J./Janßen, A. (2005): Haushalte, Familien und Lebensformen im Mikrozensus - Konzepte und Typisierungen. ZUMA-Arbeitsbericht 5/2005.Auf Internet unter : http://www.gesis.org/Dauerbeobachtung/GML/Service/Mikrodaten-Tools/Haushalte/index.htm

-Statistiches Bundesamt Deutschland (2004a), Campus File Mikrozensus 98, Auf Internet unter: http://www.destatis.de/fdz/leistungen/campusfiles.htm

-Statistiches Bundesamt Deutschland (2004b), Campus File: Schlüsselverzeichnis, Auf Internet unter: http://www.destatis.de/fdz/leistungen/campusfiles.htm-

-Statistiches Bundesamt Deutschland (2004c), Campus Files: Methodenbeschreibung, Auf Internet unter: http://www.destatis.de/fdz/leistungen/campusfiles.htm-

-Statistiches Bundesamt Deutschland (2004d), Beispiel des Fragebogens, auf Internet unter http://www.gesis.org/dauerbeobachtung/GML/Daten/MZ/mz_1998/index.htm

Kommentare[edit]

  • Sie hätten die Möglichkeiten der Formatierung besser nutzen sollen
  • Ein sehr komplizierter Prozess um die relevanten Daten zu bekommen, der an einigen Stellen angreifbar ist
  • Für ordinale Daten ist der Rangkorrelationskoeffizient nach Kendall vorzuziehen (Statistik I!)
  • Sie sollten die Begriffe aus dem Skript benutzen (Singulärwert = Eigenwert ?), die Arbeit ist dadurch schwer zu verstehen