Die Einkommenssituation von "Foreign Borns" in den USA (2008)

From Teachwiki
Jump to: navigation, search

Einleitung[edit]

Die USA sind geschichtlich gesehen eines der bedeutsamsten und traditionsreichsten Einwanderungsländer der Welt. Allein im Jahr 2008 lebten 38 Millionen legale Einwanderer in den Vereinigten Staaten, und damit mehr als in jedem anderen Land [1]. Viele Einwanderer sind in den letzten Jahrhunderten und Jahrzehnten in die USA ausgewandert mit der Aussicht, dass dort jeder sein Glück versuchen und zu wirtschaftlichem Erfolg und Wohlstand gelangen kann. Ziel dieses Artikels ist es, anhand von Daten aus dem Jahr 2008 die individuelle Einkommenssituation von Menschen, die in den USA leben, aber nicht in den USA geboren wurden (sog. „foreign borns“) zu untersuchen und mit der individuellen Einkommenssituation von in den USA geborenen Personen zu vergleichen (den sog. „home borns“). Dabei sollen Einflüsse genereller Art untersucht werden (Geschlecht, Bildungsabschluss der Mutter, eigener Bildungsabschluss) sowie themenspezifische Einflüsse (Besitz der US-Staatsbürgerschaft, Alter während der Einwanderung in die USA, Herkunftsregion). Die verschiedenen Einflüsse werden auf grafische Art, anhand von Parametervergleichen sowie anhand einer Regressionsanalyse untersucht.

Datensatz[edit]

Datengrundlage dieses Artikels ist der 27. Durchgang des „General Social Survey“ mit Daten aus dem Jahr 2008. Der „General Social Survey“ ist eine Befragung, die vom National Opinion Research Center der University of Chicago seit 1972 durchgeführt wird. Der Fragebogen enthält Fragen zu demografischen Entwicklungen sowie zu Meinungsentwicklungen. Der „General Social Survey“ ist nach dem US-Zensus der in den USA meistgenutzte Datensatz in den Sozialwissenschaften. Der Umfang der Stichprobe beträgt 2000 Befragte, insgesamt enthält der Datensatz 840 verschiedene Variablen [2].

Analyse der Variable "conrinc"[edit]

Variablenbeschreibung[edit]

Tabelle 1: Häufigkeitstabelle der Variable „conrinc“

Zur Feststellung der individuellen Einkommenssituation wird die Variable „conrinc“ verwendet. Die Variable „conrinc“ gibt das individuelle Jahreseinkommen in inflationsbereinigten Dollar an. Basisjahr ist das Jahr 2000. Die Variable liegt in klassierter Form vor. Im Rahmen der Befragung geben die Befragten an, in welchem Bereich ihr Einkommen liegt, im späteren Datensatz wird die Klassenmitte angegeben. Insgesamt gibt es 25 Klassen. Die Spanne der Klassen reicht von einem Wert von 415 Dollar bis zu einem Wert von 434.612 Dollar. Der Abstand der Klassenmitten zueinander ist nicht identisch, sondern variiert (siehe Tabelle 1). So liegt beispielsweise zwischen der ersten und der zweiten Klassenmitte ein Abstand von 1246 Dollar, zwischen der vorletzten und der letzten Klassenmitte gar ein Abstand von 318.342 Dollar.

Deskriptive Statistik[edit]

Tabellen 2a und b zeigen die verarbeiteten Fälle und die deskriptive Statistik der Variable „conrinc“. Die Stichprobengröße umfasst 1215 gültige Beobachtungen. Der Mittelwert liegt bei 42.628,57 Dollar, der Median bei 26.991,25 Dollar. Dies weist darauf hin, dass es viele Extrembeobachtungen im oberen Einkommensbereich gibt. Diese ziehen den Mittelwert nach oben, haben allerdings keinen allzu großen Einfluss auf den Median, da der Median Extremwerten gegenüber robust ist. Die Schiefe liegt bei 4,726, mit einem Standardfehler von 0,070. Da die Schiefe positiv ist, kann von einer rechtsschiefen Verteilung ausgegangen werden.

Analyse der Verteilungsform[edit]

Abbildung 1: Histogramm der Variable „conrinc“

In einem nächsten Schritt soll die Verteilungsform der Variable „conrinc“ grafisch überprüft werden. Da es sich um stetig klassierte Daten handelt, wurde die Diagrammform des Histogramms gewählt. Abbildung 1 zeigt die Verteilungsform der Variable. Deutlich wird, wie bereits anhand der deskriptiven Statistiken angenommen wurde, dass die Verteilung rechtsschief ist. Die meisten Beobachtungen befinden sich in einem Bereich von 0 bis leicht über 100.000 Dollar, einige Extremwerte liegen bei deutlich über 400.000 Dollar.Die grafische Darstellung deutet ebenso bereits darauf hin, dass wir nicht von einer Normalverteilung ausgehen können. Diese kann allein aufgrund der Rechtsschiefe und der 35 Extremwerte, die über 400.000$ liegen, mit relativer Sicherheit ausgeschlossen werden.


Tabelle 3: Tests auf Normalverteilung der Variable „conrinc“

Um auf Normalverteilung zu testen, wurde der Kolmogorov-Smirnov-Test mit einer Signifikanzkorrektur nach Lilliefors sowie der Shapiro-Wilk-Test angewandt. Der Kolmogorov-Smirnov-Test sollte eigentlich bei einer Variablen, die in klassierter Form vorliegt, nicht verwendet werden. Da die Variable jedoch in einer großen Anzahl an Klassen vorliegt und jeweils die Klassenmitte in die Berechnung einbezogen wird und somit die Variable einer stetigen Variable zu einem gewissen Grad nahekommt, wurde der Test dennoch verwendet. Der Kolmogorov-Smirnov-Test prüft die Nullhypothese, dass eine Normalverteilung vorliegt gegen die Alternativhypothese, dass eine Normalverteilung nicht vorliegt. Die Signifikanzkorrektur nach Lilliefors zieht in Betracht, dass Mittelwert und Varianz der Grundgesamtheiten nicht vorliegen und nur geschätzt werden können. Da der P-Wert für beide Tests bei 0,000 unter dem Signifikanzniveau von \alpha=0,05 liegt, muss die Nullhypothese, dass eine Normalverteilung vorliegt, abgelehnt werden. Dieses Ergebnis ist allein aufgrund der grafischen Analyse nicht überraschend.

Ausreißeranalyse[edit]

Da die Hypothese einer vorliegenden Normalverteilung abgelehnt werden musste, können Ausreißertests nicht vorgenommen werden. Wie die grafische Analyse der Verteilungsform sowie die Häufigkeitentabelle ergeben hat, gibt es eine Anzahl von Werten, die in der obersten Klasse liegen, deren Klassenmitte im Vergleich zu der nächstgrößten Klassenmitte deutlich nach oben abweicht. Dabei handelt es sich um 35 Werte und somit um immerhin 2,9% aller gültigen Beobachtungen. Ein Beibehalten dieser Extremwerte führt unter Umständen zu ungenauen bzw. zu verzerrten Ergebnissen. Gleichzeitig ist die Klasse so grobkörnig definiert und umfasst eine Spanne von 100,000 bis 999,999 Dollar, dass der Informationsverlust für den hohen Einkommensbereich sehr groß ist und nur mit ungenauen Werten gearbeitet werden kann. Dennoch wurde beschlossen, die 35 Beobachtungen in der Analyse beizubehalten. Zum einen würde ansonsten ein ganzes Segment der Einkommensverteilung herausgelassen, zum anderen würden die Erträge höherer Bildungsabschlüsse verzerrt werden, wenn hohe Einkommen nicht berücksichtigt werden. Zudem kann ausgeschlossen werden, dass es sich bei den starken Abweichungen um "Ausreißer" im Sinne von durch Messfehler enstandene unerwartete oder unpassende Eregebnisse handelt, da die Abweichungen allein aufgrund der großen Spannweite der Klasse zustande kommen.

Vergleich des Einkommens von "home borns" und "foreign borns"[edit]

Im Folgenden werden die Beobachtungen der Variable „conrinc“ in zwei Gruppen aufgeteilt anhand der Variable „born“. Diese Variable liegt in Nominalskala vor und gibt an, ob die Befragten in den USA geboren worden sind oder nicht.

Deskriptive Statistik[edit]

Tabellen 4a und b zeigen die verarbeiteten Fälle und die Ergebnisse der deskriptiven Statistik, aufgeteilt nach Personen, die in den USA geboren worden sind (Yes) und Personen, die nicht in den USA geboren worden sind (No).In der Gruppe der in den USA geborenen Personen befinden sich 1051 gültige Beobachtungen. Die Zahl der nicht in den USA geborenen Personen ist mit 164 gültigen Beobachtungen deutlich kleiner. Aufgrund der kleinen Beobachtungsgröße müssen die Ergebnisse mit Vorsicht behandelt werden. Wie aus den Tabellen 4a und b entnommen werden kann, liegt der Mittelwert der nicht in den USA geborenen Personen über dem Mittelwert der in den USA geborenen Personen, wohingegen der Median der nicht in den USA geborenen Personen niedriger liegt als der in den USA geborenen Personen. Das deutet darauf hin, dass es bei den „foreign borns" anteilsmäßig mehr Extremwerte gibt, die den Mittelwert nach oben ziehen. Diese Vermutung lässt sich belegen. Für die "home borns" befinden sich 2,7% aller gültigen Beobachtungen in der obersten Einkommensklasse, für die „foreign borns" befinden sich 4,3% aller gültigen Beobachtungen in der obersten Einkommensklasse. Der 95%-Konfidenzintervall des Mittelwerts ist bei den "foreign borns" deutlich größer, was unter Umständen auf die kleinere Stichprobengröße zurückgeführt werden kann. Somit wird der Wert unverlässlicher.

Analyse der Verteilungsform[edit]

Abbildung 2: Boxplots der Variable „conrinc“, aufgeteilt nach den Kategorien „geboren innerhalb der USA“ und „geboren außerhalb der USA“

Abbildung 2 zeigt die Boxplots der Variable „conrinc“, aufgeteilt nach Personen, die in den USA geboren wurden und Personen, die nicht in den USA geboren wurden. Die untere Linie der jeweiligen Box gibt das erste Quartil an, die dicke Linie innerhalb der Box repräsentiert den Median und die obere Linie der Box gibt das dritte Quartil an. Innerhalb der Box befinden sich also 50% der Beobachtungen; die Höhe der Box entspricht dem Interquartilsabstand. Die Querstriche oberhalb und unterhalb der Box entsprechen dem 1,5-fachen Interquartilsabstand. Anhand der Boxplots lässt sich ablesen, dass der Median für die „home borns" höher liegt als für die „foreign borns". Deutlich werden auch die Extremwerte. Zum einen gibt es Extremwerte, die unmittelbar oberhalb des 1,5-fachen Interquartilsabstand liegen und zudem gibt es Extremwerte, die sehr viel deutlicher nach oben abweichen und zwischen 400.000 und 500.000 Dollar liegen.

Abbildungen 3 a und b zeigen zwei Histogramme, die die Verteilungsform des Einkommens der „foreign borns" und der „home borns" anzeigen. Ebenso ist eine Normalverteilungskurve eingezeichnet. Wie sich feststellen lässt, weichen beide Gruppen auch getrennt in ihrer Verteilung stark von einer Normalverteilung ab.

Analyse der Verteilungsform nach Log-Linearisierung[edit]

Mit dem Ziel einer Annäherung an eine Normalverteilung und für die spätere Regressionsanalyse wurde die Variable des individuellen Einkommens beider Gruppen logtransformiert.

Wie sich aus den Abbildungen 4a und b entnehmen lässt, kommt das logtransformierte Einkommen einer Normalverteilung schon deutlich näher, wobei immer noch zu viele Beobachtungen am Minimum und Maximum sowie in der Mitte der Verteilung auftreten. Um weiter grafisch auf Normalverteilung zu untersuchen, werden QQ-Diagramme für beide Gruppen erstellt. Abbildungen 5a und 5b zeigen Q-Q-Diagramme für die beiden Gruppen. Auf der X-Achse sind die beobachteten Werte abgetragen, auf der Y-Achse die erwarteten Normalwerte. Bei einer perfekten Normalverteilung liegen alle Punkte auf der eingezeichneten 45-Grad-Linie, da in jedem Punkt der beobachtete Wert mit dem erwarteten Normalwert übereinstimmt. Für beide Gruppen ergeben sich jedoch Abweichungen von der 45-Gradlinie, wie sich deutlich erkennen lässt, insbesondere am Anfang und am Ende der Verteilung. Aus diesem Grund lässt sich eine Normalverteilung mit hoher Wahrscheinlichkeit bereits anhand der grafischen Analyse ausschließen. Um die Analyse abzuschließen, werden der Komologorov-Smirnov-Test und der Shapiro-Wilk-Test auf Normalverteilung angewandt (siehe Tabelle 5a und b). Da das Signifikanzniveau mit 0,000 < 0,05 für beide Gruppen und beide Tests liegt, wird die Hypothese auf Normalverteilung abgelehnt.

Untersuchung von Einflussfaktoren[edit]

Für beide Gruppen sollen im Folgenden Parametervergleiche bzw. eine bivariate Zusammenhanganalyse aufgestellt werden, um zu untersuchen, inwiefern bestimmte Faktoren mit dem Einkommen zusammenhängen und inwiefern sich diese unterscheiden zwischen den „home borns“ und den „foreign borns“. Da eine Normalverteilung auch durch die Log-Transformation nicht erreicht werden konnte, wird die ursprüngliche Variable „conrinc“ verwendet, da dies die Interpretation vereinfacht.

Vergleich der Mittelwerte des Einkommens von „home borns" und „foreign borns"[edit]

Abbildung 6: Fehlerbalkendiagramme der Variable „conrinc“ anhand der Kategorien „geboren innerhalb der USA“ und „geboren außerhalb der USA“

Abbildung 6 zeigt ein Fehlerbalkendiagramm für die Variable "conrinc", aufgeteilt nach den Kategorien "geboren innerhalb der USA" und "geboren außerhalb der USA". Die Kategorien "geboren innerhalb der USA" und "geboren außerhalb der USA" bilden zwei unabhängige Stichproben, da sich beide Kategorien gegenseitig ausschließen. Das Fehlerbalkendiagramm zeigt die 95%-Konfidenzintervalle um die jeweiligen Mittelwerte. Es lässt sich, wie bereits aus vorangegangener Analyse erwähnt, feststellen, dass der Mittelwert des indiivduellen Einkommens der "Foreign borns" oberhalb des Einkommens der "Home borns" liegt. Der Konfidenzintervall der "Foreign borns" ist allerdings deutlich größer und beide Fehlerbalken überlappen.Deswegen ist anzunehmen, dass kein signifikanter Unterschied der Mittelwerte besteht.

Um auf Gleichheit der Mittelwerte prüfen zu können, muss zunächst auf Gleichheit der Varianzen der beiden Untergruppen getestet werden. Der F-Test kann in diesem Fall nicht angewendet werden, da die Variable "conrinc" in den beiden Untergruppen nicht in Normalverteilung vorliegt. Deswegen wird stattdessen der Levene-Test durchgeführt, der keine Normalverteilung voraussetzt.


Der P-Wert ist mit 0,036<0,05 (siehe Tabelle 6). Deswegen wird die Hypothese auf Gleichheit der Varianzen abgelehnt. Dieses Ergebnis bestätigt der Spread vs. Level Plot (siehe Abbildung 7), da beide Punkte nicht auf einer horizontalen Linie liegen.

Als nächstes wird ein Test zum Vergleich der Mittelwerte durchgeführt. Da die Varianzen ungleich sind, wird der Welch-Test durchgeführt. Dieser setzt erstens voraus, dass die Stichproben unabhängig sind. Diese Bedingung ist erfüllt, da die Beobachtungen von "foreign borns" unabhängig von den Beobachtungen der "home borns" sind. Zweitens wird Normalverteilung der Zufallsvariablen X_{1} und X_{2} in den Grundgesamtheiten vorausgesetzt. Zwar stammen die Beobachtungen nicht aus normal verteilten Grundgesamtheiten, aber aufgrund einer ausreichend großen Stichprobengröße von 1051 und 164 Beobachtungen findet der Zentrale Grenzwertsatz Anwendung.

In Tabelle 7b ist noch einmal das Ergebnis des Levene-Tests angegeben. Da Gleichheit der Varianzen abgelehnt werden muss, gilt die zweiseitige Signifikanz des Welch-Tests von 0,583. Da 0,583/2>0,05, kann die Hypothese auf dem 95%-Niveau nicht verworfen werden, dass die Mittelwerte gleich sind. Im Umkehrschluss kann statistisch nicht bewiesen werden, dass sich das Einkommen von "home borns" und von "foreign borns" unterscheidet. Dieses Ergebnis stimmt also mit dem bereits aus der grafischen Analyse geschlussfolgerten Ergebnis zusammen.

Vergleich der Mittelwerte des Einkommens von "home borns" und "foreign borns" nach Geschlecht[edit]

Abbildungen 8a und b zeigen Fehlerbalkendiagramme für beide Gruppen, aufgeteilt nach der Variable Geschlecht. Aus beiden Diagrammen lässt sich deutlich erkennen, dass der Mittelwert für das Einkommen männlicher Personen deutlich über dem Mittelwert weiblicher Personen liegt. Dieses Ergebnis ist nicht überraschend, da die Einkommenslücke zwischen Männern und Frauen ein viel diskutiertes Thema ist. Die Mittelwerte für "foreign borns" für männliche und weibliche Personen liegen über den jeweiligen Mittelwerten der Home Borns. Zudem sind jedoch die Konfidenzintervalle der "foreign borns" deutlich größer als die der home borns. Dies mag an der deutlich kleineren Stichprobengröße liegen und eventuell daran. Die Fehlerbalken überschneiden sich bei den "home borns" nicht, deswegen können wir davon ausgehen, dass die beiden Mittelwerte signifikant unterschiedlich sind. Bei den "foreign borns" hingegen überschneiden sich die Fehlerbalken, womit kein signifikanter Unterschied der Mittelwerte vermutet werden kann.

Um auf Gleichheit der Mittelwerte prüfen zu können, muss zunächst wieder eine Varianzanalyse durchgeführt werden. Um auf die Homogenität der Varianzen der beiden Untergruppen (männlich und weiblich) zu prüfen, wird der Levene-Test durchgeführt. Da die Signifikanz 0,000<0,05 beträgt für "home borns" (siehe Tabelle 8a), muss die Hypothese, dass die Varianz des Einkommens für männliche und weibliche Personen gleich ist, verworfen werden.

Die Signifikanz des Levene-Statistik für die Gruppe der Foreign borns ist mit 0,061>0,05 (siehe Tabelle 8b). Somit kann die Hypothese nicht verworfen werden, dass die Varianzen des Einkommens von männlichen und weiblichen Personen gleich sind. Nachdem die Homogenität der Varianzen untersucht wurde, kann ein Vergleich der Mittelwerte vorgenommen werden. Für die Gruppe der "home borns" wird der Welch-Test angewandt aufgrund der Ungleichheit der Varianzen. Für die Gruppe der "foreign borns" wird der Zwei-Stichproben T-Test ausgewählt aufgrund der Gleichheit der Varianzen. Zwar liegt keine Normalverteilung vor, aber aufgrund einer ausreichend großen Stichprobe in beiden Stichproben (77 und 87) kann der zentrale Grenzwertsatz angewendet werden.

Die Ergebnisse des Welch-Tests für die Gruppe der "home borns" zeigen mit p=0,00<0,05 (siehe Tabelle 9b), dass die Hypothese auf Gleichheit der Mittelwerte abgelehnt werden muss. Es kann also statistisch gezeigt werden, dass die Mittelwerte des individuellen Einkommens von Männern und Frauen unterschiedlich sind. Die Ergebnisse des Zwei-Stichproben-T-Tests für die Gruppe der "foreign borns" zeigen mit p=0,090/2<0,05 (siehe Tabelle 10b), dass die Hypothese auf Gleichheit der Mittelwerte ebenfalls abgelehnt wird. Dieses Ergebnis ist anhand der grafischen Analyse eher überraschend, hält jedoch nur auf dem 5%-Signifikanzniveau, nicht auf dem 2%-Signifikanzniveau und ist somit weniger aussagekräftig.

Vergleich der Mittelwerte des Einkommens von "home borns" und "foreign borns" nach Bildungsabschluss der Mutter[edit]

Abbildungen 9 a und b zeigen Fehlerbalkendiagramme der Einkommen der "home borns" und der "foreign borns", aufgeteilt nach Bildungsabschluss der Mutter. Die Fragestellung hinter diesen Diagrammen ist, ob der Bildungsabschluss der Mutter die Einkommenssituation der einzelnen Person beeinflusst. Der Bildungsabschluss der Mutter ist ein Anzeichen für das Bildungsniveau des Haushalts. Es wird vermutet, dass eine Person aus einem hohen Bildungshaushalt ein höheres Einkommen erzielt. Interessant sind die Ergebnisse für die "home borns". Am niedrigsten ist der Mittelwert für Personen, deren Mütter einem Bildungsabschluss weniger als dem High School Diploma haben. Der Mittelwert der Einkommen von Personen mit Müttern mit High School Abschluss liegt leicht über dem Mittelwert der Personen mit Müttern mit Junior College und sogar mit Bachelor Abschluss. Nur der Mittelwert der Personen mit Müttern mit Graduate Abschluss liegt deutlich über den anderen Mittelwerten. Die Konfidenzintervalle für Junior College und Graduate sind allerdings weitaus größer als für die anderen Kategorien. Die Zahl der Beobachtungen für diese beiden Kategorien ist mit 40-60 Beobachtungen deutlich kleiner als die der anderen Gruppen (100-500 Beobachtungen pro Kategorie). Für die Gruppe der "foreign borns" ergibt sich ein anderes Bild. Mit Ausnahme des Junior Colleges steigt der Mittelwert des Einkommens einer Person mit ansteigendem Bildungsabschluss der Mutter. Allerdings sei auf die zum Teil sehr kleine Beobachtungsgröße hingewiesen. Für den Abschluss Graduate liegt nur eine Beobachtung vor, für den Abschluss Junior College 4 Beobachtungen, für den Bachelor 16 Beobachtungen, für High School 53 Beobachtungen und für weniger als High School 79 Beobachtungen. Aus diesem Grund müssen die Ergebnisse mit großer Vorsicht behandelt werden, denn es stellt sich die Frage der Repräsentativität. Dennoch lässt sich die vorsichtige Schlussfolgerung ziehen, dass die Art des Bildungshaushalts für die Einkommenssituation der "home borns" eine weniger große Rolle spielt als für "foreign borns".

Weitere Tests werden nicht durchgeführt. Aufgrund der kleinen Beobachtungsgröße je Kategorie bei den "foreign borns" findet der Zentrale Grenzwertsatz in den meisten Fällen keine Anwendung, so dass Tests zum Vergleich der Mittelwerte nicht verwendet werden können. Bei den "Home borns" wird ebenfalls auf die Ergebnisse der grafischen Analyse vertraut.

Vergleich der Mittelwerte des Einkommens von "home borns" und "foreign borns" nach eigenem Bildungsabschluss[edit]

Die Mittelwerte aufgeschlüsselt nach Bildungsabschlüssen zeigen die zu erwartenden Unterschiede. Je höher der Bildungsabschluss, umso höher der Mittelwert des Einkommens. Für die "foreign borns" ist der Konfidenzintervall wieder sehr groß für die Abschlüsse Bachelor und Graduate und die Stichprobengröße sehr klein. Dennoch lässt sich sagen, dass der Anstieg des Einkommens bei den "home borns" von Bildungsabschluss zu Bildungsabschluss mehr oder weniger gleichmäßig verläuft, wohingegen bei den "foreign borns" der Mittelwert für den Abschluss Bachelor und noch einmal für das Graduate level sehr stark ansteigt. Anhand der Diagramme lässt sich sagen, dass sich die Mittelwerte des Einkommens sowohl für die „Home borns“ als auch der „Foreign borns“ der Abschlüsse „less than High School“ bis „Junior College“ nicht signifikant unterscheiden, dass sich jedoch die Mittelwerte der Abschlüsse „Bachelor“ und „Graduate“ signifikant von den Mittelwerten der Abschlüsse „Less than High School“ und „High School“ unterscheiden. Die Abstände sind ausgeprägter für die „foreign borns“. Trotz der kleinen Beobachtungsgröße lässt sich die vorsichtige Schlussfolgerung ziehen, dass sich ein Universitätsabschluss für die "foreign borns" stärker „auszahlt“. Dies kann natürlich z.B. auch daran liegen, dass hochqualifizierte Fachkräfte aus dem Ausland beabsichtigt durch ein hohes Gehalt angeworben wurden. Auch an dieser Stelle kann aufgrund der kleinen Stichprobengröße innerhalb der Kategorien kein weiterer Test durchgeführt werden.

Vergleich der Mittelwerte des Einkommens der "foreign borns" nach Besitz der US-Staatsbürgerschaft[edit]

Abbildung 11: Fehlerbalkendiagramme der Variable „conrinc“ anhand der Kategorien „US-Staatsbürger“ und „kein US-Staatsbürger“, Kategorie „geboren außerhalb der USA“

Nachdem allgemeine Charakteristika und deren Zusammenhänge mit dem Einkommen untersucht wurden im Vergleich von "home borns" und "foreign borns", sollen im Anschluss die Einflüsse themenspefizischer Charakteristika auf das Einkommen der "foreign borns" geprüft werden, und zwar der Besitz oder Nicht-Besitz der Staatsbürgerschaft, das Alter bei der Einwanderung sowie die Herkunftsregion.

Das erste Merkmal, das untersucht werden soll, ist das der Anwesenheit oder Abwesenheit der amerikanischen Staatsbürgerschaft. Intuitiv könnte ein höherer Mittelwert beim Besitz einer Staatsbürgerschaft erwartet werden, da eventuell Einwanderer, die eine Staatsbürgerschaft besitzen, sich bereits länger in den Vereinigten Staaten aufhalten, unter Umständen bessere Sprachkenntnisse besitzen, besser in den Arbeitsmarkt integriert sind und sich bewusst für ein dauerhaftes Leben in den Vereinigten Staaten entschieden haben. Abbildung 11 zeigt ein Fehlerbalkendiagramm für das Einkommen der "foreign borns", aufgeteilt danach, ob die Person im Besitz einer amerikanischen Staatsbürgerschaft ist oder nicht. In der Tat liegt der Mittelwert von Personen mit Staatsbürgerschaft über dem Mittelwert von Personen ohne Staatsbürgerschaft. Allerdings sind die Konfidenzintervalle sehr groß und überschneiden sich deutlich, so dass dieses Ergebnis wenig aussagekräftig ist.

Da der P-Wert des Levene-Tests mit 0,574>0,05 (siehe Tabelle 11b), kann die Hypothese auf Gleichheit der Varianzen nicht abgelehnt werden. Deswegen wird ein Zwei-Stichproben-T-Test durchgeführt. Da der P-Wert mit 0,470/2>0,05 (siehe Tabelle 11b), kann die Hypothese, dass die Mittelwerte gleich sind, nicht abgelehnt werden. Die Ergebnisse stimmen mit den Vermutungen aus der grafischen Analyse überein.

Vergleich der Mittelwerte des Einkommens der "foreign borns" nach Herkunftsregionen[edit]

Abbildung 12: Fehlerbalkendiagramme der Variable „conrinc“ anhand der Herkunftsländer, Kategorie „geboren außerhalb der USA“

Um den Zusammenhang zwischen Einkommen und Herkunftsregion herzustellen, wurde eine neue Variable erstellt, in der die einzelnen Herkunftsländer in verschiedene regionale Kategorien gruppiert wurden. Die Kategorie Mittelamerika umfasst insgesamt 107 Beobachtungen oder 40,5% der gültigen Beobachtungen. Die Kategorie Mittlerer Osten umfasst 6 Beobachtungen oder 2,3% aller gültigen Beobachtungen. Die Kategorie Europa / Kanada umfasst 30 Beobachtungen oder 11,4% der gültigen Beobachtungen. Europa und Kanada wurden als eine Kategorie zusammengefasst, da zum einen Kanada als eigenständige Kategorie zu wenige Beobachtungen umfassen würde und zum anderen Kanada in seiner wirtschaftlichen Entwicklung und seinem Bildungsniveau den meisten europäischen Ländern ähnlich ist und zumindest für den frankofonen Teil der Kanadier wie für die meisten Europäer eine ähnliche Sprachbarriere besteht. Die Kategorie Südamerika umfasst 8 Beobachtungen oder 3,0% der gültigen Beobachtungen. Die Kategorie Asien umfasst 24 Beobachtungen oder 9,1% der gültigen Beobachtungen. Die Kategorie Afrika umfasst 5 Beobachtungen oder 1,9% der gültigen Beobachtungen. Für die Angaben „weiß nicht“, „keine Angabe“ sowie Länder, die in keine der oben genannten geographischen Kategorien passen, jedoch zu wenig Beobachtungen umfassen, um eine eigenständige Kategorie zu bilden, wurde die Kategorie „Sonstige“ geschaffen.

Abbildung 12 zeigt ein Fehlerbalkendiagramm für das Einkommen der Befragten in Basisdollar, aufgeteilt nach Herkunftsregionen. Der Konfidenzintervall für die Region Mittlerer Osten ist besonders groß, was vor allem auch durch die kleine Beobachtungszahl von 6 Beobachtungen zu erklären ist. Der Konfidenzintervall für die Region Asien ist ebenfalls groß, was unter anderem durch die Verschiedenheit der Länder zu erklären ist. So enthält die Region sowohl Einwanderer aus dem entwickelten Land Japan sowie den Schwellenländern China und Indien als auch Entwicklungsländern wie z.B. Bangladesch. Auch der Konfidenzintervall für die Region Afrika ist groß, was auch auf die kleine Stichprobengröße von 5 Beobachtungen zurückzuführen ist. Am niedrigsten ist der Mittelwert des Einkommens für die Region Südamerika, gefolgt von Afrika und Mittelamerika. Am höchsten ist der Mittelwert für die Region Asien, gefolgt von Europa / Kanada. Aufgrund der zum Teil großen Konfidenzintervalle lassen sich keine zuverlässigen Aussagen über Parameterunterschiede treffen.

Zusammenhang zwischen dem Alter bei Einreise und der persönlichen Einkommenssituation[edit]

Ein weiteres Merkmal, das in Betracht gezogen wird, ist das Alter bei Einwanderung. Einerseits könnte eine negative Korrelation von Einwanderungsalter und Einkommen angenommen werden, d.h. dass das Einkommen steigt, je jünger eine Person zum Zeitpunkt der Einreise war. Die Annahme wäre, dass Personen, die besonders jung bei der Anreise waren, bessere Chancen hatten, sich zu integrieren und die Sprache zu lernen. Abbildung 13 zeigt ein Streudiagramm. Auf der X-Achse ist das Alter zum Zeitpunkt der Einwanderung abgetragen, auf der Y-Achse das Einkommen des Befragten in Basisdollar. Aus dem Diagramm lässt sich kein eindeutiger Zusammenhang erkennen. Die Korrelation nach Pearson liegt bei 0,011, es besteht also nahezu kein Zusammenhang (siehe Tabelle 12).

Das Einwanderungsalter scheint daher für den Erfolg auf dem Arbeitsmarkt keine große Rolle zu spielen. Es ist daher anzunehmen, dass mehrere Faktoren eine Rolle spielen. Für die allgemeine Integration ist es sicherlich sinnvoll, in einem möglichst frühen Alter einzuwandern. Andererseits wandern auch Personen in die USA ein, die bereits einen hohen Bildungsabschluss aus ihrem Heimatland besitzen und aufgrund ihrer hohen Qualifikationen angeworben wurden. Diese haben trotz ihres höheren Alters während der Einwanderung ein hohes Einkommen.

Lineare Regressionsanalyse[edit]

In einem letzten Schritt soll das Einkommen der „foreign borns“ in einem multivariaten OLS-Semi-Log-Modell untersucht werden. Die multivariate Regressionsanalyse bietet den oberen bivariaten Untersuchungen gegenüber den Vorteil, dass das Zusammenspiel mehrerer Faktoren erkundet werden kann. Hervorzuheben ist, dass es sich nicht um eine kausale Analyse handelt. Ohne weitere Instrumente kann nicht bestätigt werden, dass die unabhängigen Variablen die Veränderungen der abhängigen Variable auslösen, sondern lediglich, welcher Zusammenhang zwischen der abhängigen Variable und dem Zusammenspiel der unabhängigen Variablen besteht.

Korrelationsanalyse und Untersuchung auf Multikollinearität[edit]

Tabelle 13: Korrelationstabelle des logarithmierten Einommens, der Bildungsabschlüsse der Mutter und der eigenen Bildungsabschlüsse, Kategorie „geboren außerhalb der USA“

Da mit Ausnahme der Variablen „logarithmiertes Einkommen“ und „Alter“ alle Variablen in Nominalskala vorliegen, wurden für die übrigen Variablen Dummy-Variablen erstellt. Zur Vorauswahl der Variablen, die in die Regression eingefügt werden sollen, wird zunächst auf bivariate Korrelationen geschaut. Eine Korrelationsanalyse hilft dabei, zum einen signifikante Zusammenhänge zwischen einzelnen X-Variablen und der Y-Variable, d.h. dem logarithmierten Einkommen zu entdecken und zum anderen, um Multikollinearität, d.h. Korrelationen zwischen den einzelnen X-Variablen zu entdecken. Multikollinearität hat negative Auswirkungen auf die Regression, da die einzelnen Regressoren nicht unabhängig voneinander sind. Liegt Multikollinearität vor, so lassen sich Regressionskoeffizienten unzuverlässiger schätzen. Aufgrund der großen Anzahl der Variablen werden keine partiellen Korrelationskoeffizienten berechnet. Stattdessen wird auf den Verdacht einer möglichen Korrelation zwischen dem Bildungsabschluss der Mutter und dem eigenen Bildungsabschluss eine bivariate Korrelationsanalyse durchgeführt.

Multikollinearität liegt vor, wenn zwischen den Regressoren eine starke Korrelation besteht. Eine perfekte Kollinearität liegt bei einem absoluten Wert von 1 vor. Ab einem Wert von 0,75, in manchen Fachbüchern ab einem Wert von 0,9, kann von Multikollinearität gesprochen werden. Wie aus Tabelle 13 deutlich wird, kann der Verdacht auf Multikollinearität zwischen dem eigenen Bildungsabschluss und dem Bildungsabschluss der Mutter weitgehend ausgeräumt werden. Die Korrelationen zwischen dem eigenen High School Abschluss und dem High School Abschluss der Mutter sowie zwischen dem eigenen Junior College Abschluss und dem Junior College Abschluss der Mutter sind mit 0,048 und -0,030 unbedeutend klein, zudem sind sie beide nicht signifikant. Die Korrelationskoeffizienten für den eigenen Bachelor als höchsten Abschluss und den der Mutter sowie den eigenen Graduate Abschluss und den der Mutter sind mit 0,240 und 0,207 (statistisch signifikant auf dem Niveau von 0,01) ebenso deutlich unter dem Wert von 0,75. Schaut man die Korrelationskoeffizienten zwischen den einzelnen Dummy-Variablen und dem logarithmierten Einkommen an, so fällt auf, dass die Koeffizienten für die einzelnen Bildungsabschluss-Dummies der Mutter sehr gering sind. Die Korrelaktionskoeffizienten zwischen Einkommen und Bachelor-Dummy sowie zwischen Einkommen und Graduate-Dummy sind zwar signifikant auf dem Niveau von 0,01, sind jedoch mit 0,185 und 0,184 sehr klein. Die Korrelationskoeffizienten zwischen Einkommen und eigenem Bildungsabschluss sind etwas höher und statistisch signifikanter. Aufgrund insgesamt niedriger Werte wurde beschlossen, nur eine Kategorie von Bildungsvariablen in die Regression aufzunehmen, und zwar die mit den höheren und statistisch signifikanteren Werten, also die eigenen Bildungsabschlüsse.

Modellaufbau[edit]

Es wird von einem Semi-Log-Modell ausgegangen von der Form

\ln(Y)=\beta_{i}*X_{i}+\beta_{k}*X_{k},

wobei X_{i} einen Vektor aus Dummy-Variablen darstellt und X_{k} einen Vektor anderer Regressoren, die nicht in Dummy-Variablen-Form vorliegen, im vorliegenden Fall das Alter bei Einwanderung in die Vereinigten Staaten. Von den Dummy-Variablen wird jeweils eine Kategorie jedes Merkmals herausgelassen, die als Referenzgruppe gilt. Für die Kategorie Geschlecht wird das Merkmal „weiblich“ herausgelassen; für die Kategorie des eigenen Bildungsabschlusses wird das Merkmal „weniger als ein High School Abschluss“ herausgelassen. Für die Herkunftsregion wird das Merkmal „Südamerika“ herausgelassen. Da es sich um ein Semi-Log-Modell handelt, können die Koeffizienten wie folgt interpretiert werden: der Koeffizient einer Dummy-Variablen gibt die prozentuale Zu- oder Abnahme des Einkommens im Vergleich zur Referenzgruppe an, ceteris paribus. Für die Variable des Alters bei Einwanderung gibt der Koeffizient die prozentuale Zu- oder Abnahme des Einkommens bei Steigerung um eine Alterseinheit an.

Ergebnisse[edit]

Wie aus Tabelle 14 entnommen werden kann, liegt das korrigierte R^{2} bei nur 0,279. Das korrigierte R^{2} liegt stets zwischen 0 und 1; der Wert von 1 bedeutet eine perfekte Anpassung. Daher ist die vorliegende Regression nur schlecht angepasst. Da in Tabelle 15 die Signifikanz mit 0,000<0,01, wird die Null-Hypothese auf dem Niveau von 1% abgelehnt, dass R^{2}=0 ist. Das bedeutet, dass alle Regressoren gemeinsam 27,9% der Variation des Einkommens erklären können. Die dritte Tabelle zeigt die Regressionskoeffizienten. Die Vorzeichen fallen fast allesamt wie erwartet aus. Demnach ist das Einkommen für Frauen niedriger als für Männer, das Einkommen für Personen mit mindestens einem Junior College Abschluss höher als das Einkommen für Personen ohne High School Abschluss. Das Einkommen ist für Personen aus allen anderen Regionen als Südamerika höher als für Personen aus Südamerika. Personen mit Staatsbürgerschaft haben ein höheres Einkommen. Überraschend ist, dass das Vorzeichen des Koeffizienten für Personen mit High School Abschluss negativ ist. Das Vorzeichen für den Koeffizienten des Alters bei Einwanderung ist ebenfalls negativ. Allerdings sind nur wenige Werte statistisch signifikant. Ein Koeffizient ist dann statistisch signifikant, wenn die Nullhypothese, dass der Koeffizient 0 ist, abgelehnt werden kann und der Koeffizient somit signifikant von 0 abweicht. Da die Signifikanz des Koeffizienten des Weiblich-Dummies mit 0,002<0,01, liegt das Einkommen von weiblichen Personen 64,2% unter dem Einkommen von männlichen Personen auf einem Signifikanzniveau von 1%. Das Einkommen einer Person mit Bachelor-Abschluss liegt 103,3% höher als das Einkommen einer Person ohne High School Abschluss auf einem Singifikanzniveau von 1% (da die Signifikanz mit 0,007 unter 0,01 liegt). Das Einkommen steigt bei einem Wechsel von einer Person ohne High School Abschluss zu einer Person mit Graduate-Abschluss um 181,2% bei einem Signifikanzniveau von 1%. Alle anderen Koeffizienten sind nicht statistisch signifikant. Die numerischen Werte sind jedoch mit Vorsicht zu behandeln, da keine Sensivitätsanalyse durchgeführt wurde, um die Robustheit der Werte zu testen.

Abbildung 14 zeigt die partiellen Regressionsdiagramme. Es lässt sich die im ersten Fall negative Beziehung und die in den weiteren Fällen positive Beziehung erkennen. Ebenso lässt sich allerdings erkennen, dass die linearen Zusammenhänge eher schwach ausgeprägt sind.

Validität: Untersuchung auf Normalität der standardisierten Residuen[edit]

Nach Durchführung einer OLS-Regression sollte überprüft werden, ob die notwendigen Annahmen wie Linearität, keine perfekte Kollinearität, Homoskedasitizität der Störglieder zutreffen. Exemplarisch soll eine dieser Annahmen getestet werden, die Annahme, dass die standardisierten Residuen normal verteilt sind.

Die grafische Analyse zeigt anhand eines Histogramms und eines PP-Diagramms, dass die Residuen einer Normalverteilung nahekommen. Da die Signifikanz des Kolmogorov-Smirnov-Tests mit 0,151>0,05, kann die Hypothese auf das Vorliegen einer Normalverteilung auf dem 5%-Niveau nicht abgelehnt werden. Die Bedingung der Normalverteilung der Residuen ist somit erfüllt.

Fazit[edit]

Im vorliegenden Artikel wurde die Einkommenssituation von "foreign borns" im Vergleich zu den "home borns" untersucht. Insgesamt ergab die Analyse, dass kein signifikanter Unterschied zwischen dem individuellen Einkommen von "home borns" und "foreign borns" besteht. In ihrer Gesamtheit sind somit die "foreign borns" in Bezug auf das individuelle Einkommen weder eindeutig benachteiligt noch bevorteilt. Aufgrund einer prozentual höheren Anzahl von Topverdienern liegt der Mittelwert der "foreign borns" über dem der "home borns", allerdings liegt der Median der "foreign borns" unter dem der "home borns". Insgesamt zeigen sich immer noch Unterschiede in Bezug auf die Auswirkungen unterschiedlicher Charakteristika auf das individuelle Einkommen, d.h. von einer unmittelbaren Anpassung der "foreign borns" kann nicht ausgegangen werden. Bei den "home borns" zeigt sich eine deutlichere "Gender gap" als bei den "foreign borns"; bei den "foreign borns" spielt der Bildungsabschluss der Mutter und der eigene Bildungsabschluss eine wichtigere Rolle als bei den "home borns". Themenspezifische Einflüsse wie der Besitz der amerikanischen Staatsbürgerschaft und das Alter bei Einwanderung scheinen nicht viel auszumachen. Die Herkunftsregion lässt auch Einkommenserfolge schließen, müsste jedoch für eindeutigere Ergebnisse noch weiter ausdifferenziert werden. Insgesamt zeigt die Regressionsanalyse nur schwache Ergebnisse, was zum einen an der kleinen Stichprobengröße der "foreign borns" und der großen Heterogenität innerhalb dieser Gruppe und zum anderen an der nur geringen Relevanz der ausgewählten Faktoren liegen mag.

Referenzen[edit]

http://www.migrationinformation.org/feature/display.cfm?ID=747#2b

http://www.norc.org/GSS+Website/About+GSS/

Eckstein, P. (2008): Statistik für Wirtschaftswissenschaftler. Wiesbaden, Gabler

GENERAL SOCIAL SURVEYS, 1972-2008: CUMULATIVE CODEBOOK. June 2009. Conducted for the National Data Program for the Social Sciences at National Opinion Research Center University of Chicago

Newbold, P., Carlson, W., Thorne, B. (2007): Statistics for Business and Economics, 6. Ausgabe. New Jersey, Pearson

"Regression with SPSS Webcourse: Annotated Simple Linear Regression." UCLA Academic Technology Services. Web. 28 Mar. 2010. <http://www.ats.ucla.edu/stat/spss/webbooks/reg/chapter1/annotated1.htm>.

Rönz, B. (2001): Skript "Computergestützte Statistik I". Humboldt-Universität zu Berlin

Rönz, B. (2001): Skript "Computergestützte Statistik II". Humboldt-Universität zu Berlin

"SPSSX-L Archives -- January 2000 (#159)." LISTSERV at The University of Georgia. Web. 28 Mar. 2010. <http://www.listserv.uga.edu/cgi-bin/wa?A2=ind0001&L=spssx-l&P=16591>.

Sutthiphisal, D. (2007): Economics Statistics Class Notes. McGill University, Montreal, Quebec

"What Is Multicollinearity in Multiple Regression?" Dissertation Help, Thesis Editing, Statistics Consulting, Dissertation Topics & Research Ideas. Web. 28 Mar. 2010. <http://www.researchconsultation.com/what-is-multicollinearity-multiple-regression.asp>.