Einflussfaktoren auf das Einkommen in Italien

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Einleitung[edit]

Die folgende Analyse befasst sich mit dem italienischen Einkommen, seiner Verteilung und den beeinflussenden Größen. Dafür wird der Datensatz „Indagine sui bilanci delle famiglie italiane“ (Studie zum Einkommen der Haushalte) verwendet. Diese Studie wird seit den 60er Jahren von der Banca d´Italia, der Italienischen Zentralbank, durchgeführt und untersucht das Einkommen, Sparverhalten und Wohlstand der italienischen Haushalte. Die Umfrage umfasst rund 8.000 Familien aus ca. 300 Gemeinden in ganz Italien.

Datensatz[edit]

Für die statistische Analyse werden die neusten zur Verfügung stehenden Daten verwendet, die sich auf das Jahr 2006 beziehen. Außerdem werden aus diesem Datensatz nur die Daten bezüglich der Angestellten berücksichtigt, da bei der Einbeziehung aller Daten auf Grund der Verschiedenartigkeit der benutzten Parameter Vergleiche nicht möglich wären. Somit werden in der folgenden Arbeit insgesamt 5.887 Fälle mit einbezogen und analysiert. Diese Arbeit konzentriert sich überwiegend auf folgende Variablen: Nettojahreseinkommen, Alter, Arbeitsjahre, höchster Abschluss, Region, Geschlecht, Qualifikation. Während es sich bei den ersten drei Variablen um metrisch skalierte Variablen handelt, sind die restlichen nominal skaliert, außer die Variable „höchster Abschluss“, welche ordinal skaliert ist. Zuerst werden unterschiedliche Methoden zur Entdeckung von Ausreißern verwendet, nach deren Behandlung erfolgt die Prüfung der Verteilungsform der Variablen Einkommen. Eine kurze Übersicht stellt dann das Einkommen bezüglich der wichtigsten Variablen dar. Zum Schluss werden die Zusammenhänge zwischen dem Einkommen und einigen Variablen untersucht und eine Regressionsanalyse wird durchgeführt.

Entdeckung von Ausreißern[edit]

Als erstes werden deskriptive und grafische Verfahren verwendet, um eventuelle Ausreißer zu entdecken. Als Ausreißer bezeichnet man Extremwerte, die vom Datenkörper sehr abweichen. Sie können die Verteilung und die Ergebnisse von statistischen Methoden beeinflussen und verzerren. Deswegen ist eine der ersten Aufgaben bei der Aufbereitung der Daten die Identifikation und Behandlung von Ausreißern. Um Informationen über die Struktur der Daten zu gewinnen stehen mehrere Methoden zur Verfügung: Stem&Leaf Diagramm, Boxplot und Histogramm. Die ersten zwei Verfahren setzen metrische Daten voraus; das Histogramm bildet hingegen die Häufigkeiten von klassierten Daten ab.

Deskriptive Statistik und Diagramme[edit]

Die Untersuchung erfolgt für die metrische Variable „Nettojahreseinkommen“ (YLM). Die deskriptive Statistik gibt eine erste Übersicht über die analysierten Daten. Aus der Abb. 1 kann man entnehmen, dass unter den Daten sehr große Abweichungen vorhanden sind. Das Minimum liegt bei 220 Euro und das Maximum bei 160.000 Euro, bei einer Standardabweichung von 8.149,780 Euro. Die Schiefe beträgt 3,092; was auf eine rechtsschiefe Verteilung hindeutet, auch der Kurtosis-Wert von 31,284 weist auf eine Abweichung von der Normalverteilung hin.

Das Stem&Leaf Diagramm stellt die Struktur der Daten anhand von Stengeln und Blättern dar. Es ist in folgender Weise zu interpretieren: Unter dem Diagramm steht die Anzahl der Fälle pro Blatt, in diesem Fall sind es 8, und die Stamm-Einheit ist 1.000. Die erste Zeile soll als Beispiel dienen, sie beinhaltet 30 Fälle, es gibt 16 Beobachtungen mit einem Einkommen zwischen 1.500 und 1.600 Euro, 8 mit einem Einkommen zwischen 1.800 und 1.900 und 6 Fälle mit einem Einkommen zwischen 1.800 bis 2.000 Euro. SPSS gibt beim Diagramm auch die Anzahl der „Extremwerte“ an, 66 „untere Extremwerte“ (Fälle mit einem Einkommen von weniger als 1.450 Euro) und 238 „obere Extremwerte“ (Fälle mit einem Einkommen von mehr als 29.845 Euro). Die Anzahl der Extremwerte ist sehr hoch, daher ist eine genauere Analyse erforderlich.

Im Gegensatz zum Stem&Leaf Diagramm verwendet der Boxplot summarische Größen für die graphische Darstellung der Daten, dabei werden Kennzahlen wie der x0,25, x0,5, x0,75 Quantile benutzt. Fälle mit einem Einkommen zwischen dem unteren und dem oberen Quartil, d.h. 50% der Daten, befinden sich innerhalb der Box, wobei die Linie innerhalb der Box dem x0.5 Quantil entspricht. Es fällt auf, dass viele Beobachtungen außerhalb der upper fence fallen, dies verdeutlicht, dass der Datensatz eine große Standardabweichung besitzt. Mit Sternen werden Fälle gekennzeichnet, die ein Einkommen über x0.75+3QA (QA: Quartilsabstand) aufweisen. Es ist ersichtlich, dass eine ziemlich große Anzahl von Beobachtungen einen großen Wert hat; dabei kann es sich nicht bei jedem mit einem Stern gekennzeichneten Fall um einen Ausreißer handeln. Vor allem die Beobachtungen Nr. 1.232, 2.519 und 1.795 können potenzielle Ausreißer sein. Bei diesen Fällen handelt es sich um Einkommen in Höhe von 160.000, 120.000, bzw. 110.000 Euro. Diese Werte sind weit entfernt von dem Mittelwert von 15.736,84 und vom Median von 15.000 Euro.

Das Histogramm gibt die Struktur der analysierten Daten durch Balken wieder. Dafür werden die Daten in gleich großen Klassen zusammengefasst und deren Häufigkeiten werden gezeichnet. Die eingezeichnete Kurve stellt die Normalverteilung dar, die sich aus den aus den Daten geschätzten Mittelwert und Varianz ergibt. Es ist ersichtlich, dass die Daten ziemlich stark von der Normalverteilung abweichen.

Ausreißertests[edit]

Als Ausreißertests können z.B. der Grubbs-, der Grubbs/Beck-, der David-Hartley-Pearson-Test und Dixon´s r-Statistiken verwendet werden. Allerdings setzen alle oben genannten Tests eine normalverteilte Grundgesamtheit voraus. Da die Daten keiner Normalverteilung (s. Abschnitt „Prüfung der Verteilungsform von Variablen“) folgen, wäre es sinnlos diese Tests durchzuführen. Die Ergebnisse wären für den untersuchten Datensatz wertlos. Nach der Identifikation von Ausreißern stehen unterschiedliche Methoden zu ihrer Behandlung zur Verfügung: Eliminierung, Ersetzung, Folgenabschätzung und Benutzung von robusten Verfahren. Da die Fälle Nr. 1.232, 2.519 und 1.795 in großem Maß von dem Datenkörper abweichen, werden sie als Ausreißer behandelt, obwohl es keine statistische Evidenz dafür gibt. Daher werden die oben aufgelisteten Fälle vom Datensatz entfernt und die weitere Analyse erfolgt ohne sie zu berücksichtigen.

Prüfung der Verteilungsform von Variablen[edit]

Die Prüfung der Verteilungsform kann durch graphische Verfahren erfolgen, sowie durch geeignete Tests. Die schon im Abschnitt „Ausreißer“ vorgestellten graphischen Methoden deuteten auf eine rechtsschiefe Verteilung hin. Nun werden die Wahrscheinlichkeitsplots herangezogen, die es ermöglichen zu prüfen, ob die Daten einer bestimmten Verteilung, in diesem Fall der Normalverteilung, folgen.

Im Falle einer Übereinstimmung der empirischen und theoretischen Verteilung müssten die Beobachtungen im Q-Q und P-P Diagramm auf der winkelhalbierenden Linie liegen (bzw. auf der waagerechten Linie für die trendbereinigten Plots). Abb. 5 und 7 zeigen deutliche Abweichungen von der 45°-Geraden, vor allem am oberen Ende. Daraus kann man schließen, dass keine Normalverteilung in der Grundgesamtheit gegeben ist. Auch die bereinigten Diagramme deuten auf keine Normalverteilung hin, da die Werte nicht nahe bei Null sind, sondern starke Abweichungen aufweisen.

Kolmogorov-Smirnov Test

Zur Prüfung der Verteilungsform der Daten wird ein Kolmogorov-Smirnov-Test durchgeführt. Dieser Test gilt unter folgenden Voraussetzungen: die Variable X muss metrisches Skalenniveau haben, sie darf nicht klassiert sein, die theoretische Verteilung F0(x) muss stetig sein und die Parameter der hypothetischen Verteilung F0(x) müssen bekannt sein. Alle erforderlichen Voraussetzungen sind erfüllt, da es sich bei der Variable Einkommen um eine metrische, nicht klassierte Variable handelt und die theoretische Verteilung stetig mit bekannten Parametern ist. Geprüft wird die Nullhypothese, H0: Fn(x) = F0(x) für alle x, gegen die Alternativhypothese H1: Fn(x)≠F0(x) für mindestens ein x; wobei die empirische Verteilung gegen die Normalverteilung N(µ; σ) geprüft wird.

Abb. 9 Kolmogorov-Smirnov

Da die Parameter der Grundgesamtheit unbekannt sind und aus der Stichprobe geschätzt werden müssen, wird die Variante des Kolmogorov-Smirnov-Tests mit den kritischen Werten von Lillefors, mit einem Signifikanzniveau von 5%, verwendet. Der Kolmogorov-Smirnov-Test gibt einen Signifikanzwert von ,000 an; da dieser Wert niedriger ist als das festgelegte Signifikanzniveau (α=0,05), muss die Nullhypothese verworfen werden. Wie schon aus den unterschiedlichen Plots erwartet, deutet auch dieser Test darauf hin, dass bei den Daten keine Normalverteilung vorliegt. Folglich können auch keine Tests durchgeführt werden, die eine normalverteilte Grundgesamtheit voraussetzen.

Ohne Ausreißer

Auch bei Durchführung ohne Ausreißer weist der Kolmogorov-Smirnov-Test auf Abweichung von der Normalverteilung hin. Dabei ergibt sich ein Signifikanzwert von ,000. Auch in diesem Fall wird die Nullhypothese verworfen, der Datensatz folgt also keiner Normalverteilung.

Abb. 10 Kolmogorov-Smirnov Test ohne Ausreißer

Die Variable Einkommen im Fokus[edit]

Die Analyse der Variablen Einkommen bezüglich einzelner Variablen kann auf unterschiedlicher Weise erfolgen. Hier wird beispielhaft im Detail die Variable jährliches Nettoeinkommen bezüglich der Region untersucht. Die befragten Personen wurden je nach Wohnort in drei Regionen eingeteilt: Norden, Mitte, Süden & Inseln. Die deskriptive Analyse gibt nicht allzu überraschende Ergebnisse an, der Mittelwert ist am niedrigsten im dritten Gebiet, also Süden & Inseln, während der Unterschied zwischen Norden und Mitte nicht sehr hoch ist. Auch der Median liegt deutlich höher im Norden und in der Mitte als im Süden. Die höchsten Werte sind ebenfalls in den ersten zwei Regionen vorzufinden (Maximum: 80000 und 90000 Euro). Aus den Tabellen der deskriptiven Statistiken kann man auch entnehmen, dass Mittelitalien das Gebiet ist, in dem die größten Unterschiede im Einkommen vorliegen, da genau in diesem Gebiet der kleinste und der größte Extremwert fallen und die Standardabweichung am höchsten ist. Diese Informationen können auch den Boxplots entnommen werden.

Mit einem Kolmogorov-Smirnov Test (Lillefors) wird die empirische Verteilung in den drei Regionen gegen die Normalverteilung getestet. Da in jedem Gebiet der Signifikanzwert kleiner als das festgelegte Signifikanzniveau ist, wird die Nullhypothese verworfen, d.h. die in den drei Regionen unterteilten Daten folgen keiner Normalverteilung. Dies ist auch aus den Histogrammen ersichtlich. Die drei folgenden Abbildungen zeigen die Histogramme für die drei Regionen mit der Normalverteilungskurve, dadurch sind die Abweichungen von der Normalverteilung deutlich zu erkennen.

Parametervergleiche

Die Parametervergleiche dienen der Analyse von Unterschieden in den Parametern der zu untersuchenden metrischen Variablen, die nach einer zweiten Variablen (Faktorvariable) gruppiert wird. Als metrische Variable wird das jährliche Nettoeinkommen gewählt, die Daten werden dann nach der Faktorvariablen Region aufgeteilt und untersucht. Zunächst werden einige graphische Methoden verwendet. Zur explorativen Analyse stehen unterschiedliche Möglichkeiten zur Verfügung: Häufigkeitstabellen, Stem & Leaf-Plot, Boxplot, Histogramm, Balkendiagramm und Fehlerbalkendiagramm. Auf die Häufigkeitstabellen, Boxplot und Histogramm wurde schon im vorherigen Abschnitt näher eingegangen; daher konzentriert sich die Analyse nun auf die Fehlerbalkendiagramme. Abb. 19 stellt ein 95%-Konfidenzintervall für den Mittelwert für das jährliche Nettoeinkommen in den drei Regionen dar. Während sich die Konfidenzintervalle für Norden und Mitte teilweise überlappen, liegt das Konfidenzintervall für den Süden sehr weit entfernt von denen von Norden und Mitte, was auf eine deutliche Abweichung hinweist. Man kann daraus schließen, dass der Unterschied im mittleren Einkommen im Norden und in Mittelitalien nicht signifikant ist, während ein signifikanter Mittelwertunterschied zwischen Süden und den anderen zwei Regionen besteht. Dieses Ergebnis stimmt mit den aus den Häufigkeitstabellen und Boxplots angestellten Überlegungen überein. Bei gleichzeitiger Berücksichtigung von Regionen und Geschlecht wird ersichtlich, dass das oben beschriebene Muster sowohl für Männer als auch für Frauen gilt, wobei das mittlere Einkommen bei den Frauen deutlich niedriger liegt, was zu signifikanten Mittelwertunterschieden nicht nur unter den Regionen sondern auch zwischen den Geschlechtern führt.

Prüfung der Gleichheit der Varianzen

Nach der graphischen Betrachtung wird ein statistischer Test durchgeführt. Um die Gleichheit von Varianzen zu prüfen, stehen der F-Test und der Levene-Test zur Verfügung. Der F-Test setzt normalverteilte Grundgesamtheiten voraus und ist nicht robust gegen die Verletzung dieser Annahme. Da die vorliegenden Daten nicht normalverteilt sind, ist es nicht sinnvoll, diesen Test anzuwenden. Beim untersuchten Datensatz wird daher nur der Levene-Test durchgeführt. Im Gegensatz zum F-Test ermöglicht der Levene-Test die Prüfung der Gleichheit von mehr als nur zwei Varianzen und setzt eine stetige Verteilung der Zufallsvariablen in den Grundgesamtheiten voraus, aber nicht unbedingt die Normalverteilung. Bei der Analyse der Gleichheit der Varianzen unter den Regionen werden drei Grundgesamtheiten (Norden, Mitte, Süden & Inseln) berücksichtigt. Die Zufallsvariable Einkommen hat sehr viele Ausprägungen, so dass sie als quasi-stetige Variable angesehen werden kann. Da alle Voraussetzungen für die Variable Einkommen erfüllt sind, kann der Levene-Test durchgeführt werden. Es wird die Nullhypothese H0: σ12=...=σn, gegen die Alternativhypothese H1: σi≠σk (i≠k) geprüft. Abb. 22 enthält die Ergebnisse der Levene-Test für die drei Regionen. Abb. 22

Der Zeile „Basiert auf dem Mittelwert“ aus der Tabelle „Test auf Homogenität der Varianz“ aus dem Levene-Test kann man die Teststatistik, die Anzahl der Freiheitsgrade und die Signifikanz entnehmen. Da die Signifikanz ,018 beträgt, ist sie kleiner als das für den Levene-Test festgelegte Signifikanzniveau von 5 %, deswegen muss die Nullhypotese verworfen werden. Das bedeutet, dass die Stichproben aus Verteilungen mit unterschiedlichen Varianzen stammen.

Prüfung der Gleichheit der Mittelwerte

Es wird geprüft, ob es Mittelwertunterschiede hinsichtlich der Regionen Norden & Mitte und Süden & Insel gibt. Da die Beobachtungen für die zwei Regionen unabhängig sind, sind die zwei Stichproben voneinander unabhängig; die Grundgesamtheiten sind zwar nicht normalverteilt aber die Stichproben sind so groß, dass der Zentrale Grenzwertsatz angewendet werden kann. Damit sind die Voraussetzungen für die Durchführung des Tests auf Mittelwertunterschiede erfüllt. Es wird die Nullhypothese geprüft, dass das Einkommen im Norden (und in Mittelitalien) höher (oder gleich hoch) ist als im Süden (und in den Inseln), d.h. H0: µ2≥µ1, gegen H1: µ21. Abb. 23 zeigt zuerst die Ergebnisse des Levene-Tests, der auf Varianzgleichheit hindeutet (Signifikanzwert =,140 > α=0,05). Im zweiten Teil der Tabelle sind die Ergebnisse des Tests auf Mittelwertgleichheit. Zu beachten ist die Zeile „Varianzen sind gleich“, wobei der Signifikanzwert ,000 beträgt; dieser Wert liegt unter des Signifikanzniveaus von 5% und führt zur Ablehnung der Nullhypothese. D.h. das Einkommen im Norden (und Mittelitalien) ist höher als im Süden (und in den Inseln). Dieses Ergebnis stimmt mit den Erkenntnissen aus den Fehlerbalkendiagrammen.

Abb. 23 Abb. 24

Einkommen bezüglich Geschlecht, Abschluss und Alter

Die Analyse vom Einkommen bezüglich des Geschlechtes zeigt signifikante Abweichungen zwischen den Geschlechtern. Sowohl der Mittelwert als auch der Median liegen bei den Männern viel höher als bei den Frauen, die höhere Varianz bei den Männern deutet auf stärkere Einkommensunterschiede innerhalb der Gruppe hin. Die Abbildung der Fehlerbalkendiagramme verdeutlicht den starken Unterschied im Einkommensmittelwert in den zwei Gruppen. Die zwei Histogramme deuten auf signifikante Abweichungen von der Normalverteilung bei beiden Geschlechtern hin, dies wird auch vom Kolmogorov-Smirnov Test bestätigt, da der Signifikanzwert von ,000 zur Ablehnung der Nullhypothese (Normalverteilung der Daten) führt.

Bei Berücksichtigung des höchsten Abschlusses ergeben sich fünf Gruppen, in die die Befragten aufgeteilt sind: Befragte, die die Schule bis zur 5. Klasse besucht haben, die die Schule bis zur 8. Klasse besucht haben, die die Schule bis zur 11. Klasse besucht haben, die das Abitur haben, die einen Bachelor-, Master-, Diplom- oder Doktoratsabschluss haben. Zwischen den Gruppen bestehen große Unterschiede im Einkommen, vor allem zwischen den ersten zwei Klassen und den letzten zwei. Personen mit einem universitären Abschluss verdienen im Durchschnitt deutlich mehr als Personen die nur einen einfachen Schulabschluss besitzen. Die Ergebnisse des Levene-Tests weisen auf Ungleichheit der Varianzen zwischen den Klassen. Aus den Histogrammen ist ersichtlich, dass das Einkommen auch innerhalb der nach dem höchsten Abschluss gebildeten Klassen nicht normalverteilt ist.

Die Analyse des Einkommens bezüglich des Alters führt zu folgenden Ergebnissen. Die Befragten wurden in vier Klassen aufgeteilt: Befragte bis 30 Jahren, von 31 bis 40, von 41 bis 50 und über 51. Die größten Unterschiede liegen bei den ersten drei Gruppen vor, deren Mittelwerte sehr stark voneinander abweichen. Das Fehlerbalkendiagramm deutet auf signifikante Unterschiede im Mittelwert zwischen den ersten drei Klassen hin, während bei den letzten zwei eine zumindest teilweise Überlappung vorliegt. Die höchste Varianz liegt bei der Klasse der Personen über 50 vor, was darauf hindeutet, dass es innerhalb dieser Klasse die größten Unterschiede im Einkommen gibt. Die Werte von Kurtosis und Schiefe weisen auch in diesem Fall auf eine Abweichung von der Normalverteilung hin.

Überprüfung von Zusammenhängen[edit]

Bei der Prüfung von Zusammenhängen zwischen den Variablen ist es entscheidend, deren Skalierung zu berücksichtigen. Da sich die Analyse auf die Einkommensverteilung und die Einflüsse darauf konzentriert, wird nach den Zusammenhängen zwischen der abhängigen Variablen und einigen unabhängigen Variablen untersucht. Im Fall von zwei metrisch skalierten Variablen wird der Bravais-Pearson-Korrelationskoeffizient herangezogen. Für Einkommen und Alter beträgt der Bravais-Pearson-Korrelationskoeffizient ,293, was auf einen schwachen positiven Zusammenhang zwischen den untersuchten Variablen hindeutet. Auch der darauf durchgeführte Test gibt das gleiche Ergebnis an, da der Signifikanzwert ,000 beträgt und somit kleiner als das Signifikanzniveau von 5% ist. Die Nullhypothese, dass kein (linearer) Zusammenhang zwischen den zwei Variablen besteht, muss somit abgelehnt werden. Da der durchgeführte Signifikanztest empfindlich gegenüber der Verletzung der Normalverteilung für die Variablen in der Grundgesamtheit ist, wird nun der Spearman´sche Rangkorrelationskoeffizient berechnet. Der Korrelationskoeffizient mit ,308 bestätigt das gefundene Ergebnis und deutet auf einen schwachen positiven Zusammenhang. Auch in diesem Fall gibt der Signifikanztest (mit einem Signifikanzwert von ,000) an, dass ein signifikanter Zusammenhang vorliegt.

Ein schwacher positiver Zusammenhang liegt auch zwischen Einkommen und Arbeitsjahren vor (Spearman´s Rho ,263). Der Spearman´sche Rangkoeffizient zwischen Einkommen und Arbeitsstunden deutet mit ,354 auf eine etwas stärkere Korrelation zwischen den Variablen. Auch zwischen den Variablen Einkommen und höchster Abschluss besteht ein schwacher linearer positiver Zusammenhang. Zur Überprüfung des Zusammenhanges zwischen dem Einkommen und einer nominal oder ordinal skalierten Variablen wird ein PRE-Maß benutzt: der Eta Koeffizient. Zwischen Einkommen und Schulabschluss beträgt der quadrierte Eta-Koeffizient ,103; das bedeutet, dass sich 10,3% der Gesamtvarianz in dem Einkommen durch den Schulabschluss erklären lässt. Hingegen lässt sich gerade 1,3% der Gesamtstreuung im Einkommen durch die Region erklären und etwa 5% durch das Geschlecht, während die Qualifikation (Unterteilung in Arbeiter, Büroangestellte und Manager/Dirigent) ungefähr 26% der Streuung erklärt.

Regressionsanalyse[edit]

Die nun durchgeführte Regressionsanalyse dient der Erklärung der Abhängigkeit einer Variablen Y von den unabhängigen Variablen Xi. Als abhängige Variable wird das Nettojahreseinkommen gewählt, da es den Zusammenhang zwischen dem Einkommen und Alter, Region, höchstem Abschluss, Geschlecht, Arbeitsstunden, Arbeitsalter und Qualifikation zu untersuchen gilt. Dabei sind die Variablen Alter, Region, höchster Abschluss, Geschlecht, Arbeitsstunden, Arbeitsalter und Qualifikation die unabhängigen Variablen. Eine Voraussetzung für die Durchführung einer Regressionsanalyse besteht darin, dass alle Variablen, sowohl die abhängige, als auch die unabhängigen, metrisches Skalenniveau besitzen. Es ist allerdings möglich, auch nominalskalierte unabhängige Variablen durch eine Transformation in sogenannte Dummy-Variablen in die Analyse mit einzubeziehen. Dies erfolgt durch eine Umcodierung in binäre Variablen, die als metrische behandelt werden. Bei der durchgeführten Analyse wird diese Technik für die Variablen Geschlecht, Region und Qualifikation angewandt, so dass sie in die Regressionsanalyse mit einbezogen werden können. Es wird eine Regressionsanalyse mit der Methode „Einschluss“ durchgeführt, d.h. alle unabhängigen Variablen werden in einem Schritt aufgenommen.

Analyse[edit]

Die Güte der Regressionsanalyse wird vom Bestimmtheitsmaß R2 und dem korrigierten Bestimmtheitsmaß angegeben, wobei diese in der durchgeführten Analyse den Wert 0,516 bzw. 0,515 haben. 51% der Variation in dem Nettojahreseinkommen wird durch die einbezogenen unabhängigen Variablen erklärt. Zur Prüfung der Güte der Regressionsfunktion kann auch der F-Test herangezogen werden. Dabei wird die Nullhypothese geprüft, dass alle Regressionskoeffizienten gleich Null sind ( H0: βi= 0 für alle i). Da der in der ANOVA-Tabelle aufgeführte Signifikanzwert unter dem gewählten Signifikanzniveau von 5% liegt, muss die Nullhypothese verworfen werden. Das weist darauf hin, dass das gewählte Regressionsmodell einen signifikanten Teil der Variation des Nettojahreseinkommens erklärt. Neben der globalen Güte des Regressionsmodells, werden auch die einzelnen Regressionskoeffizienten auf ihre Güte geprüft. Abb. 49 zeigt die Ergebnisse des t-Tests. Dabei werden die einzelnen Regressionskoeffizienten gegen Null getestet. Da der Signifikanzwert für jeden Koeffizienten kleiner als das Signifikanzniveau ist, wird die Nullhypothese verworfen, d.h. jede berücksichtigte unabhängige Variable übt einen signifikanten Einfluss auf die abhängige Variable aus. Die Regressionskoeffizienten erklären den Einfluss der einzelnen unabhängigen Variablen auf das Nettojahreseinkommen. Da die nicht standardisierten Koeffizienten mit einer Bezugsgröße verknüpft sind, ist ein Vergleich der Wichtigkeit der Variablen anhand dieser Koeffizienten nicht sinnvoll; dies ist aber anhand der standardisierten dimensionslosen Koeffizienten möglich. Bei der durchgeführten Analyse üben den größten Einfluss auf das Einkommen die Variablen TOTStd (Arbeitsstunden) und Qualif3 (Position als Manager/Dirigent), die die höchsten standardisierten Koeffizienten besitzen. Einen starken Einfluss üben auch die Variablen Arbeitsjahre und höchster Abschluss aus. Im Gegenteil deuten die niedrigen Koeffizienten von AREAnorden (Region Norden) und AREAmitte (Region Mitte) auf einen geringen Einfluss der gleichen Variablen auf das Einkommen. Der Koeffizient von Geschlecht ist der einzige negative Koeffizient, das weist auf einen negativen Zusammenhang mit dem Einkommen hin, d.h. der Übergang vom Geschlecht Mann auf das Geschlecht Frau bedeutet eine Verringerung des Einkommens um 2.595,612 Euro.

Überprüfung der Annahmen[edit]

Um zu wissen, in wie weit die Ergebnisse der Regressionsanalyse verwendbar sind, ist es notwendig die Annahmen zu überprüfen. Bei den Werten der Regressoren handelt es sich um nichtzufällige Größen. Bei dem Regressionsmodell wurden alle relevanten Variablen aufgenommen, die einen Einfluss auf die abhängige Variable haben. Zudem darf keine extreme Multikollinearität bestehen. Zur Prüfung von Multikollinearität werden die Toleranz, der Variance-Inflation-Faktor (VIF) und der Condition Index herangezogen. Der Toleranzwert ist für alle Variablen größer als 0,5; das deutet auf keine Multikollinearität hin, da Werte nahe Null für Multikollinearität sprechen. Die VIF-Werte, die die reziproken Werte der Toleranz sind, liegen alle unter 2; das führt auch zur Ablehnung der Hypothese von Multikollinearität. Schließlich wird dieses Ergebnis auch vom Condition Index bestätigt, da alle Werte kleiner als 30 sind, was als Grenzwert angesehen werden kann. Bei den vorliegenden Werten kann man daher davon ausgehen, dass keine extreme Multikollinearität vorliegt.

Es gilt weiterhin, durch ein Streudiagramm zu überprüfen, ob bei den Residuen Homoskedastizität vorliegt. Das Streudiagramm ist durch eine Punktenwolke charakterisiert, die eher zu einem Zusammenhang der Residuen mit den standardisierten geschätzten y-Werten hindeutet. Daher ist Heteroskedastizität der Residuen nicht auszuschließen.

Abb. 51

Zur Prüfung des Nichtvorhandenseins von Autokorrelation unter den Residuen wird der Durbin-Watson Test angewendet. Der Durbin-Watson-Wert beträgt 1,836. Dieser Wert liegt nahe an 2, bei dem keine Autokorrelation vorliegt; allerdings ist es nicht möglich, eine Aussage zu treffen, da für diesen Stichprobenumfang keine kritischen Werte für den Test zur Verfügung stehen. Die letzte Annahme betrifft die Verteilungsform der Residuen, es wird angenommen, dass sie normalverteilt sind. Zur Prüfung der Normalverteilung der Residuen werden als graphische Methoden das Histogramm und das P-P Plot verwendet. Abb. 52 stellt das Histogramm der standardisierten Residuen und die Normalverteilungskurve dar, daraus erkennt man, dass die Abweichungen von der Normalverteilung ziemlich groß sind. Dies ist auch aus den P-P und Q-Q Plots ersichtlich, da die Punkte in der Grafik ziemlich stark von der 45°-Geraden abweichen. Der Kolmogorov-Smirnov-Test auf die standardisierten Residuen bestätigt diese „Vermutung“; der Signifikanzwert von ,000 liegt nämlich unter dem Signifikanzniveau von 5% und führt zur Ablehnung der Nullhypothese (Residuen folgen einer Normalverteilung). Da dadurch die Annahme der Normalverteilung der Residuen verletzt ist, ist zwar nicht die Schätzung der Regressionsparameter, aber die Hypothesenprüfung beeinträchtigt.

Fazit[edit]

Die Analyse zeigte welche Variablen einen signifikanten Einfluss auf das Einkommen der Angestellten in Italien üben. Wie erwartet besteht ein negativer Zusammenhang zwischen dem Geschlecht Frau und der Höhe des Einkommens, während das Alter und der Abschluss einen positiven Einfluss ausüben. Der relativ niedrige Wert des Bestimmtheitsmaßes könnte von fehlenden Regressoren und von der teilweise Verletzung der Annahmen abhängen. Daher sind die Ergebnisse der Regressionsanalyse nur mit Vorsicht zu verwenden.

Quellen[edit]

  • Backhaus/Erichson/Plinke/Weiber (2003): Multivariate Analysemethoden, Springer-Verlag Berlin
  • Bleymüller/Gehlert/Gülicher (2008): Statistik für Wirtschaftswissenschaftler", Vahlen
  • Bortz, J. (1999): Statistik für Sozialwissenschaftler, Springer-Verlag Berlin
  • Brosius, F. (2008): SPSS 16, Das mitp-Standardwerk, Redline GmbH
  • Hartung, J. (1993): Statistik, R. Oldenburg Verlag München
  • Rönz, B. (2001): Skript "Computergestützte Statistik I"
  • Schlittgen, R. (2003): Einführung in die Statistik, R. Oldenburg Verlag München