Einflussfaktoren auf Arbeitslosigkeit und Einkommen - Eine Betrachtung der OECD-Mitgliedsstaaten

From Teachwiki
Jump to: navigation, search

Einleitung[edit]

Im Rahmen des Kurses "Computergestützte Statistik II" wurde die Aufgabe gestellt, die besprochenen statistischen Analysemethoden anhand von Daten adäquat anzuwenden. Dabei sollten die Themenbereiche Überprüfung von Zusammenhängen, Regressionsanalyse und Reliabilitäts- und Homogenitätsanalyse von Konstrukten abdeckt sein. Diese Aufgabenstellung wird nun im Folgenden anhand der besonderen Thematiken Arbeitslosigkeit und Einkommen bei Betrachtung der OECD-Mitgliedsstaaten bearbeitet. Die ausgewählten statistischen Methoden der Datenanalyse wurden mit Hilfe der Statistiksoftware SPSS durchgeführt. Zunächst werden die in den Daten vorhandenen Informationen und der Umgang mit fehlenden Werten erläutert. Anschließend wird ein kurzer Überblick über Extremwerte und deren weitere Handhabung sowie die Verteilungen der Variablen gewährt. Im Weiteren sollen dann Zusammenhänge identifiziert und auf ihre inhaltliche Plausibilität überprüft werden. Auf Grundlage der bis dahin gewonnenen Erkenntnisse sollen mit Hilfe der Regressionsanalyse Erklärungen für die Variation im Einkommen und in den Arbeitslosenquoten der OECD-Mitgliedstaaten gefunden werden. Abschließend wird durch eine Homogenitätsanalyse untersucht, ob sich möglicherweise bei der Regression andeutende Multikollinearitäten durch latente Strukturen in den Daten erklären lassen.


Datensatz[edit]

Die hier vollzogene Analyse wird auf Grundlage von Daten aus dem OECD Factbook 2008 - Economic, Environmental and Social Statistics durchgeführt. Grundsätzlich wurden hieraus die Daten aus dem Jahr 2004 ausgewählt (Ausnahme: Öffentliche Sozialausgaben 2003), da dieses das aktuellste Jahr mit den meisten Beobachtungen ist. In den Analyseschritten werden die 30 OECD-Mitgliedsstaaten (Australien, Österreich, Belgien, Kanada, Tschechische Republik, Dänemark, Finnland, Frankreich, Deutschland, Griechenland, Ungarn, Island, Irland, Italien, Japan, Korea, Luxemburg, Mexiko, Niederlande, Neuseeland, Norwegen, Polen, Portugal, Slowakei, Spanien, Schweden, Schweiz, Türkei, Vereinigtes Königreich, USA) anhand der folgenden 14 Variablen aus sechs Themengebieten untersucht:

  • Gesamtwirtschaftliche Trends
    • Bruttonationaleinkommen pro Kopf (GNI), US Dollar, jeweilige Preise und Kaufkraftparitäten
  • Globalisierung
    • Zufluss ausländischer Direktinvestitionen (FDI), Mio. US Dollar
    • Waren- und Dienstleistungshandel (TRADE), in % des BIPs
  • Arbeit
    • Arbeitslosenquote gesamt (ALQ), in % der zivilen Erwerbspersonen
    • Durchschnittlich geleistete Arbeitsstunden (DGA), in Stunden pro Person in Arbeit, ILO-Konzept
  • Wissenschaft und Technologie
    • „Triadische Patentfamilien“ (PATENT), Anzahl
      • Eine Patentfamilie ist definiert als ein Gruppe von Patenten, welche dieselbe Innovation schützen, wobei sie in verschiedenen Ländern bzw. Patentbehörden angemeldet wurden. Eine Patentfamilie gilt als triadisch, wenn die Patente der Familie in den drei Hauptpatentämtern - dem europäischen (EPO), dem japanischen (JPO) und dem US-amerikanischen (USPTO) - angemeldet wurden.
    • Bruttoinlandsausgaben für R&D (R&D), in % des BIPs
    • Anzahl an Forschern (RES), pro 1.000 Beschäftigten, Vollzeitäquivalente
  • Bildung
    • Ausgaben pro Student im Tertiärbereich (STUD), konstante Preise, US Dollar
    • Öffentliche Ausgaben für Bildungsinstitutionen aller Ausbildungsniveaus (ÖBA), in % des BIPs
    • Private Ausgaben für Bildungsinstitutionen aller Ausbildungsniveaus (PBA), in % des BIPs
    • Personen zwischen 25-64 mit tertiärer Qualifikation (QUAL), in % der Bevölkerung derselben Altersgruppe
  • Öffentliche Finanzen
    • Besteuerung des durchschnittlichen Arbeiters (TAX), in % der Arbeitskosten
    • Öffentliche Sozialausgaben (ÖAUS), in % des BIPs, 2003


Fehlende Werte[edit]

Grundsätzlich bestehen beim Umgang mit fehlenden Werten mehrere Möglichkeiten. Entweder können hier die Länder mit fehlenden Werten im Beobachtungsjahr aus der Betrachtung ganz oder paarweise ausgeschlossen oder die fehlenden Werte können auf verschiedenste Weisen ersetzt werden. Da durch einen Ausschluss der Länder mit fehlenden Werten schon zu so einem frühen Zeitpunkt der Analyse die Aussagekraft eingeschränkt werden würde und mögliche Werte zur Ersetzung existieren, wurden die fehlenden Werte substituiert. Wie aus Schaubild 1 zu entnehmen ist wurden auf Grund der Verfügbarkeit von Daten mehrere methodisch verschiedene Werte in folgender Reihenfolge zur Ersetzung fehlender Werte verwendet. Waren in den Daten Werte aus dem Vorjahr und dem folgenden Jahr wurde ein Durchschnittswert und waren nur Werte aus dem Vorjahr vorhanden wurden diese benutzt. Dies wurde so gehandhabt, damit das jeweilige Land zumindest vom Niveau her gut repräsentiert ist. Die einzige Ausnahme bildet bei der Variable ÖAUS das Land Türkei. Hier wurde der Wert von 1999 verwendet, da aus den Metadaten hervorgeht, dass die OECD den Wert für die Türkei seit 1999 als konstant annimmt (Vgl. OECD Factbook 2008). Waren keine Informationen aus den Jahren um 2004 in den Daten enthalten wurden fehlende Werte mit dem Werte für die gesamte OCED ersetzt, da diese teilweise auch in den Daten vorhanden waren. Konnten fehlende Werte durch keine der beschriebenen Vorgehensweisen substituiert werden, wurde der OECD-Durchschnitt benutzt. Die Verwendung der Zahlen für die gesamte OECD ist aussagekräftiger als der OECD-Durchschnitt, da der Wert für die gesamte OECD die aus den Variablen hervorgehenden Verhältnisse nicht verzerrt.


Schaubild 1: Fehlende Werte
CSS SD Fehl.png


Prüfung der Verteilung[edit]

Als erste statistische Analyse werden zunächst Extremwerte mit Hilfe von Boxplots identifiziert und der Umgang mit diesen erläutert. Dies dient dazu, möglicherweise durch Extremwerte verursachte Verzerrungen in den Ergebnissen der weiteren Analysemethoden zu vermeiden (Vgl. Rönz 2000). In dieser Arbeit wurden Boxplots zur Identifizierung der Einfachheit halber gewählt, da sie ein schnelles und anschauliches Mittel darstellen und die Identifizierung von Ausreißern im Rahmen des Kurses "Computergestützte Statistik II" eine unterordnete Rolle spielte. Beim Boxplot werden Werte als extrem angesehen, wenn sie größer als die Summe aus dem 75%-Quartil und dem 1,5-fachen des Interquartilsabstandes bzw. kleiner als die Differenz aus dem 25%-Quartil und dem 1,5-fachen des Interquartilsabstandes sind. Ist ein Ausreißer größer als die Summe aus dem 75%-Quartil und dem 3-fachen des Interquartilsabstandes bzw. kleiner als die Differenz aus dem 25%-Quartil und dem 3-fachen des Interquartilsabstandes dann wird er nicht mehr als Kreis sondern als Stern dargestellt (Vgl. Rönz 2001). In Schaubild 2 sind die Boxplots der neun Variablen dargestellt, welche Extremwerte enthalten. Neben schon zu erwartenden, plausiblen Extremwerten bei einzelnen Ländern sticht u.a. heraus, dass Belgien einen "extremen" Waren- und Dienstleistungshandel (TRADE) gemessen in Prozent des BIP im Jahr 2004 vorweist. Außerdem ist die Graphik der Variablen "Triadische Patentfamilien (PATENT)" auffällig, da die Länder USA, Japan und auch Deutschland sehr viel höhere Werte haben als die übrigen betrachteten Länder. Dies ist auffällig, da ein so großer Unterschied nicht mehr zu erwarten gewesen wäre. Grundsätzlich sind bis auf bei der Variablen "Öffentliche Sozialausgaben (ÖAUS)" alle Extremwerte oberhalb des Medianes.


Schaubild 2: Boxplots - Extremwerte 1
GNI
FDI
TRADE
ALQ
DGA
17 - Luxemburg
30 - USA(*),
17 - Luxemburg,
29 - Vereinigtes Königreich
17 - Luxemburg(*),
3 - Belgien
22 - Polen,
24 - Slowakei
16 - Korea
PATENT
RES
ÖAUS
PBA
30 - USA(*),
15 - Japan(*),
9 - Deutschland(*),
8 - Frankreich,
16 - Korea
7 - Finnland
18 - Mexiko,
16 - Korea
16 - Korea


Für das weitere Vorgehen wurde entschieden, dass die extremen Werte paarweise aus der Betrachtung ausgeschlossen werden. Dies wurde so entschieden, weil eine Ersetzung beispielweise mit den Zahlen für die gesamte OECD oder den OECD-Mittelwerten zu einer weiteren Angleichung der einzelnen Werte je Variable geführt hätte. Mit einer weiteren Angleichung ist gemeint, dass eine Ersetzungen mit Durchschnittswerten wie zum Teil bei den fehlenden Werten zu einer Verstärkung der Nivellierung von Unterschieden in den Ländern geführt hätte und somit die Aussagekraft durch die einzelnen Länder vermindert worden wäre. Außerdem können durch den paarweisen Ausschluss, möglichst viele der vorhandenen Informationen in die Analyse der einzelnen Variablen einfließen. Die Verteilungen der einzelnen Variablen nach der teilweisen Bereinigung der Daten sind mit Hilfe von Histogrammen in Schaubild 3 dargestellt. Da sich aus den Graphiken Anzeichen für sowohl uni- und multimodale sowie schiefe Verteilungen erkennen lassen, wird anhand von Tests überprüft werden, ob die einzelnen Variablen der Normalverteilung genügen. Da sich die Wahl der Bandbreite bei Histogrammen entschieden auf das Aussehen der Verteilung auswirkt, werden durch den Kolmogorov-Smirnov-Test und den Shapiro-Wilk-Test die Verteilungen eindeutig bestimmt.


Schaubild 3: Histogramme
GNI
FDI
TRADE
ALQ
DGA
PATENT
R&D
RES
STUD
ÖBA
PBA
QUAL
TAX
ÖAUS


Ausgehend von den in Schaubild 4 dargestellten Ergebnissen des Kolmogorov-Smirnov-Test weichen die Verteilung der Variablen GNI, FDI, TRADE, PATENT und PBA signifikant von der Normalverteilung ab, da sie einen Signifikanzwert von kleiner als 0,05 besitzen (Vgl. Bleymüller/Gehlert/Gülicher 2002). Die Validierung der Ergebnisse durch den Shapiro-Wilk-Test, der sich besonders für kleine Stichproben eignet (Vgl. Shapiro/Wilk 1965), zeigt, dass die Variablen FDI, TRADE, PATENT und PBA nicht normal verteilt sind. Dies gilt es bei etwaigen weiteren Verfahren zu berücksichtigen.


Schaubild 4: Normalverteilungstests
CSS SD Norm.png


Überprüfung von Zusammenhängen[edit]

Im Weiteren werden nun Zusammenhänge zwischen den Variablen identifiziert. Einerseits werden dadurch die Arbeitslosigkeit und das Einkommen beeinflussende Elemente und andererseits mögliche Ansatzpunkte zur Senkung der Arbeitslosigkeit bzw. zur Erhöhung des Einkommens bestimmt. Wie aus Schaubild 5 zu entnehmen ist bestehen zahlreiche Zusammenhänge zwischen den Variablen.


Schaubild 5: Korrelationen nach Pearson
CSS SD Korr.png


Das Einkommen hier gemessen mit dem "Bruttonationaleinkommen pro Kopf (GNI)" weißt signifikante Zusammenhänge auf einem Signifikanzlevel von einem Prozent mit den Variablen "Durchschnittlich geleistete Arbeitsstunden (DGA)", "Bruttoinlandsausgaben für R&D (R&D)", "Anzahl an Forschern (RES)", "Ausgaben pro Student im Tertiärbereich (STUD)" und "Personen zwischen 25-64 mit tertiärer Qualifikation (QUAL)" auf. Außerdem bestehen signifikante Zusammenhänge auf einem Signifikanzniveau von fünf Prozent mit den Variablen "Triadische Patentfamilien (PATENT)" und "Öffentliche Sozialausgaben (ÖAUS)". Ungewöhnlich scheint vor allem der hohe negative Zusammenhang zwischen dem Einkommen und den geleisteten Arbeitsstunden, denn grundsätzlich würde man annehmen, dass mit steigender Anzahl an Arbeitsstunden auch automatisch das Einkommen steigt. Allerdings könnte der negative Zusammenhang dadurch zustande kommen, dass der Substitutionseffekt den Einkommenseffekt bei steigender Entlohnung übersteigt. Anders gesagt wird in Ländern mit hohen Einkommen weniger Wert auf die weitere Erhöhung der Einkommen durch eine Erhöhung der Arbeitszeit gelegt. Ein weiterer zu diskutierender Zusammenhang in den Daten, ist der positive zwischen dem Einkommen und den Sozialausgaben. Man könnte daraus schließen, dass eine hohe soziale Absicherung die Menschen eines Landes zur Erhöhung ihrer Einkommen veranlasst. Aber es könnte auch bedeuten, dass in Ländern mit hohen Einkommen eine relative größere Umverteilung der Einkommen vorgenommen wird, um die Einkommensverteilung zu stauchen. Auch sollte noch erwähnt werden, dass vor allem Variablen aus den Bereichen "Wissenschaft und Technologie" und "Bildung" das Einkommen der Personen eines Landes positiv beeinflussen und Variablen aus dem Bereich "Globalisierung" erstaunlicher Weise keinen signifikanten Einfluss auf das Einkommen vorweisen.

Bei der Betrachtung der Zusammenhänge mit der Variablen "Arbeitslosenquote (ALQ)" fällt auf, dass nur die Variablen "Besteuerung des durchschnittlichen Arbeiters (TAX)" und "Ausgaben pro Student im Tertiärbereich (STUD)" einen signifikanten Zusammenhang mit der Arbeitslosigkeit aufweisen. Der negative Zusammenhang zwischen der Arbeitslosigkeit gemessen durch die Arbeitslosenquote und der Besteuerung erscheint plausibel, da durch eine steigende Besteuerung des Einkommens aus Arbeit bzw. eine sinkende Nettoentlohnung sich die Bereitschaft zu arbeiten reduziert. Bedingt durch die finanzielle Versorgung durch die sozialen Sicherungssysteme entsteht ein sogenannter Reservationslohn ab dem Personen erst aktiv Arbeit anbieten. Muss durch eine hohe Besteuerung der Arbeiteinkommen ein sehr hoher Arbeitseinsatz erbracht werden, um zumindest über die durch die sozialen Sicherungssysteme gewährte finanzielle Unterstützung bei Arbeitslosigkeit zu gelangen, besteht kaum ein Anreiz sich aktiv um Arbeit zu bemühen. Somit sollte in Ländern mit hoher Besteuerung auf Arbeit und guter sozialer Absicherung - was in den Ländern der OECD meist gegeben ist - eine relative hohe Arbeitslosigkeit vorhanden sein. Der negative Zusammenhang zwischen Arbeitslosigkeit und "Ausgaben pro Student im Tertiärbereich" bestätigt, dass Arbeitslosigkeit mit Bildung bekämpft werden kann. Insgesamt fällt bei den Korrelationen mit der Arbeitslosenquote auf, dass nicht wie man eigentlich annehmen sollte auch andere Variablen aus dem Bereich der Bildung mit der Arbeitslosenquote signifikant korrelieren.

Bevor nun auf erste Anhaltspunkte von Multikollinearität in den Daten untersucht wird, bleibt noch anhand der Korrelation zwischen Arbeitslosigkeit und Einkommen festzuhalten, dass sich ein hohes durchschnittliches Einkommen und eine hohe Arbeitslosenquote grundsätzlich nicht ausschließen, da hier kein signifikanter Zusammenhang gemessen werden konnte.

Nun werden beispielhaft die im vorangegangenen identifizierten, signifikanten Einflüsse auf die Variable GNI weiter analysiert. Die in Schaubild 6 blau markierten Variablen R&D, RES, STUD und QUAL weisen wie bereits erwähnt signifikante Einflüsse auf die Variable GNI auf und kommen aus den eng verwandten Bereichen "Wissenschaft und Technologie" und "Bildung". Die durch einen grünen Rahmen gekennzeichneten Korrelationen zwischen den Variablen R&D, RES, STUD und QUAL machen deutlich, dass sie nicht nur einen Einfluss auf das GNI haben sondern dass sie sich auch gegenseitig beeinflussen. Dies wiederum deutet auf Multikollinearität hin und muss bei der folgenden Regressionsanalyse beachtet werden.


Schaubild 6: Scatterplot-Matrix GNI
CSS SD Scat GNI.png


Abschließend werden in Schaubild 7 die Variablen mittels einer Scatterplot-Matrix dargestellt, die mit der Variablen ALQ signifikant korrelieren. Die beiden Variablen STUD und TAX - wie innerhalb des grünen Rahmens ersichtlich ist - korrelieren kaum miteinander und daher scheint keine Multikollinearität vorzuliegen. Damit könnte diesen Variablen noch eine entscheidende Bedeutung bei der Erklärung der Variation der Arbeitslosenquote zukommen.


Schaubild 7: Scatterplot-Matrix ALQ
CSS SD Scat ALQ.png


Lineare Regressionsanalyse[edit]

Die nun durchgeführten Regressionsanalysen dienen ausschließlich zur Erklärung der Variation der Variablen GNI und ALQ durch die anderen Variablen. Zunächst wird die Variable GNI betrachtet. Da wie im vorhergehenden Abschnitt gezeigt nicht nur Zusammenhänge zwischen der Variablen GNI und den anderen sondern auch zwischen den anderen Variablen bestehen wird die Regressionsmethode „Stufenweise“ gewählt. Wie in Schaubild 8 in der Modellzusammenfassung ersichtlich wird in drei Schritten ein R2 von 79,8% erreicht. Somit kann durch die Variation der Variablen "Personen zwischen 25-64 mit tertiärer Qualifikation (QUAL)", "Öffentliche Sozialausgaben (ÖAUS)" und "Ausgaben pro Student im Tertiärbereich (STUD)" fast 80% der Variation im Einkommen der OECD-Staaten erklärt werden. Die entscheidende und plausible Erkenntnis ist, dass Bildung und soziale Absicherung in diesem Zusammenhang wichtig sind. In der ANOVA-Graphik kann anhand der Signifikanz des F-Tests gesehen werden, dass die einbezogenen Variablen einen wesentlichen Teil der Variation des Einkommens signifikant erklären. Betrachtet man jedoch in der Koeffizienten-Graphik die Signifikanzen des t-Tests muss man für das dritte Modell feststellen, dass die Konstante im Modell nicht signifikant einzeln zur Erklärung beiträgt. Mögliche Ursachen für die Nichtsignifikanz können in der Kollinearität-Diagnostik-Graphik erkannt werden. Denn der Eigenwert der Konstanten liegt deutlich über den Eigenwerten der anderen Variablen und außerdem bestehen hohe Varianzanteile bei der Konstanten und der Variablen ÖAUS sowie bei den Variablen QUAL und STUD. Gerade bei den "Ausgaben pro Student im Tertiärbereich (STUD)" und "Personen zwischen 25-64 mit tertiärer Qualifikation (QUAL)" scheint dies auf Grund der engen thematischen Zusammengehörigkeit evident zu sein. Diese Anhaltpunkte für Multikollinearität könnten zur Nichtsignifikanz der Konstanten geführt haben (Vgl. Rönz 2000). Ein weiterer Anhaltpunkt, wieso diese Regression nicht zur Erklärung der Variation im Einkommen trotz eines plausiblen Ergebnisses verwendet werden kann, zeigen das Histogramm und der P-P-Plot am Ende des Schaubildes 8. Denn die Residuen erfüllen die Voraussetzung der Normalverteilung nicht. Analog dazu sind die Probleme bei den Modellen 1 und 2. Bei Anwendung der Methoden "Vorwärts" und "Rückwärts" erhält man dieselben Ergebnisse durch eine andere Anzahl von Modellen. Schon wie sich bei der Betrachtung der Zusammenhänge andeutete besteht bei der Erklärung der Variation der Variablen GNI die Problematik, dass die in die Betrachtung einbezogenen Variablen Multikollinearitäten vorweisen. Als weiterer Schritt wird im nächsten Abschnitt untersucht, ob sich zwischen den erklärenden Variablen latente Strukturen verbergen, die die Regressionsanalyse der Variablen GNI so schwierig machen.


Schaubild 8: Regression - GNI
CSS SD RegGNI 1.png
CSS SD RegGNI 2.png
CSS SD RegGNI 3.png
CSS SD RegGNI 4.png
CSS SD RegGNI 5.png
CSS SD RegGNI 6.png


Zunächst wird noch versucht die Variation bei der Arbeitslosenquote zu erklären - siehe Schaubild 9. Da die beiden Variablen STUD und TAX hohe Korrelationen mit der Arbeitslosenquote aufweisen und sich keine Multikollinearität zwischen STUD und TAX angedeutet haben, werden diese beiden Variablen mit der Regressionsmethode "Einschluss" zur Erklärung der Variation der ALQ verwendet. Durch die Variation der Variablen STUD und TAX kann ca. 40% der Variation der Arbeitslosenquote signifikant erklärt werden. Auch haben die einzelnen Variablen einen signifikanten Einfluss. Bezüglich der Multikollinearität bleibt festzuhalten, dass durch die Kollinearitätsstatistiken "Varianz der Regressionskoeffizienten (VIF)" und Condition Index keine Multikollinearität anzeigt wird. Problematisch sind in der Kollinearität-Diagnostik-Graphik der Eigenwert der Konstanten und die hohen Varianzanteile in der dritten Dimension. Um die hier durchgeführte Regression abschließend beurteilen zu können, wird die Verteilung der Residuen anhand eines Histogramms, eines P-P-Plots und des Kolmogorov-Smirnov-Test am Ende des neunten Schaubildes untersucht. Anhand dieser Darstellungen insbesondere auf Grund des Testergebnisses kann davon ausgegangen werden, dass die standardisierten Residuen normal verteilt sind. Auch durch die Verwendung der Methode "Schrittweise" unter Berücksichtigung von mehr Variablen kann kein höheres R2 erzielt werden. So konnten die bei der Zusammenhanganalyse festgestellten Erkenntnisse nicht widerlegt werden.


Schaubild 9: Regression - ALQ
CSS SD RegALQ 1.1.png
CSS SD RegALQ 1.2.png
CSS SD RegALQ 1.3.png
CSS SD RegALQ 1.4.png
CSS SD RegALQ 1.5.png
CSS SD RegALQ 1.6.png
CSS SD RegALQ 1.7.png


Homogenitätsanalyse von Konstrukten[edit]

Wie im Vorhergehenden beschrieben ergaben sich einige Probleme beim Versuch die Variation im Einkommen zu erklären. Da deutliche Anzeichen für Multikollinearität zu sehen waren, wird nun versucht alle Variablen außer GNI und ALQ nach latenten Strukturen hin zu untersuchen. Zunächst aber wird die Eignung des Datensatzes für die Faktorenanalyse mit Hilfe des Kaiser-Olkin-Maßes (KMO) überprüft. Der Wert des KMO-Maßes (siehe Schaubild 10) liegt unter 0,5 und daher eignet sich der Datensatz kaum zur Faktorenanalyse (Vgl. Bühl 2006). Um allerdings Anzeichen für die Probleme der Regressionsanalyse zu erhalten, wird trotzdem eine Faktorenanalyse durchgeführt.


Schaubild 10: Kaiser-Olkin-Maß
CSS SD Fak 1.png


Zur Erinnerung sei nochmals vorweg erwähnt, dass die Variablen DGA, PATENT, R&D, RES, STUD, QUAL und ÖAUS aus fünf Themengebieten signifikant mit dem GNI korrelieren und dass bei der Regressionsanalyse unter Vorbehalt die Variablen QUAL, ÖAUS und STUD eine Rolle spielten. Die durchgeführte Faktorenanalyse (Extraktionsmethode: Hauptkomponentenanalyse) führt zu den in Schaubild 11 dargestellten Ergebnissen. Dabei zeigt sich, dass es zur Extraktion von vier Faktoren mit Eigenwerten über 1 kommt. Zusammen erklären sie 76,68% der Varianz aller Beobachtungen. Durch die Rotation mit der Varimax-Methode, bei der die Faktoren in fortlaufenden Schritten so lange im Raum gedreht werden bis die Varianz der quadrierten Ladungen pro Faktor maximal ist, verändert sich einzig das Erklärungsvermögen der einzelnen Faktoren (Vgl. Bühl 2006). In den Komponentenmatrizen, die die Ladung der Variablen auf die einzelnen Faktoren veranschaulichen wurden nur Ladungen größer als 0,5 dargestellt, um die Übersichtlichkeit zu waren und um nur wirklich hohe Ladungen zu identifizieren. Während bei der unrotierten Faktorenanalyse noch Variablen auf mehrere Faktoren laden, ist bei der rotierten Lösung jede Variable einem einzigen Faktor zugeordnet.


Schaubild 11: Faktorenanalyse
CSS SD Fak 2.png
CSS SD Fak 3.png
CSS SD Fak 4.png


Allgemein lässt sich über die auf die verschiedenen Faktoren ladenden Variablen sagen, dass sie dies vor allem themenübergreifend - bezogen auf die von der OECD vergebenen Themen - tun. Denn beispielsweise auf den vierten Faktor laden die Variablen DGA und PATENT aus den Themengebieten Arbeit sowie Wissenschaft und Technologie. Einzig die beiden Variablen FDI und TRADE aus dem Themengebiet Globalisierung laden auf den gleichen Faktor und dies ausschließlich. Die Interpretation des zweiten und vierten Faktors gestaltet sich schwierig. Nur der erste Faktor kann logisch als Humankapital-Faktor interpretiert werden, da Bildung und Forschung Humankapital bilden können. Diese Ergebnisse verstärken die bisherigen und deuten außerdem darauf hin, dass volkswirtschaftliche Kennzahlen einer Vielzahl von Zusammenhängen unterliegen. Abschließend bleibt im Hinblick auf die Problematik bei der Regressionsanalyse des GNI festzustellen, dass die in die Regression einfließenden Variablen STUD und QUAL auf den selben Faktor laden und sich somit eine latente Struktur dahinter verbergen könnte. Dies wird eine der Ursachen für die nicht erreichte Validität sein. Mit Blick auf die bei der Regressionsanalyse der ALQ einfließenden Variablen STUD und TAX sollte noch erwähnt werden, dass sie auf verschiedene Faktoren laden. Somit kann hierbei von einem validen, nicht von Multikollinearität beeinflusstem Ergebnis ausgegangen werden.

Fazit[edit]

Anhand der durchgeführten Analysen konnte gezeigt werden, dass deutliche und eine Vielzahl von logischen Zusammenhängen zwischen den Daten der OECD-Mitgliedsstaaten bestehen. Bedingt durch auftretende Kollinearitäten konnten im Hinblick auf das Einkommen und die Arbeitslosenquote keine befriedigenden Ergebnisse bei der Regressionsanalyse erzielt werden. Ein valides Ergebnis konnte nur bei der Arbeitslosenquote gefunden werden. Allerdings ist das Erklärungsvermögen der Variation in der Arbeitslosenquote durch die "Ausgaben pro Student im Tertiärbereich (STUD)" und die "Besteuerung des durchschnittlichen Arbeiters (TAX)" mit rund 40% nicht zufriedenstellend. Die abschließende Faktorenanalyse verdeutlichte die Probleme mit den Variablen dieser Untersuchung noch einmal. Um zufriedenstellender und gültige Ergebnisse mit Hinblick auf die hier gewählte Thematik zu erreichen, müssten andere oder ggf. zusammengefasste Variablen benutzt werden.

Literatur und Datenquelle[edit]

Bleymüller, J./ Gehlert, G./ Gülicher, H. (2002): Statistik für Wirtschaftswissenschaftler, 13. Auflage., Vahlen, München.

Bühl, A. (2006): SPSS 14 - Einführung in die moderne Datenanalyse, 10. überarb. und erw. Auflage, Pearson Studium, München.

Rönz, B. (2000): Skript Computergestützte Statistik II, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.

Rönz, B. (2001): Skript Computergestützte Statistik I, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.

Shapiro, S. S./Wilk, M. B. (1965): An analysis of variance test for normality (complete samples), in: Biometrika, Vol. 52, No. 3/4, S.591-611.


OECD Factbook 2008 - Economic, Environmental and Social Statistics