Analyse von Länderdaten der Unesco (2000) - Welche Faktoren beeinflussen die Rate der erfolgreichen Grundschulabgänger?

From Teachwiki
Jump to: navigation, search

Einleitung[edit]

Die Rolle der Bildung hat in der jüngsten Vergangenheit auf allen Ebenen stark an Bedeutung gewonnen und wird dank zunehmender politischer und medialer Thematisierung immer präsenter. Die in Deutschland herrschende Situation einer nach wie vor hohen Anzahl Langzeitarbeitsloser, bei der auch die gute konjunkturelle Lage der vergangenen Jahre nur zu geringen Änderungen führte, sowie der sich langfristig zuspitzende Fachkräftemangel haben die Debatte um die Wichtigkeit und Ausgestaltung des Bildungssystems nachhaltig befeuert.

Die Wahrnehmung von Bildung als höchstem Gut ist ohne Zweifel gefestigt worden und ein funktionierendes Schulsystem gilt als grundlegende Voraussetzung für Wirtschaftswachstum und Entwicklung. Dabei stellt auch im Bildungswesen bereits die Ausgestaltung der Basis die grundlegenden Weichen für die Auswahl weiterer Optionen - oder um ein Sprichwort zu bemühen: Was das Hänschen nicht lernt, lernt der Hans nimmermehr. Vor dem Hintergrund dieser Überlegung soll in der folgenden Analyse untersucht werden, welche Faktoren entscheidend für den erfolgreichen ersten Schritt im Bildungssystem sind, nämlich dem Abschluß der Grundschule. Was bei uns und dem Gros der Industrienationen als selbstverständlich erachtet wird, ist insbesondere in Entwicklungsländern ein teilweise nach wie vor rares Gut. Die Schulbildung auf Grundschulniveau als Grundstein des weiteren schulischen und beruflichen Werdegangs (der Variablenbezeichnung entsprechend im folgenden als Primary Completion Rate bezeichnet) soll demnach im Mittelpunkt der folgenden Untersuchung stehen. Dazu werden unter Verwendung der Statistiksoftware SPSS verschiedene Instrumente herangezogen, die im Rahmen des Seminars "Computergestützte Statistik" behandelt wurden, wobei der Fokus insbesondere auf die Regressions- und Faktorenanalyse gelegt wird.

Datensatz - Beschreibung und Bearbeitung[edit]

Der im Folgenden untersuchte Datensatz umfasst Daten zu 177 Ländern aus dem Jahr 2000, aus denen eine Auswahl von 18 Variablen aus dem sozio-ökonomischen Bereich, dem Bereich Infrastruktur sowie Bildungsvariablen getroffen wurde. Er wurde in Eigenregie aus der Datenbank des UNESCO Institute for Statisticszusammengestellt. Für die Unesco-Datenbank als zugrunde liegender Quelle sprach dabei die Erhebungshäufigkeit der abgefragten Merkmale, die sich aufgrund jährlicher Ermittlung durch eine hohe Kontinuität auszeichnet, sowie die angesichts der Bandbreite der Länderdaten gleichsam hohe Vollständigkeit der Datenbank, die das Vorhandensein von fehlenden Werten bei Staaten mit ausgeprägter politischer Instabilität natürlich nicht ausschließt. So wurden Länderdaten immer dann aus der Betrachtung ausgeschlossen, wenn bei mehr als 50 Prozent der Variablen fehlende Werte vorlagen. Ferner wurden mit Hinblick auf das Augenmerk der folgenden Analyse alle weiteren Staaten aus dem Datensatz eliminiert, die keine Werte der Variablen Primary Completion Rate beinhalten, wodurch allein aufgrund dessen 37,5% der in der Datenbank verfügbaren Länder von der Untersuchung ausgenommen sind. Der nach diesen Vorgaben dezimierte Datensatz weist nunmehr einen Umfang von 119 Länderdaten auf.

Analyse der Variablen[edit]

Primary Completion Rate[edit]

Die Primary Completion Rate als die schwerpunktmäßig zu erklärende Variable dieser Untersuchung gibt die Rate der erfolgreichen Grundschulabgänger in der relevanten Alterklasse (5-12 Jahre) in Prozent wieder. Sie ist eine stetige metrische Variable und weist eine stark linksschiefe Verteilung auf, die auf die Schulpflicht in einem Großteil der eingehenden Länderdaten zurückzuführen ist. Dies wird auch durch den Median bestätigt, der bei einer Spannweite von der kleinsten Ausprägung 16 bis hin zum Maximum von 100 den Wert 91 aufweist, wonach damit in der Hälfe aller beobachteten Länder mindestens 91% der Schüler von 5-12 Jahren die Grundschule erfolgreich beenden.

Erklärende Variablen[edit]

Deskriptive Analyse[edit]

Die Variablen, die im Folgenden zur Analyse der Primary Completion Rate herangezogen werden, sind in Tabelle 1 aufgeführt. Aus Gründen der Übersichtlichkeit wurde dabei eine grobe Unterteilung in sozioökonomische sowie Infrastrukturvariablen vorgenommen.

Tabelle 1: Übersicht der erklärenden Variablen
Variablenübersicht.png

Wie aus der Auflistung ersichtlich, weist dabei die Anzahl der gültigen Beobachtungen je nach Variabler recht unterschiedliche Werte auf: Während die Angaben komplett lediglich für die Geburtenrate vorliegen und für die Variablen Bruttovolkseinkommen, Lebenserwartung, Sterberate und Internetzugang relativ vollständig sind, verzeichnen insbesondere die Variablen Anteil asphaltierter Straßen, Schuldentilgung am BIP und Elektrizitätsverbrauch fehlende Werte von knapp 30 Prozent. Da demnach die geringste Beobachtungsanzahl mit 83 Ausprägungen (Straßen) jedoch hinsichtlich der Anwendung statistischer Methoden immer noch im unproblematischen Bereich befindet, sind an dieser Stelle für die weitere Handhabung keine Probleme zu erwarten, so dass auf eine Ersetzung mit anderen Werten verzichtet werden kann. Bezüglich der Verteilung der Variablen lässt sich feststellen, dass diese entweder eine starke Links- oder aber Rechtsschiefe aufweisen, so dass eine Normalverteilung für alle erklärenden Variablen ausgeschlossen werden kann. Ferner führen die starken Differenzen in der Verteilung dazu, dass sinnvolle Transformationen ohne Generierung weiterer Verzerrungen schwierig zu realisieren sind, so dass hiervon Abstand genommen wird.

Analyse der Zusammenhänge[edit]

Zunächst sollen die erklärenden Variablen auf mögliche lineare Zusammenhänge untereinander untersucht werden, um eine erste Einschätzungen hinsichtlich ihrer Verwendbarkeit in einer Regressionsanalyse vornehmen zu können. Dazu wurde mit SPSS Tabelle 2 erzeugt, welche die Korrelationen für alle Variablenkombinationen wiedergibt. Zu deren Berechnung wurde dabei Spearman’s Rangkorrelationskoeffizient gewählt, da dieser auch auf nicht normalverteilte Daten angewendet werden kann.

Tabelle 2: Korrelationskoeffizienten
Correlations.png

Wie aus Tabelle 2 ersichtlich, sind die Zusammenhänge zwischen den einzelnen Variablen sehr unterschiedlich ausgeprägt. So weisen Militärausgaben und Schuldentilgung fast keine signifikanten Zusammenhänge mit anderen Variablen auf und auch die Mittel aus der Entwicklungszusammenarbeit zeigen für alle Kombinationen nur eine gering ausgeprägte Korrelation. Dahingegen bewegen sich die Werte des Spearman Rangkorrelationskoeffizienten für die Variablen Geburtenrate und Straßen im deutlich höheren oberen Mittelfeld, so dass hier von einem signifikanten Zusammenhang mit dem Gros der verbleibenden Variablen auszugehen ist, der sich hinsichtlich der weiteren Analyse jedoch noch im unproblematischen Bereich bewegt. Ähnliche Korrelationen liegen des Weiteren bei den Variablen Wasser- und Abwasserzugang, Elektrizität und CO2-Ausstoß vor, welche jeweils in recht ähnlich hohem und möglicherweise problematischem Bereich mit der Sterberate sowie dem Bruttovolkseinkommen korreliert sind. Dies spiegelt sich auch im Korrelationskoeffizienten von Elektrizitätsverbrauch und CO2-Ausstoß untereinander wieder, der mit 0,915 bezüglich der späteren Regressionsanalyse die Vernachlässigung eines der beiden Merkmale nahe legt. Eine ähnliche, nahezu kollineare Beziehung ist auch zwischen den Variablen Lebenserwartung und Sterberate feststellbar, für welche Spearman’s rho den Wert -0,918 annimmt, so dass auch an dieser Stelle mit dem Ausschluss eines Merkmals zu rechnen ist.

Abb. 1: Scatterplot Lebenserwartung - Primary Completion Rate
Abb. 2: Scatterplot Sterberate - Primary Completion Rate
Abb. 3: Scatterplot Elektrizitätsverbrauch - Primary Completion Rate
Abb. 4: Scatterplot CO2-Ausstoß - Primary Completion Rate
Abb. 5: Scatterplot Internetzugang - Primary Completion Rate

Am schwierigsten dürfte sich jedoch die Behandlung der Variablen Bruttovolkseinkommen gestalten, die mit etwa der Hälfte der anderen erklärenden Variablen sehr hohe Korrelationen verzeichnet und deren Einbezug in die Regressionsanalyse damit ebenfalls unwahrscheinlich wird. Die dafür verantwortlichen Korrelationen sind in den Abbildungen 1-5 nochmals separat anhand von Scatterplots visualisiert.

Wie in den ersten beiden Scatterplots (Abb. 1 und 2) erkennbar, zeigen die in beiden Fällen am besten angepassten kubischen Regressionskurven zwar entgegengerichtete, prinzipiell jedoch ähnliche Verläufe, so dass im Falle der Lebenserwartung ein ausgeprägt positiver, hinsichtlich der Sterberate ein deutlich negativer Zusammenhang mit dem Bruttovolkseinkommen deutlich wird. Dennoch ist das Bestimmtheitsmaß R² im Falle der Lebenserwartung deutlich höher, so dass dieser aufgrund der zuvor festgestellten Kollinearität hinsichtlich der Einbringung in die Regressionsanalyse gegebenenfalls eher der Vorzug gegeben wird.

Bei der Betrachtung des Scatterplots in Abb. 3, der den Zusammenhang zwischen Bruttovolkseinkommen und dem Elektrizitätsverbrauch pro Kopf darstellt, ist deutlich eine positive Beziehung beider Variablen erkennbar, die mit einem R² = 0,654 im mittleren und damit unproblematischen Bereich anzusiedeln ist. Dabei ist allerdings zu beachten, dass die Regressionsgerade auch durch die beiden Extremwerte von Norwegen und Island beeinflusst wird, deren hoher Verbrauch anhand der dort vorherrschenden Klima- und Lichtverhältnisse durchaus plausibel erklärt werden kann. Es wurde daher, auch um eine Verzerrung der Ergebnisse zu vermeiden, auf die Beibehaltung dieser Werte entschieden, wenngleich ein Ausschluss beider Länder eine R²-Verbesserung auf 0,789 ergeben würde.

Ein ähnliches Bild bietet Abb. 4, in der die Grafik den Zusammenhang zwischen Bruttovolkseinkommen und dem CO2-Ausstoß der betrachteten Länder verdeutlicht. Auch hier ist ein positiver Zusammenhang feststellbar, der sich durch die Extremwerte im oberen CO2-Wertebereich am besten durch eine kubische Kurvenanpassung beschreiben lässt. Diese Extremwerte sind alle auf recht wohlhabende arabische Länder zurückzuführen, die – insofern der CO2-Ausstoß wie hier pro Kopf betrachtet wird - als größte Umweltsünder fungieren. Auch hier mögen die klimatischen Verhältnisse zur Erklärung dienen, die zu einer hohen Einsatzdichte von CO2-ausstoßintensiven Klimaanlagen führen. Da auch beim Variablenpaar Elektrizitätsverbrauch und CO2-Ausstoß Kollinearität vorliegt, wird auch hier nur eines der Merkmale Eingang in die Regression finden, um einen stabilen Regressionskoeffizienten zu gewährleisten.

Der in Abb. 5 visualisierte Zusammenhang zwischen dem Bruttovolkseinkommen und dem Internetzugang in Prozent ist erwartungsgemäß ebenfalls positiver Natur und wird auch mittels kubischer Kurvenwahl am treffensten dargestellt. Mit einem Wert für R² von 0,681 wird auch in diesem Falle ein recht ausgeprägter Zusammenhang deutlich, wobei überraschend viele Länder mit Spitzenwerten beim Bruttovolkseinkommen nur eine durchschnittliche Anzahl von Internetzugängen pro 100 Einwohner verzeichnen. So ist die breiteste Internetnutzung insbesondere in den Ländern des asiatischen Raums vorzufinden, die aufgrund ihres hohen Wirtschaftswachstums auch als "Tigerstaaten" bezeichnet werden und die - zumindest im betrachteten Erhebungsjahr - noch durch ein Bruttovolkseinkommen im mittleren bzw. oberen Mittelbereich gekennzeichnet waren.

Regressionsanalyse[edit]

Die nun im Folgenden durchgeführte Regressionsanalyse wird in verschiedenen Schritten und unter Einschluss einer wechselnden Anzahl von Variablen erfolgen.

Regression 1[edit]

Zunächst wird in einem ersten Durchgang die Methodik "Enter" gewählt, die sämtliche ausgewählte Variablen in die Regressionsfunktion einbringt. Es wird dabei zunächst auf die Einbringung aller erklärenden Variablen ohne Vorabselektion entschieden. Das Ergebnis dieses ersten Durchlaufes, das hier nur kurz skizziert werden soll, bestätigt dabei die Erkenntnisse aus Abschnitt 2: So nimmt der Varianzinflationsfaktor (VIF) genau bei den als hinsichtlich der Multikollinearität problematisch identifizierten Variablen Werte >10 an, die den Verdacht erhärten. Ebenso verhält es sich mit dem Konditionsindex (bzw. „condition index“, im Folgenden als CI bezeichnet), der mit Spitzenwerten von CI = 133 gleichfalls den Ausschluss von Variablen nahe legt, um die Genauigkeit des Schätzers zu gewährleisten.

Regression 2[edit]

In einem zweiten Modell wird ebenfalls nach der "Enter"-Methodik verfahren, wenngleich nun die Ergebnisse aus Abschnitt 2 insofern einfließen, dass die hinsichtlich der Multikollinearität problematischen Variablen Bruttovolkseinkommen, Sterberate und Elektrizitätsverbrauch nicht einbezogen werden. Wenngleich als Resultat eine Verbesserung von VIF/Tolerance zu erkennen ist, so bleibt das Ergebnis dennoch bezüglich des CI problematisch, der in der höchsten Dimension immer noch Spitzenwerte von 70 anzeigt (siehe Abb. 6).


Abb. 6: Regressionsmodell "Enter"
Regr enter.PNG
Regre enter.PNG
Regress enter.PNG

Regression 3[edit]

Im dritten Durchlauf wird SPSS mit der gesamten Variablenauswahl ohne Vorabselektion gespeist, wobei nun die Methodik „Stepwise“ zur Anwendung kommt. Bei dieser Vorgehensweise werden alternierend die Selektionsmethoden „Forward“ und „Backward“ benutzt, um über die Aufnahme einer Variablen in die Regressionsfunktion, als auch über deren Verbleib in eben jener zu entscheiden. Dabei wird hinsichtlich der ersten Variablen nach den Auswahlregeln von „Forward“ (vgl. Regression 4) entschieden, diese Selektion anschließend durch Anwendung der „Backward“-Methode (vgl. Regression 4) entweder verifiziert oder aber verworfen, insofern die Einschlusskriterien verletzt worden sind. Dieser Vorgang setzt sich solange fort, bis keine weiteren Variablen in die Regressionsfunktion ein- bzw. aus ihr ausgeschlossen werden können.

Im vorliegenden Falle führt die „Stepwise“-Behandlung der Variablen zu dem Ergebnis, dass die Sterberate sowie die Geburtenrate in die Regression einbezogen werden. Als Resultat (siehe Abb. 7) erhalten wir ein R² = 0,752, so dass der Anteil der durch das Modell 3 erklärten Variation an der Gesamtvariation etwas unter jenem des Modells 2 liegt (dort R² = 0,796). Damit ist die Güte der Anpassung der Regressionsfunktion an die Daten zwar etwas geringer, dennoch aber in einem durchaus respektablen Bereich anzusiedeln. Ein Blick auf VIF/Tolerance gibt auch im „Stepwise“-Modell keinen Grund zur Beunruhigung, da sich sämtliche Werte in einem unproblematischen Bereich befinden und keine Multikollinearität vermuten lassen. Da diese Kennzahlen jedoch auch in der vorangehenden Regressionsfunktion keine Indizien für eine mögliche Multikollinearität lieferten, ist auch an dieser Stelle der CI von Interesse, der mit einem Maximum von CI = 8,65 ebenfalls keine Rückschlüsse auf eine zugrunde liegende Multikollinearität zulässt.


Abb. 7: Regressionsmodell "Stepwise"
Step1.PNG
Step2.PNG
Step3.PNG
Abb. 8: Histogramm der Standardisierten Residuen
Abb. 9: Normal P-P Plot der Standardisierten Residuen

Dieses bis dato zufrieden stellende Ergebnis soll im Rahmen der Modelldiagnose nun auch anhand einer Residuenuntersuchung geprüft werden. Diese sollten zumindest approximativ normalverteilt sein, um den Voraussetzungen an ein belastbares lineares Regressionsmodell zu genügen. Um das zu untersuchen, werden die standardisierten Residuen einer explorativen Analyse unterzogen, die zunächst auf grafischer Ebene mittels eines Histogramms (Abb. 8) und eines Normal P-P Plots (Abb. 9) erfolgt.

Da aus beiden Grafiken keine konkreten Aussagen zur Verteilung der Residuen abzuleiten sind, wird ein Kolmogorov-Smirnov-Test auf Normalverteilung angeschlossen. Dieser prüft hier auf dem gewählten Signifikanzniveau von α = 5%, wie groß die beobachteten absoluten Abweichungen der theoretischen von der empirischen Verteilungsfunktion sind. Erhält man beim "Kolmogorov-Smirnov-Test" als Ergebnis einen Signifikanzwert kleiner als 0.05, so weicht die gegebene Verteilung signifikant von der Normalverteilung ab. Das Ergebnis in Abb. 10 zeigt jedoch, dass die Nullhypothese auf Normalverteilung der standardisierten Residuen nicht verworfen werden kann, da die ermittelte Sig. = 0,083.

Abb. 10: Kolmogorov-Smirnov-Test
KS-Test.png


Dennoch muss angesichts der Auswahl der in dieses Regressionsmodell einfließenden Variablen Zurückhaltung hinsichtlich dessen Sinnhaftigkeit und Aussagekraft geübt werden, da beide erklärenden Variablen auf inhaltlich sehr ähnliche Art und Weise, nämlich vor dem sozial-gesundheitlichen Hintergrund, den Lebensstandard abbilden, der zur jeweiligen Ausprägung der Primary Completion Rate führt. Da somit Infrastrukturvariablen sowie finanzielle Einflussgrößen vollständig ausgeblendet bleiben, ist diese Betrachtung möglicherweise zu einseitig und auch nicht zuletzt aufgrund der recht deutlichen Korrelation zwischen der Geburten- und Sterberate (Spearman’s rho = 0,790) verbesserungswürdig.

Regression 4[edit]

In einem vierten Schritt soll nun überprüft werden, ob das Ergebnis des „Stepwise“-Ansatzes möglichweise durch eine separate Verwendung von „Forward“- oder „Backward“-Methode eine qualitative Steigerung erfahren kann. Hierzu wird zunächst die „Forward“-Selektion durchgeführt: Bei dieser wird als erstes jene erklärende Variable in die Regressionsfunktion einbezogen, die mit der abhängigen Variablen, hier die Primary Completion Rate, die größte Korrelation aufweist. Ein anschließender F-Test des resultierenden Regressionskoeffizienten auf Null entscheidet dann, ob das Einschlusskriterium erfüllt ist und die Variable in der Regressionsfunktion beibehalten wird. Dieses Vorgehen wird nun mit der Variablen wiederholt, welche die höchste partielle Korrelation mit der Primary Completion Rate aufzeigt und solange fortgesetzt, bis keine weitere Variable mehr aufgenommen werden kann. Im Falle der vorliegenden Untersuchung bricht die Prozedur nach Einschluss von zwei Variablen, nämlich der Geburten- und der Sterberate, ab, so dass wir das exakt gleiche Ergebnis erhalten, wie es zuvor bei Verwendung des „Stepwise“-Ansatzes erzielt wurde.

Bei der Selektionsmethode „Backward“, die im folgenden Schritt zum Einsatz kommen soll, sind zunächst alle erklärenden Variablen in der Regressionsfunktion enthalten. Anschließend werden nacheinander Variablen entfernt, wobei mit jener begonnen wird, welche bei Erfüllung des Ausschlusskriteriums die geringste partielle Korrelation mit der Primary Completion Rate nachweisen kann, was sich gleichzeitig im kleinsten Wert des F-Tests äußert. Im Falle der „Backward“-Methodik bricht der Vorgang ab, wenn keine weitere Variable mehr aus der Regressionsfunktion ausgeschlossen werden kann. Dies führt in der vorliegenden Analyse zu dem Ergebnis, dass insgesamt vier erklärende Variablen, nämlich die Geburtenrate, die Sterberate, der Zugang zum Wasser-/Abwassernetz und der Anteil asphaltierter Straßen in der Regressionsfunktion verbleiben (siehe Abb. 11, Modell 9). Das Bestimmtheitsmaß, das sich mit R² = 0,800 ergibt, liegt hier über jenem der „Stepwise“- und „Forward“-Modelle, so dass auf den ersten Blick eine Verbesserung erzielt wurde. Kontrolliert man nun die Werte von VIF/Tolerance und CI ist jedoch zu erkennen, dass dies auf Kosten des CI passiert, der mit einer Ausprägung von CI = 26 durchaus Hinweise auf eine mögliche Multikollinearität liefert.


Abb. 7: Regressionsmodell "Backward"
Back1.PNG
Back2.PNG
Back3.PNG


Die Untersuchung der standardisierten Residuen bescheinigt dem Modell jedoch eine gute Belastbarkeit: Wie der Kolmogorov-Smirnov-Test in Abb. 12 zeigt, kann die Normalverteilungsannahme der Residuen auf dem 5%-Niveau nicht abgelehnt werden. Das Histogramm, Abb. 13, und der Normal P-P-Plot, Abb. 14, bestätigen dies auch grafisch.

Abb. 12: Kolmogorov-Smirnov-Test der Standardisierten Residuen
Abb. 13: Histogramm der Standardisierten Residuen
Abb. 14: Normal P-P Plot der Standardisierten Residuen

Regression 5[edit]

In einem letzten Schritt wird nun nochmals die „Stepwise“-Methodik angewendet, dieses Mal jedoch unter Beachtung der Ergebnisse aus Abschnitt 2, so dass auf den Einspeisung der Variablen Bruttovolkseinkommen, Sterberate und Elektrizitätsverbrauch in die Modellberechnung verzichtet wird. Als Ergebnis erzeugt SPSS eine Regressionsfunktion, die nun die Variablen Geburtenrate, Zugang zum Wasser-/Abwassernetz und Anteil asphaltierter Straßen beinhaltet. Dieses Resultat unterscheidet sich deutlich vom Modell 3, in dem ebenfalls eine „Stepwise“-Regression vorgenommen wurde, stattdessen ist eine Annäherung an die mittels „Backward“-Verfahren erstellte Regressionsfunktion erkennbar. Der verbleibende Unterschied zu letzterem durch die Herauslassung der Variablen Sterberate äußert sich auf zweierlei Art und Weise: Zum einen liegt das Bestimmtheitsmaß mit einem Wert von R² = 0,765 etwas unter dem Schätzer des „Backward“-Modells, dafür ergeben sich für VIF/Tolerance sowie den CI jedoch Verbesserungen, siehe Abb. 15.

Abb. 15: Regressionsmodell "Stepwise II"
Stepwise1.PNG
Stepwise2.PNG
Stepwise3.PNG

Untersucht man nun auch für das "Stepwise II"-Modell die standardisierten Residuen auf ihre Verteilung, so lässt die alleinige Anwendung grafischer Instrumente abermals keine abschließende Beurteilung zu: Weder anhand des Histogramms, Abb. 17, noch die Betrachtung des Normal P-P Plots, Abb. 18, kann eindeutig bestimmt werden, ob die Residuen möglicherweise eine Normalverteilung aufweisen. Es wird daher auch in diesem Falle ebenfalls der Kolmogorov-Smirnov-Test durchgeführt, dessen Ergebnis in Abb. 16 ersichtlich ist und das zudem große Ähnlichkeit mit dem Resultat des „Backward“-Modells aufweist: Die Nullhypothese auf Normalverteilung der Residuen kann auf dem Signifikanzniveau von α = 5% erneut nicht abgelehnt werden.


Abb. 16: Kolmogorov-Smirnov-Test der Standardisierten Residuen
Abb. 17: Histogramm der Standardisierten Residuen
Abb. 18: Normal P-P Plot der Standardisierten Residuen

Zwischenfazit[edit]

Als erstes Ergebnis lässt sich zusammenfassen, dass die in den beiden letzten Schritten erstellten Regressionsmodelle auf Grundlage der Methoden „Backward" (Modell 4) und „Stepwise II" (Modell 5) vergleichbar gute Ergebnisse liefern. So zeichnet sich die nach der „Backward"-Methodik berechnete Regressionsfunktion durch ein geringfügig besseres Bestimmtheitsmaß aus, muss aber im Vergleich zur „Stepwise II"-Regression kleine Abstriche bei den VIF/Tolerance- sowie CI-Ausprägungen hinnehmen, bei welchen letzteres marginal besser abschneidet.

Gleiches gilt für die Auswahl der in die jeweiligen Modelle einfließenden Variablen, die eine Unterscheidung lediglich aufgrund des beim „Backward"-Ansatz zusätzlich einbezogenen Merkmals Sterberate ermöglicht.

Dennoch muss ungeachtet der Überschneidungen die Überlegung angestellt werden, inwieweit die Auswahl von Geburtenrate, Zugang zum Wasser-/Abwassernetz und Anteil asphaltierter Straßen generell als sinnvoll und hinreichend erachtet werden darf. Dies ist insbesondere angesichts des Ausschlusses von Variablen wie dem Bruttovolkseinkommen zu hinterfragen, welches auch bei Durchläufen ohne Vorabselektion der potenziell eingehenden Merkmale in keines der Modelle inkludiert wurde.

Im folgenden Schritt soll daher anhand einer Faktorenanalyse geprüft werden, ob die bisher erreichten Ergebnisse möglicherweise durch Anwendung dieses Verfahrens optimiert werden können, indem bis dato nicht einfließende Variablen als Items bei der Faktorenermittlung eingehen.

Faktorenanalyse[edit]

Die in diesem Abschnitt zur Anwendung kommende Faktorenanalyse dient der Datenreduktion in dem Sinne, dass die Verringerung der Ausgangsmerkmale durch Untersuchung auf latente Variablen auf Basis der Korrelationsmatrix erreicht wird.

Explorative Faktorenanalyse[edit]

Nach der ersten Einspeisung der standardisierten Variablen zeigt sich, dass zunächst das Merkmal Militärausgaben aus der Faktorenanalyse auszuschließen ist: Dessen MSA-Wert („measure of sampling adequacy“), der als Diagonalwert der Anti-Image-Korrelationsmatrix für die einzelnen Items ihre Eignung für eine Faktorenanalyse angibt, ist mit einem Wert von 0,287 äußerst gering und resultiert darin, dass in der Untersuchung auf die Beifügung von Militärausgaben verzichtet wird.

Abb. 19: KMO und Bartlett's Test

Dieses Vorgehen zeigt im zweiten Durchlauf unmittelbare Auswirkungen: So verbessert sich das Kaiser-Mayer-Olkin-Maß (KMO), siehe Abb. 19, von zuvor 0,731 auf 0,766 und bescheinigt den verbleibenden Items eine gute Eignung für die folgende Faktorenanalyse, die angesichts der ausgegebenen guten MSA-Werte in Abb. 20 nochmals bestätigt wird.

Abb. 20: Anti-Image-Matrix
Anti-image4.png

Abb. 21: Total Variance Explained
Total Variance Explained2.png

Abb. 22: Screeplot
Abb. 23: Varimax-Rotation
Abb. 24: Promax-Rotation

Unter diesen Voraussetzungen bringt die Analyse mittels SPSS das Ergebnis hervor, dass aus den eingehenden elf Komponenten drei Faktoren extrahiert werden. Diese genügen dem der Auswahl zugrunde gelegten Kaiser-Kriterium, d.h. sie weisen einen Eigenwert größer als 1 auf und erklären demnach mehr Varianz als die Varianz eines einzelnen Items. Diese Aussage kann mit Hilfe der aus Abb. 21 hervorgehenden Resultate spezifiziert werden: Demnach erklärt der allein der erste Faktor 52,8% der Gesamtvarianz aller Items, während die Faktoren zwei und drei noch ein Erklärungsvermögen von 12,7% bzw. 10,6% vorweisen, so dass eine kummulierte erklärte Varianz von 76,1% erreicht wird. In Abb. 22 wird die ermittelte Anzahl mittels eines Screeplots nochmals grafisch bestätigt, indem er die Eigenwerte der einzelnen Faktoren visualisiert.

Betrachtet man nun die extrahierten Faktoren hinsichtlich ihrer Ladung, so fällt zunächst auf, dass diese bei Anwendung der Varimax-Rotation, siehe Abb. 23, die gleichen Strukturen offenbaren, die der Promax-Rotation, siehe Abb. 24, zugrunde liegen. So laden bei beiden Verfahren die fünf Items Geburtenrate, Lebenserwartung, Sterberate, Zugang zum Wasser-/Abwassernetz sowie Anteil asphaltierter Straßen auf den stärksten Faktor, wobei die Ladung bei Geburtenrate und Sterberate erwartungsgemäß negativer Art ist. Diese Auswahl kann als inhaltlich durchaus stringent erachtet werden, da hier fundamentale sozioökonomische Kennzahlen mit Items zusammengelegt werden, die durch Beschreibung der Basis-Infrastruktur ebenfalls Aussagen über die Vorlage notwendiger Voraussetzungen für einen grundlegenden Lebensstandard zulassen. Der erste Faktor könnte somit grundsätzlich das Existenzniveau beschreiben, das maßgeblich durch die gesundheitliche und infrastrukturielle Grundversorgung geprägt ist.

Der zweite Faktor zeichnet sich dahingegen durch die Ladung von Items aus, die wirtschaftliche und industrielle Gegebenheiten abbilden, indem er das Bruttovolkseinkommen, den CO2-Ausstoß, den Elektrizitätsverbrauch sowie die Verbreitung des Internetzugangs beinhaltet. Auch dies stellt eine sinnvolle Kombination dar, so dass er allgemein als der die ökonomische Situation beschreibende Faktor definiert werden kann.

Auf den Faktor 3, dessen Erklärungspotenzial mit 10,6% beziffert ist, laden die verbleibenden zwei Items Anteil der Schuldentilgung am BIP und Mittel aus der Entwicklungszusammenarbeit, wobei ersteres positiv, letzteres negativ lädt. Da beide Items finanzpolitische Umstände abbilden, ist auch in diesem Falle ihre Zusammenführung in einem Faktor nachvollziehbar und mit gleichem Wortlaut zu umschreiben.

Erklärungsvermögen der Ergebnisse[edit]

Nachdem im vorangegangenen Schritt die Faktoren nebst Ladungen identifiziert wurden, ist nun zu überprüfen, inwiefern diese zur Erklärung der Primary Completion Rate beitragen.

Hierzu wurden jeweils bivariate Scatterplots für die Primary Completion Rate und die ermittelten Faktoren erstellt, welche die Zusammenhänge in Abb. 25 grafisch verdeutlichen. In allen drei Fällen wird die beste Anpassung durch die Wahl kubischer Kurvenverläufe erreicht, wenngleich die Bestimmtheitsmaße deutliche Unterschiede verzeichnen: Zeichnet sich das R² für den ersten Faktor noch mit einem respektablen Wert von 0,727 aus, so geht es im Falle des zweiten Faktors auf durchschnittliche 0,661 zurück. Weit abgeschlagen präsentiert sich allerdings Faktor 3, bei dem die beste Kurvenanpassung lediglich zu einem Bestimmtheitsmaß von R² = 0,257 führt, womit das Erklärungsvermögen der zugrundeliegenden Items Anteil der Schuldentilgung am BIP sowie Mittel aus der Entwicklungszusammenarbeit für die Ausprägung der Primary Completion Rate als äußerst gering und damit nicht relevant einzuschätzen ist.

Abb. 25: Bivariate Scatterplots der Faktoren 1-3 und der Primary Completion Rate
Faktor1.PNG
Faktor2.PNG
Faktor3.PNG

Gesamtfazit[edit]

Wie aus dem letzten Abschnitt ersichtlich, kann im Rahmen der vorgenommenen Untersuchungen auf Grundlage der Faktorenanalyse keine Verbesserung des Erklärungsvermögens erzielt werden. So liefert bereits die alleinige Regression des stärksten Faktors 1 auf die Primary Completion Rate ein Bestimmtheitsmaß, das sich durch einen schlechteren Wert als jenes bei den "Stepwise"- und "Backward"-Verfahren ermittelten Regressionsfunktionen in Abschnitt 4 auszeichnet, womit eine Steigerung durch den kummulierten Einfluss aller drei Faktoren zum gegebenen Untersuchungsstand ebenfalls ausgeschlossen werden kann.

Es ist jedoch anzumerken, dass die Variablen Geburtenrate, Zugang zum Wasser-/Abwassernetz und Anteil asphaltierter Straßen, die sich bereits durch ihren Einschluss in die beiden belastbarsten Regressionsfunktionen auszeichnen, ebenfalls gemeinsam auf den stärksten der extrahierten Faktoren laden. Dies könnte als zusätzliche Bestätigung für die Qualität der Regressionsmodelle interpretiert werden und diese zu guten Ausgangspunkten für mögliche weiterführende Untersuchungen machen, die jedoch über den Umfang dieser Analyse hinausgehen.

Literatur und Datenquelle[edit]

Bleymüller, J./ Gehlert, G./ Gülicher, H.: Statistik für Wirtschaftswissenschaftler, 13. Auflage., Vahlen, München.

Bühl, A. (2006): SPSS 14 - Einführung in die moderne Datenanalyse, 10. überarb. und erw. Auflage, Pearson Studium, München.

Härdle, W./ Simar, L (2003): Applied Multivariate Statistical Analysis, Springer-Verlag.

Klinke, S. (2007): Skript Applied Quantitative Methods, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.

Rönz, B. (2001): Skript Computergestützte Statistik I, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.

Rönz, B. (2000): Skript Computergestützte Statistik II, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.

UNESCO: Institute for Statistics, 2008