Korruption, Analyse möglicher Kausalitäten

From Teachwiki
Jump to: navigation, search

Einführung[edit]

In den letzten Jahre ist das öffentliche Interesse an Korruption, vor allem auf administrativer Ebene stark angewachsen. Das liegt vor allem an der verstärkten Wahrnehmung von Resourcesknappheit und politischen Diskussionen über die Rolle des Sozialstaates bei der Umverteilung von Einkommen und der Analyse über die Gründe immer größer werdende Einkommensungleichheiten.

Die wohl bekannteste Organisation, die sich der Analyse und der Bekämpfung von Korruption verschrieben hat ist Transparency International ([1]). 2001, und ab 2003 wird jedes Jahr der Global Corruption Report publiziert, der die wichtigsten Informationen über die Situation in den einzelnen Ländern der Welt und über den aktuellen Stand der Wissenschaft vor dem Hintergrund eines immer wechselnden Themas beleuchtet. Titel des im Juni dieses Jahres erschienenen Reports ist "Corruption in the water sector". Kürzlich ist ein weiterer größerer Report über die Korruption mit der humanitäre Hilfsorganisationen zu kämpfen haben erschienen. Aber auch Korruption in Rechts- und Gesundheitssystemen war die letzten Jahre Thema. Dies deutet darauf hin, dass wo immer Resourcenknappheit herrscht oder hoheitliche Macht über gesamtgesellschaftliche Resourcen entscheidet oder Gefahr von Effizienzverlust auf Kosten der Allgemeinheit (soziokultureller, politischer Natur sowie das Vorhandensein gemeinsamer Interessen die durch Korruption untergraben werden) gegenwärtig ist, Korruption eine Rolle spielt.

Korruption steht zum Beispiel unter dem Verdacht Effiziensverluste zu erwirken, Wachstum zum bremsen, einen Keil zwischen Angebot und Nachfrage zu treiben, die gewünschte Allokation (auf Basis des aktzepierten gesellschaftlichen Konsens) von Resourcen zu stören und Investitionsentscheidungen zu verzerren. In den letzten Jahren spielte auch ein Verschmelzung von Sozialwissenschaftlichen Ansätzen mit der klassischen wirtschaftswissenschaftliche Herangehensweise eine starke Rolle da hier entscheidende Interaktionen von Erklärungsmustern vermutet werden. Weiche Faktoren wie Vertrauen, Moral, Verteilungsgerechtigkeit, gesamtgesellschaftlicher Zusammenhalt, soziale und politische Partizipation stehen zur Diskussion einen starken Einfluss auf die weiter oben genannten Faktoren auszuüben. Gute zusammenfassende theoretische sowie empirische Arbeiten zu dem Thema sind beispielsweise Andvig et al. 2000, Khan 2006, Lambsdorff 2001, 2007, Mauro 1995 and Tanzi 1997, 1998.

Dieser statistische Ansatz soll entscheidene Indikatoren und Gründe für Korruption aufzeigen. In Betracht gezogene Variablen werden im folgenden der Corruption Perception Index, der Democratization Index, das BIP pro Kopf, der Education Index, der GINI Koeffizient, Openess, der KOF Globalization Index und die Ausgaben für Bildung pro Kopf sowie der Human Development Index als Gruppierungsvariable sein.

Es werden einführend verschiedene deskriptive und explorative Techniken angewandt um den Datensatz vorzustellen. Im weiteren Verlauf wird sich eine Regressions- sowie Faktorenanaylse der Fragestellung, welche die entscheidenen Faktoren für blühende Korruption sind, widmen.

Daten[edit]

Im Folgenden werden die in der Analyse genutzen Daten kurz vorgestellt. Es wurden die Variablen aus verschiedenen Datensätzen der UNO, der UNDP, und anderen Quellen zusammengetragen und unter der Verwendung der Länderbezeichnung und der Länder-ISO Abkürzungen der UNDP zusammengefügt.

  • Corruption Perception Index 2007: Der Corruption Perception Index (CPI) wird jedes Jahr von Transparency International veröffentlicht und versucht zu messen, welches Ausmaß Korruption in einem Land im Vergleich zu anderen Ländern annimmt. Dabei bedeutet 0 vollständig korrupt und 10 die totale Abwesenheit von Korruption. Der Index wird seid 1995 jährlich veröffentlicht wobei jedes Jahr neue Länder mit aufgenommen werden. 2007 umfasst 180 Länder die mit Hilfe von 14 Maßzahlen 12 unabhängiger Institutionen bewertet werden ([2] Hier findet man eine komplette Beschreibung der Methodik.). Der CPI ist einer von vielen Indizes, die versuchen das Ausmaß von orruption zu messen. Andere bekannte ist der Control of Corruption Index der Weltbank, der Global Corruption Barometer und der Bribe Payers Index, beide von TI veröffentlicht.
  • Democracy Index 2007: Der Democracy Index (DI) wurde von The Economist veröffentlicht und bewertet anhand von bestimmten Kriterien das Ausmaß in der das (politische) Gesellschaftssystem eines Landes als Demokratie bezeichnet werden kann oder nicht. 0 bedeutet hier keine Demokratie und absolute Demokratie. Eine detailierte Beschreibung ist hier [3] zu finden. Es wurden zu jedem Land 60 Fragen, denen jeweils mit 2 Antwortmöglichkeiten zu begegnen war, gestellt. Der Index umfasst 167 Länder welche in 5 Kategorien bewertet werden:
    • Free and fair election process
    • Civil liberties
    • Functioning of government
    • Political participation
    • Political culture
Es werden 4 Klassen in dem Intervall [0;10] gebildet:
  • Full Democracies [8;10]
  • Flawed Democracies [6;8[
  • Hybrid Regimes [4;6[
  • Authoritarian Regimes [0;4[
  • GDP per capita 2005 ($ PPP): Das GDP pro Kopf stammt aus den Datensätzen der UNDP ([4]) zum Weltentwicklungsbericht 2008.
  • Education Index 2005: Der Education Index (Edu) stammt aus den Datensätzen der UNDP ([5]) zum Weltentwicklungsbericht 2008. Er wird wie folgt errechnet:
EDU_i=\left(\frac{2}{3}\frac{ALR05_i}{100}\right)*\left(\frac{1}{3}\frac{GERS05_i}{100}\right)
wobei ALR05_i die Alphabetisierungsrate der Erwachsenen (>15) und GERS05_i die verbundene brutto Registrierungsrate der primären, sekundären und tertiären Schulen in Prozent des Landes i ist. Das Intervall ist [0;1].
  • Gini Koeffizient: Der Gini Koeffizient (Gini) stammt aus den Datensätzen der UNDP ([6]) zum Weltentwicklungsbericht 2008. Er misst die tatsächliche Verteilung des verfügbaren Einkommens der Haushalte in einem Land (Lorenzkurve) und vergleicht diese mit der Gleichverteilung, heißt jeder Haushalt hat exakt das gleiche Einkommen. Als Daumenregel ist zu bemerken, dass ein Wert von 45 (in einem Intervall [0;100]) die Grenze zwischen vertretbarer und problematischer Verteilung von verfügbaren Einkommen darstellt.
  • Openess 2006: Openess (Op) ist oft als Maß für die Wettbewerbsintensität in einem Land herangezogen. Es berechnet sich wie folgt:
Op_i=\frac{Imports_i+Exports_i}{GDP_i}.
Dieser Indikator stammt aus dem Penn World Table des Center for International Comparisons der University of Pennsylvania ([7]). Er wurde in die Analyse augenommen, weil u.a. argumentiert wurde, dass je weniger Wettbewerb in einem Land zwischen Unternehmen herrscht, desto fruchtbarer ist der Grund auf dem Korruption wachsen kann. Dieses Argument lässt sich unter anderem aus dem Modell von Shleifer und Vishny (2003) herleiten. Es wurde aber auch erwidert, dass ein gleicher Op für beispielsweise Lichtenstein und Deutschland sich nicht miteinander vergleichen lässt, da in dem jeweils größeren Land, in diesem Falle Deutschland, viel mehr interner Wettbewerb herrscht und somit der Wettbewerb bei gleichem Op in Deutschland größer ist.
  • KOF Globalization Index 2004: Der KOF Globalization Index wurde von Axel Dreher, Swiss Federal Institute of Technology Zürich, veröffentlicht. Er umfasst drei Subindizes, Economic Globalization, Political Globalization und Social Globalization. Diese wiederrum setzen sich aus vielen einzelnen unterschiedlich gewichteten Indikatoren zusammen, auf die an dieser Stelle nicht weiter eingegangen werden soll ([8] Hier können detailierte Informationen nachgelesen werden.). Der Index ist 0 wenn ein Land gar nicht globalisiert ist und 100 bei vollständiger Öffnung.
  • Expenses for Education 2005: Diese Maßzahl wurde wie folgt berechnet: EEdu_i=PEGDP05_i*GDPpc05_i wobei PEGDP05_i die prozentualen Bildungsausgaben pro Kopf eines Landes im Jahr 2005 und GDPpc_i das Bruttoinlandsprodukt pro Kopf im Jahr 2005. Die Daten stammen auch hier von dem Weltentwicklungsbericht der UNDP 2008.
  • Human Development Index 2005: Der Human Development Index (HDI) wird vom UNDP veröffentlicht und misst die durchschnittlichen Errungenschaften jedes Landes in drei einfachen Dimensionen, Lebenserwartung, Bildung und Lebensstandard. Der Index wird wie folgt berechnet:
HDI_i=\frac{Edu_i+GDPI_i+LifeEI_i}{3},
wobei Edu der Education Index 2005, GDPI der GDP Index 2005 und LifeEI der Lebenserwartungsindex für das Land i ist. Der GDP Index wird wie folgt berechnet:
GDPI_i=\frac{GDP_i-log{100}}{\log(40000)-\log{100}}.
Der Lebenserwartungsindex LifeEI wird für jedes Land i folgendermaßen bestimmt:
LifeEI_i=\frac{LifeE_i-25}{85-25}
wobei LifeE die durchschnittliche Lebenserwartung des Landes i ist. Es werden 3 Klassen in dem Intervall [0;10] gebildet:
  • High Human Development [8;10]
  • Medium Human Development [4;8[
  • Low Regimes [0;4[

Alle Indizes und Zahlen beruhen auf dem Basisjahr 2005.

Es stellt sich unwillkürlich die Frage ob das Verwenden verschiedener Jahreszahlen zulässig ist. Für den Zweck dieser Arbeit kann man davon ausgehen, dass das qualitative Resultat nicht entscheidend unter dieser Inkonsistenz leided. Der CPI verändert sich über die Zeit nur sehr langsam (Bjørnskov and Paldam 2005), da er subjektive Wahrnehmungen von Korruption misst und somit zeitversetzt, sehr dynamisch aber träge auf externe Shocks reagiert. Der DI verändert sich über die Zeit unter Abwesenheit von Shocks ebenfalls langsam weil der allgemeine Fragen nach den politischen und gesellschaftlichen Umständen aggregiert. Das selbe soll für den KOF Globalization Index, den Education Index und den Gini Koeffizienten gelten. Unter diesen Annahmen werden in der Untersuchung alle Variablen unter dem Basisjahr 2005 betrachtet.

Deskriptive & Explorative Statistiken[edit]

Deskriptive Statistiken[edit]

Da der Datensatz aus vielen Quellen zusammengefügt wurde, weisen die Variablen eine sehr stark schwankende Anzahl von fehlenden Werten auf wie in der folgenden Tabelle zu sehen ist. Die Anzahl der Observationen (Länder) beträgt N=177

Deskriptive Statistiken

Wenn man einen Blick auf die minimalen und die maximalen Werte jeder Variablen wirft wird deutlich, welch starke Unterschiede die Observationen charakterisieren. Länder mit den geringsten gefühlten Korruption und einem Score von 9.40 sind Dänemark, Finnland und Neuseeland. Myanmar (UNDP Name) ist das Schlusslicht mit einem Score von 1.40. Schweden ist das Land mit dem höchsten DI Wert (9.88) im Gegensatz zur Zentralafrikanischen Republik mit einem Wert von 1.61, dicht gefolgt vom Tschad mit 1.65. In der Einkommensstatistik liegt Luxemburg mit einem durchschnittlichen pro Kopf Einkommen von 60.23 (in Tsd.) weit vor dem Rest der Welt, während Malawi mit 0.67 (in Tsd.) jährlichem Durchschnittseinkommen den letzten Platz einnimmt. Die schlechtesten Bildungsbedingungen herrschen, wenn man den Education Index als Maßstab nimmt, in Burkina Faso und die besten Möglichkeiten diebezüglich in Australien. Das Einkommen ist nach dem Gini Koeffizienten in Namibia am meisten ungleich verteilt, hingegen stellt Japan ein das positivste Beispiel in dieser Statistik dar. Singapore hat den größen Openess Indikator was an dem Status als Stadtstaat liegt. Das Land muss so gut wie alle Güter importieren und hat zusätzlich noch einen der wichtigsten Häfen weltweit was u.a. in der geographischen Lage begründet liegt. Japan hat den geringsten Openess Score was sicherlich an dem riesigen Exportvolumen liegt. Schon hier scheit Op als Indikator für Korruption wenig geeignet, denn der CPI Wert beider Länder spiegelt diesen Unterschied unter keinen Umständen wieder. Belgien ist laut dem KOF Globalization Index das am meisten globalisierte Land der Welt, wohingegen Burundi das am wenigsten globalisierte ist. Norwegen tätigt mit Hilfe seiner Öleinnahmen die höchsten Bildungsausgaben pro Kopf. In dieser Statistik ist wie auch schon im CPI Score Myanmar das Land mit dem schlechtesten Wert.

Da es sich vielfach um Schätzungen, ungenaue Statistiken oder Aggregate handelt sollte man davon ausgehen können, dass die extrahierten Minima und Maxima bei gleichen Datenerhebungsmethoden in allen Ländern ein leicht anderes Ergebnis liefern würden. Vielfach bekommt die UNO und die UNDP die Daten von lokalen Behörden und kann somit die Daten nicht selber erheben. Oft liegen einige Länder in den Extrempunkten dicht zusammen, so dass das gelieferte Ergebnis aus dem genannten Grund sicher anfechtbar bleibt.

Es bleibt auffällig, dass Länder mit sehr schlechten Indikatoren oft welche vom Afrikanischen Kontinent und Länder mit positiven Indikatorwerten oft Europäische sind (oder Australien, Japan, Kanada, USA). Eine starke geographische Polarisierung scheint charakteristisch.

Die nächste Tabelle zeigt die Korrelationen nach Pearson. Es ist zu sehen, dass alle Variablen, außer Op, generell miteinander hoch korreliert sind. Beispielsweise haben Länder mit einem hohen GDP auch niedrige Korruptionsraten (hoher CPI). Gleiches gilt für den Grad der Globalisierung und für die beiden Bildungsvariablen. Länder mit hoher Einkommensgleichheit haben geringere Korruption. Generell stellt sich hier für u.a. praxisbezogene Motivationen die Frage nach der Richtung der Kausalität (Huhn-Ei Problem).

Korrelationen nach Pearson

Überprüfung von Zusammenhängen[edit]

Da alle Variblen nur in metrischer Form vorliegen, lässt sich in diesem Fall nur eine Kontingenztabelle aus den subjektiv erstellten Gruppen des DI und des HDI erstellen. Die Gruppeneinteilungskriterien sind in dem Sektion Daten zu finden. Hier zunächst zwei Scatterplots der beiden Variablen, jeweils einen für jede Markierungsgruppenmöglichkeit.

Scatterplot: Zusammenhang CPI - DI, markiert durch DI
Scatterplot: Zusammenhang CPI - GDP, markiert durch DI
Scatterplot: Zusammenhang CPI - DI, markiert durch DI

Anhand dieser beiden Scatterplot und des Balkendiagramms lässt sich die nachfolgende Tabelle leichter lesen.

Kontingenztablle für die Kategorien des DI und des HDI

Es ist zu sehen, dass der DI wieder in vier Kategorien eingeteilt ist, die vierte sind die fehlenden Werte im DI, welche jedoch im HDI vorhanden sind. Alles in allem werden 177 Länder betrachtet, davon wurden 18 (10.2%) nicht mit einem DI Score bewertet. Von den übrigen 159 Ländern, sind 53 (29.9%) authoritäre Regime, 27 (15.3%) hybride Regime, 51 (28.8%) fehlerhafte Demokratien und 28 (15.8%) funktionierende Demokratien. 17% der authoritären Regime sind von der UNDP als hochentwickelt, 58.5% als durchschnittlich und 24.5% als niedrig entwickelt eingestuft. Die Verteilung des Entwicklungsstatus ist bei hybriden Regimes ähnlich dem der authoritären, 14.6% werden als hochentwickelt, 59.3% als durchschnittlich und 25.9% als niedrig entwickelt bewertet. Die Aufteilung ändert sich entscheidend bei fehlerhaften und funktionierenden Demokratien. Bei dem ersteren werden 43.1% als hochentwickelt, 52.9% als durchschnittlich und 3.9% als niedrig entwickelt charakterisiert. 100% der als funktionierenden Demokratien eingestuften Ländern werden von der UNDP als hochentwickelt bewertet. Andersherum betrachtet gibt sind 70 der 177 Länder (39.5%) von der UNDP als hochentwickelt, 85 (48.0%) als durchschnittlich und 22 (12.4%) als niedrig entwickelt eingestuft. Es gibt global betrachtet am meisten Länder die als durchschnittlich entwickelt vom HDI bewertet wurden und vom DI als authoritäres Regime geführt werden (31, 17.5%). An zweiter Stelle sind durchschnittlich entwickelte Länder welche als fehlerhafte Demokratie charakterisiert sind (27, 15.3%).

Um auf stochastische Unabhängigkeit zu prüfen kann man den \chi^2-Unabhängigkeitstest nach Pearson wählen. Das Hypothesenpaar ist hier (Rönz, 2000):

H_0: Die Zufallsvariablen X und Y sind stochhastisch unabhängig, d.h. p_{jk}=p_{j+}p_{+k} für alle Paare (j,k)
H_1: Die Zufallsvariablen X und Y sind nicht stochhastisch unabhängig, d.h. p_{jk}\neq p_{j+}p_{+k} für mindestens ein Paar (j,k).

Die zugehörige Teststatistik lautet:

V=\sum_{j=1}^J\sum_{k=1}^K\frac{(H_{jk}-\hat{e}_{jk})^2}{\hat{e}_{jk}}.

Da die asymptotische Signifikanz kleiner als 10%, 5% und kleiner als 1% ist, kann die Nullhypothese abgelehnt werden, die Kategorien des HDI und die des DI sind nicht stochhastisch unabhängig. Jedes andere Ergebnis wäre auf Grundlage der vorhergehenden Betrachtungen überraschend gewesen und hätte einer weiteren Überprüfung bedurft.

Explorative Statistiken[edit]

Die erste Gruppe von Scatterplots zeigt die Zusammenhänge vom CPI mit dem DI, dem GDP, Gini und KOF. Markiert wurden die einzelnen Länder jeweils mit der verbalen Beschreibung des DI, heißt also die Punktewolke wurde in vier Gruppen eingeteilt: Functioning Democracies, Flawed Democracies, Hybrid Regimes und Authoritarian Regimes.

Scatterplot: Zusammenhang CPI - DI, markiert durch DI
Scatterplot: Zusammenhang CPI - GDP, markiert durch DI
Scatterplot: Zusammenhang CPI - Gini, markiert durch DI
Scatterplot: Zusammenhang CPI - KOF, markiert durch DI

Allen Scatterplots wurden je nach Art des Zusammenhangs verschiedene Kurven angepasst. CPI und DI werden durch eine quadratische Anpassungslinie am besser beschrieben als mit einer linearen. Das R^2 ist 0.528, das bedeutet, dass durch die quadratische Funktion 52.8 Prozent der Varianz der Daten erfasst wird. Es ist zu erkennen, dass sich die Ausbreitung von Korruption in authoritären und hybriden Regimen sowie in fehlerhaften Demokratien nicht im großen Maße voneinander unterscheidet. Nur funktionierende Demokratien scheinen wehrhaft gegen starke Korruption zu sein. Es ist jedoch nicht ausgeschlossen, dass authoritäre Regime oder fehlerhafte Demokratien einen besseren CPI Score als Länder die als funktionierende Demokratie eingestuft wurden. Auffällig sind noch die beiden Ausreißer recht in der Mitte, Singapore als hybrides Regime und Honkong als fehlerhafte Demokratie, mit einem sehr guten CPI Score aber schlechten DI Score. Der Zusammenhang zwischen CPI und dem GDP scheint eher linear zu sein. Hier findet eine viel stärker Durchmischung statt obwohl ein Muster schon noch zu erkennen ist. Hier bestätigt sich graphisch das Ergebnis aud den bestimmten Korrelationen, je höher das GDP pro Kopf eines Landes, desto besser sind Antikorruptionsmechanismen ausgeprägt. Das R^2 ist mit 0.771 um 25% höher als im vorhergehenden Fall. Wieder sind Singapore und Hongkong zwei CPI Ausreißer wenn man die DI Klassierung zu Grunde liegt. Luxemburg hat bei einem herausragenden GDP pro Kopf einen nur mittelmäßigen CPI Score in der Klasse der funktionierenden Demokratien. Das deutet darauf hin, dass es ein natürliche Korruption zu geben scheint und es einer Gesellschaft nicht möglich ist Korruption ganz einzudämmen. Es ist noch eine weitere Kategorie 1 dazugekommen. Das liegt in den fehlenden Werten begründet, die CPI Variable umfasst mehr Länder als der Democracy Index. Einkommensungleichheiten und Korruption scheint eine weniger Starke Rolle zu spielen als die beiden Vorhergehnden. Ein linearer Zusammenhang kann nur run 12 Prozent der totalen Varianz in den Daten erklären. Eine Loess Kurvenanpassung generiert auch nicht mehr Informationen über den Zusammenhang, auch graphisch ist der Loess kein Gewinn. Bleibt nur festzustellen, dass es eine leichte Tendenz dazu gibt, dass in Ländern mit geringerer Corruption auch die Einkommensunterschiede weniger stark sind. Im letzten Scatterplot der oben dargestellten Gruppe lässt sich sehen, dass der Zusammenhang zwischen dem Grad der Globalisierung eines Landes, gemessen durch den KOF, und dem jeweiligen CPI Score durch eine kubische Kurve relativ gut beschreiben lässt. Das R^2 ist 0.696. Die Ähnlichkeit zu dem Scatterplot CPI-GDP ist dadurch zu erklären, dass umfassend globalisierte Länder auch meist ein hohes GDP pro Kopf haben. Oft können auch nur wohlhabende Länder es sich "leisten" globalisiert zu sein. Hier muss allerdings auf die Zusammensetzung des KOF verwiesen werden, auf die and dieser Stelle nicht weiter eingegangen wird. Der Ausreißer mit relativ hohem CPI Score von 6.90 jedoch ohne DI Bewertung ist Barbados. Da dieses Land auf der weltpolitischen Karte eher eine untergeordnetere Rolle spielt wird auf eine Erklärung verzichtet.

Die zweite Gruppe von Scatterplots ist daruch gekennzeichnet, dass der HDI Score als Markierung gewählt wurde. Der Leser mag sich sebst ein Bild analog zu der vorhergehenden Beschreibung machen. Festzustellen ist, dass das allgemeine Muster vorhanden bleibt, jedoch der CPI mit dem HDI Score weniger korreliert scheint als der CPI mit dem DI Score. Nicht anders ist zu erklären, dass die Durchmischung der Farbwolken im nachstehenden Beispiel stärker ist als in den vier Scatterplot weiter oben.

Scatterplot: Zusammenhang CPI - DI, markiert durch HDI
Scatterplot: Zusammenhang CPI - GDP, markiert durch HDI
Scatterplot: Zusammenhang CPI - Gini, markiert durch HDI
Scatterplot: Zusammenhang CPI - KOF, markiert durch HDI

Regressionsanalyse[edit]

Eine Regressionsanalyse soll klären, welche der gewählten Variablen eine Rolle bei der Erklärung der Korruptionsrate in den verschieden Ländern spielt. Deshalb wird der CPI als endogene Variable und die übrigen als exogen behandelt. Es werden verschiedene Methoden der Aufnahme der Variablen in die Regression durchgeführt und die Ergebnisse verglichen.

Endogene Variable: CPI

Exogene Variablen: DI, GDP, Edu, Gini, Op, KOF, EEdu

Methode Einschluss:

Hier werden alle exogenen Variablen in die Regression integriert. Das führt zu folgendem Modell:

CPI_i=\mu+\beta_1 DI_i+\beta_2 GDP_i+\beta_3 Edu_i+\beta_4 Gini_i+\beta_5 Op_i+ \beta_6 KOF_i+\beta_7 EEdu_i+u_i.

Folgene Koeefizienten ergeben sich (\beta_i sind die unstandardisierten, und \hat{\beta_i} die standardisierten Koeffizienten):

Lineare Regression - Einschluss - Koeffizienten

Hier sieht man sofort die Wichtigkeit der Standarsisierung. Ohne diese ist eine Einschätzung der Wichtung einzelner endogener Variablen nicht übersichtig. Nach der Standardsisierung ist zu erkennen, dass GDP und DI den größten Einfluss auf den CPI eines Landes haben. Erhöht sich das GDP um eine Einheit, heißt also 1000$ (PPP, 2005) verbessert sich der CPI um 0.079 scoring Punkte. Verbessert sich der DI um eine Scoring Einheit verbessert sich der CPI sich im Mittel um 0.398 Einheiten. Wichtig ist hier, dass man nicht auf die standardisierten Koeffizienten schaut. Openess hat den geringsten signifikanten Einfluss. In diese Regression wurden nur 53 Länder berücksichtigt, da jedes, welches in nur einer der 8 Variablen einen fehlenden Wert aufweißt nicht berücksichtigt wurde. Es gibt folglich 53 vollständige Observationen. Das adjustierte R^2 beträgt 0.8, heißt dass 80% der Varianz der Daten durch die Regressionsgerade erklärt werden kann. Da eine Menge exogener Variablen integriert wurden, ist die Bestimmtheitsmaßkorrektur um die Anzahl exogener Variablen, genutzt worden. Die folgene Graphik zeigt die Regression und die involvierten Beobachtungen

Lineare Regression - Einschluss - Regression standardisierter geschätzter Wert

Anschließend ist die Güte der Regression zu überprüfen. Der folgende Graph zeigt in einem PP-Diagramm die kumulierten Wahrscheinlichkeiten der Residuen gegen die theoretisch zu erwartenden Wahrscheinlichkeiten bei Normalverteilung der Residuen. Optisch sind die Residuen normalverteilt. Als nichtparametrischen Test zur Überprüfung dieser Vermutung wird der Kolmogorov-Smirnov Test auf Normalverteilung genutzt. Die Hypothesen lauten wie folgt (vgl. Rönz, 2000):

H_0: F_n(x)=F_0(z), für alle x
H_1: F_n(x)\neq F_0(z), für mindestens ein x

Es wird also eine theoretische Verteilung und die da zu erwarteten kumululierten Wahrscheinlichkeiten mit den empirischen kumulierten Whrscheinlichkeiten verglichen. In diesem Fall ist die Teststatistik 0.446 und die asymptotische Signifikanz 0.989, das bedeutet, dass die Nullhypothese nicht verworfen wird. Es konnte nicht bewiesen werden, dass die Verteilung der Residuen von der einer Normalverteilung abweicht.

Lineare Regression - Einschluss - Residuen

Als nächstes soll auf Kollinearitätsprobleme getestet werden. Hierzu eignen sich der Variance Inflation Factor (VIF) und der Tolerance Wert. Beide werden wie folgt bestimmt (vgl. Rönz, 2000):

T_k=1-R^2(X_k)

VIF_k=\frac{1}{1-R^2(X_k)}

Je kleiner die Toleranz ist, um so größer ist die Multikollinearität, da X_k als eine Linearkombination der anderen X-Variablen darstellbar ist (Rönz, 2000). Der VIF ist der reziproke Wert der Toleranz. Je größer dieser Faktor wird, desto größer ist die Varianz der Regressionskoeffizienten b_k, woher auch der Name dieses Faktor herrührt. Wenn die Toleranz Werte kleiner als 0.1 annimmt, gilt der Verdacht der Multikollinearität, sit der Wert kleiner als 0.01 gibt es einen sehr starken Verdacht auf ein Problem mit Multikollinearität. Umgekehrt gilt, ist der VIF größer als 10, so herrscht ein Verdacht.

Lineare Regression - Einschluss - Kollinearitätsdiagnose 1

Wie oben zu sehen, ist die Toleranz von GDP 0.078 und der zugehörige VIF 12.891. Es herrscht also ein Verdachtsmoment auf Multikollinearität. Um dieses zu überprüfen, kann man noch den Condition Index (CI) zur Hilfe nehmen. Er ist definiert als:

\eta_k=\sqrt{\frac{\lambda_{max}}{\lambda_k}}.

Es ist also die Wurzel aus dem Quotienten des größten Eigenwertes und des betrachteten Eigenwertes. Eine Daumenregel besagt, ist der Index zwischen 10 und 30, gibt es einen Verdacht und wenn er größer als 30 ist einen starken Verdacht auf Multikollinearität. In diesem Fall bestätigt der CI den Verdacht auf Multikollinearität. Grund für das Auftreten könnte Op, GDP, oder EEdu sein.

Lineare Regression - Einschluss - Kollinearitätsdiagnose 3

Extreme Multikollinearität hat nicht zur Folge, dass die OLS Annahmen gestört sind, solange sie nicht perfekt ist. Trotzdem führt es u.a. zu größeren Standardfehlern und weiteren Konfidenzintervallen. Es ist also ratsam andere Variablenselektionsmethoden auszuprobieren, zum einen um dem Multikollinearitätsproblem zu begegnen, zum anderen war zu bebachten, dass viel exogene Variablen nicht mehr signifikant sind, wenn um das GDP, den DI und Op kontrolliert wird.

Methode Vorwärts:

Bei dieser Methode der Variablenaufnahme in die Regressionsfunktion wird zuerst diejenige mit der größten Korrelation mit der endogenen Variable in die Funktion aufgenommen. Dann wird der Koeffizient auf Signifikanz geprüft und verbleibt wenn die Nullhypothese abgelehnt werden kann. Anschließend wird diejenige Variable unter den verbleibenden mit der größten partiellen Korrelation (bereinigt um den Einfluss der bereits integrierten Variable) aufgenommen und auf Signifikanz getestet. Dieses Muster führt sich so lange fort, bis die Signifikanz eines Koeffizienten nicht mehr gegeben ist. Das führt zu folgendem Modell:

CPI_i=\mu+\beta_1 DI_i+\beta_2 GDP_i+\beta_5 Op_i+u_i.

Folgene Koeefizienten ergeben sich (\beta_i sind die unstandardisierten, und \hat{\beta_i} die standardisierten Koeffizienten):

Lineare Regression - Vorwärts - Koeffizienten

Es ist in der Graphik oben zu erkennen, dass durch die Nicht-Aufnahme von Gini, Edu, EEdu und KOF der Koeffizient von GDP größer und die von DI und Op kleiner geworden sind. Die Interpretation unterscheidet sich aber qualitativ nicht von der, die zur Methode Einschluß durchgeführt wurde. Es wurden wiederum nur 53 der 177 Beobachtungen in der Regression berücksichtig. Das adjustierte R^2 ist 0.797, also nur unwesentlich kleiner als das der vorhergehenden Regression.

Lineare Regression - Vorwärts - Regression standardisierter geschätzter Wert

Anschließend ist wiederum die Güte der Regression zu überprüfen. Der folgende Graph zeigt in einem PP-Diagramm die kumulierten Wahrscheinlichkeiten der Residuen gegen die theoretisch zu erwartenden Wahrscheinlichkeiten bei Normalverteilung der Residuen. Optisch sind die Residuen normalverteilt. Als nichtparametrischen Test zur Überprüfung dieser Vermutung wird wieder der Kolmogorov-Smirnov Test auf Normalverteilung herangezogen. In diesem Fall ist die Teststatistik 0.844 und die asymptotische Signifikanz 0.475, das bedeutet, dass die Nullhypothese auch in diesem Fall, wenn auch nicht ganz so eindeutig, nicht verworfen wird. Es konnte nicht bewiesen werden, dass die Verteilung der Residuen von der einer Normalverteilung abweicht.

Lineare Regression - Vorwärts - Residuen

Im Folgenden wird wieder eine Kollinearitätsdiagnose durchgeführt:

Lineare Regression - Vorwärts - Kollinearitätsdiagnose 1

Wie oben zu sehen ist, besteht nach der Nutzung der Methode Forwärts kein Multikollinearitätsproblem mehr, da durch das Kriterium der partiellen Korrelation EEdu entfernt wurde, welchem zur Berechnung das GDP zu Grunde lag. Um dieses Ergebnis zu überprüfen wird wieder der CI berechnet. Der höchste CI ist 18.081. In Kombination mit dem vorhergehenden Ergebnissen (VIF und T), kann man davon ausgehen, dass kein Problem mehr mit Multikollinearität vorhanden ist.

Lineare Regression - Vorwärts - Kollinearitätsdiagnose 3

Die Methoden Schrittweise und Rückwärts führen zu dem selben Ergebnis wie die Methode Forwärts, darum wird auf eine Beschreibung verzichtet.

Im Folgenden wird der Diskussion Rechnung getragen, ob Op ein guter Indikator für Wettbwerb in einem Land ist. Die Op Werte von Ländern mit ähnlicher Marktgröße lassen sich vergleichen, beispielsweise zwischen Deutschland und Vietnam oder Frankreich. Irland und Neuseeland lassen sich auch problemlos miteinander Vergleichen. Der Vergleich zwischen Deutschland und Irland ist jedoch weniger sinnvoll, da Deutschland aufgrund des größeren einheimischen Marktes eine stärkeren internen Wettbewerb besitzt (bei Gütern die nicht ohne weiteres handelbar sind, um dem offenen Binnenmarkt der EU Rechnung zu tragen) als Irland. Somit könnten beide Länder ähnliche Op Werte haben, diese können jedoch nicht die strukturellen Unterschiede zwischen beiden Staaten wiederspiegeln da der Op sich nur aus der Addition der Im- und Exporte dividiert durch das GDP berechnet. Ähnliche Op Werte können auch dadurch entstehen, dass zwei Länder genau entgegengesetzte Handelstrukturen haben. Land A hat einen hohen Exportanteil und einen geringen Importanteil und Land B charakterisiert das genaue Gegenteil. Ist mag schwer sein zu argumentieren, dass beide Möglichkeiten auf gleiche Marktmuster in den entsprechenden Volkswirtschaften hindeuten. Aus diesen Gründen wird die folgende Regression ohne Op durchgeführt und anschließend ein Vergleich vollzogen.

Interessant und unterstützend ist ein Blick auf die partiellen Korrelationen zwischen DI, GDP, Op und CPI. Unten die drei Ergebnisse, es wurde immer um die zwei fehlenden Variablen kontrolliert.

Partielle Korrelation zwischen CPI und DI, kontrolliert um GDP, Op
Partielle Korrelation zwischen CPI und GDP, kontrolliert um DI, Op
Partielle Korrelation zwischen CPI und Op, kontrolliert um DI, GDP

Die partiellen Korrelationen zwischen CPI und DI und zwischen CPI und GDP sind signifikant auf einem Level von 1%, wohingegen die partielle Korrelation zwischen CPI und Op nicht signifikant ist (auf 10%).

Jetzt wird also DI und GDP auf CPI regressiert. Das führt zu folgendem Modell:

CPI_i=\mu+\beta_1 DI_i+\beta_2 GDP_i+u_i.

Folgene Koeefizienten ergeben sich (\beta_i sind die unstandardisierten, und \hat{\beta_i} die standardisierten Koeffizienten):

Lineare Regression - Last - Koeffizienten

Es ist in der Graphik oben zu erkennen, dass durch den weiteren Ausschluß von Op der Koeffizient von GDP wiederum größer und der von DI gleich geblieben ist. Die Intepreation bleibt qualitativ gleich und wird an dieser stelle nicht wiederholt. Es fällt auf, dass durch die Herausnahme von Op jetzt 155 Länder in der Regression berücsichtigt werden. Das adjustierte R^2 ist mit 0.844 größer als in den letzten Regressionen.

Lineare Regression - Last - Regression standardisierter geschätzter Wert

Anschließend ist wiederum die Güte der Regression zu überprüfen. Der folgende Graph zeigt in einem PP-Diagramm die kumulierten Wahrscheinlichkeiten der Residuen gegen die theoretisch zu erwartenden Wahrscheinlichkeiten bei Normalverteilung der Residuen. Optisch sind die Residuen normalverteilt. Als nichtparametrischen Test zur Überprüfung dieser Vermutung wird wieder der Kolmogorov-Smirnov Test auf Normalverteilung herangezogen. In diesem Fall ist die Teststatistik 0.770 und die asymptotische Signifikanz 0.594, das bedeutet, dass die Nullhypothese der Normalverteilung auch in diesem Fall nicht verworfen wird. Es konnte nicht bewiesen werden, dass die Verteilung der Residuen von der einer Normalverteilung abweicht.

Lineare Regression - Last - Residuen

Im Folgenden nun die Kollinearitätsdiagnose:

Lineare Regression - Last - Kollinearitätsdiagnose 1

Sowohl der VIF und die Toleranz oben, alsauch der CI unten deuten auf keinerlei Probleme mit Multikollinearität hin.

Lineare Regression - Last - Kollinearitätsdiagnose 3

Als letztes wird in dieser Sektion ein Vergleich der Ergebnisse und eine Interpretation folgen.

Lineare Regression - Summary

In der nächsten Tabelle werden die Distanzmaße der verschiedenen Regressionen dargestellt. Mit Distanzmaßen lassen sich ungewöhnliche Fälle identifizieren die unter Umständen einzelnd auf ihre Richtigkeit geprüft werden sollten. Die Hebelwert wird wie folgt berechnet: h_i=x_i^T(X^TX)^{-1}X^Ty. Die Werte auf der Diagonalen der resultierenden Matrix sind die Hebelwerte. Sie geben an, welchen Einfluß die i-te Beobachtung der Variable auf die geschätzten Paramter und auf die Reduktion der Varianz der geschätzten Parameter hat. Je kleiner also dieser Wert, deste geringer der Einfluss und desto näher liegt die i-te Beobachtung an den übrigen. Ein weiteres Distanzmaß für die Residuen ist der Mahalanobis-Abstand. Er berechnet sich aus dem Hebelwert: d(jk)=(n-1)h_i. Dieser Wert wird genutzt um unterschiede zwischen den i-Beobachtungen die durch die k Variablen charkterisiert werden zu quantifizieren. Zum Schluss ist noch die Cook-Distanz aufgeführt. Dieses Distanzmaß quantifiziert den Einluß den der Ausschluss einer Beobachtung auf alle anderen Residuen hat.

Lineare Regression - Distanzmaße - Summary

Sinnvoll lassen sich mit Hilfe von Scatterplots ungewöhnliche Fälle identfizieren. In den unten befindlichen Graphen für die Methode Enter lässt sich eindeutig Singapur als Land identifizieren, welches einen starken Einfluss auf die Regression hat. Diese Beobachtung wird aber weiter in der Regression verbleiben, denn trotz der Sonderstellung stellt Singapur einen wichtigen Einzelfall da, dessen Ausschluss interessante Informationen verdecken würde. Darum wird der relativ starke Einfluss dieser Observation in Kauf genommen.

Methode: Einschluss - Hebelwert
Methode: Einschluss - Abstand
Methode: Einschluss - Cook Distanz

Ein Interessantes Ergebnis liefern die Distanz Plots für die Methode Vorwärts, die in den kommenden Graphiken abgebildet sind. Anders als bei der Methode Enter, bei der nur Singapur hohe Distenzmaße auswies, bilden jetzt die Gruppe der hochentwickelten Stadtstaaten (Singapur, Hongkong, Luxembourg) eine Gruppe, von denen man aufgrund der hohe Distanzmaße sagen kann, dass sie einen starken Einfluss auf die Regression ausüben. Sie werden weiter in der Regression belassen.

Methode: Vorwärts - Hebelwert
Methode: Vorwärts - Abstand
Methode: Vorwärts - Cook Distanz

Interessant ist auch der Vergleich zu den Distanzmaßen der letzten Regression, in der Op ausgeschlossen wurde. Große Handelsbilanzen (Export+Import) spielen jetzt keine Rolle mehr bei der Erklärung des CPI. Jetzt ist nur noch Luxembourg von hohem abweichendem Einfluss auf die Regression, da die klassischen Hafenstädte (Singapur, Hongkong) jetzt keine Rolle mehr spielen. Das Ergebnis ist unten zu sehen.

Methode: Ohne Op - Hebelwert
Methode: Ohne Op - Abstand
Methode: Ohne Op - Cook Distanz

Die Residuenplots identifizieren in ähnlicher Weise die gleichen Staaten als Ausreißer. Auf die Plots soll an dieser Stelle deswegen verzichtet werden. Die kumulierten Residualstatistiken lassen sich wegen der varierenden Anzahl an einfließenden Beobachten schlecht vergleichen.

Interpretation: Die Regressionsanalyse zeigt, dass Korruption hauptsächlich durch zum einen das pro Kopf Einkommen einer Volkswirtschaft und zum anderen durch gesellschaftliche Mitbestimmungrechte determiniert wird. Die erste Variable ist das GDP pro Kopf. Durch ein hohes Einkommen kann es sich der Staatsapperat leisten umfangreiche Antikorruptionsmaßnahmen zu finanzieren. Dazu gehört umfangreiches Monitoring, gezielte Anreizsetzung im Arbeitsverhältnis und eine Entlohnung der Staatbeamten, die den Anreiz der Beamten senkt korrupt zu werden. Eine relativ hohe Lohnrate im Vergleich zur Privatwirtschaft erhöht die Opportunitätskosten korrupter Handlungen entscheidend. Der entscheidende erklärende Einfluss der DI Variable weißt auf die Wichtigkeit gesamtgesellschaftliche Partizipationsmöglichkeiten im Hinblick auf die Korruptionsrate hin. Das schießt wohl möglich moralische Faktoren durch ein stärkeres Zugehörigkeitsgefühl resultierend aus umfangreichen Teilnahmemöglichkeiten an Meinungsbildungsmechanismen mitzuwirken. Hier spielt auch ein transparentes und unwillkürliches Rechts- und Exekutivsystem eines Staates eine Rolle. Wehrhafte Demokratien sind eher in der Lage den moralischen und wirtschaftlichen Druck auf einzelne zu erhöhen auch wenn sie nicht in der Lage sind das Problem vollständig einzudämmen.

Kurvenanpassung[edit]

Ein Teil kann in der Sektion Explorative Statistik schon gefunden werden. Hier sollen die verschiedenen Kurvenanpassung noch einmal gegenübergestellt werden. Zum Teil werden andere Empfehlungen als die genutzten in der genannten Sektion resultieren. In der Explorativen Statistik habe ich mich aber immer für das einfacherer Model entschieden, wenn das R^2 nicht zu stark abwich. Im Folgenden soll auf Grundlage der Ergebnisse der Regressionsanalyse DI auf CPI und GDP auf CPI angepasst werden.

Zuerst Di auf CPI:

Kurvenanpassung: CPI und DI - Alle
Kurvenanpassung: CPI und DI - Kubisch
Kurvenanpassung: CPI und DI - Quadratisch

Wie in der Tabelle zu sehen erklärt das kubische Modell die meiste Varianz der Daten (R^2=0.724), gefolgt vom quadratischen (R^2=0.699). Das erst genannte beschreibt einen nicht-linearen posititiven Zusammenhang zwischen den CPI und dem DI. Zum einen geht die Kurve über den maximalen CPI Score 10 hinaus. Das ist eine Schwäche dieses funktionalen Zusammenhangs. Zum anderen währe plausibel, wenn die Kurve abknicken würde und aussagen würde, dass die Konvergenz zur perfekten Abstinenz von Korruption mit steigendem DI immer langsamer passiert und der [10;10] Score nicht ereicht werden kann da es sich um einen sozioökomisches Phänomen handelt und Perfektion keine haltbare Annahme darstellt. Im mittleren Bereich schein die kubische Kurve den Zusammenhang beider Kurven joch gut abzubilden. Oben ist zusätlich die quadratische Kurve zu finden. Trotz des guten Bestimmtheitsmaßes muss diese funktionale Form abgelehnt werden, da ein U-förmiger Zusammenhang sehr unrealistischeint. Es gibt keine Beweise, dass mit sehr schlechten demokratischen Verhältnissen sich das Verhältnis wieder umdreht. Dieser Zusammenhang wird hauptsächlich durch die wohlhabenen Golfstaaten (Oman, Bahrain, Kuwait, Qatar) geschaffen, die in einen schlechten DI Score zwischen 2 und 4 haben, aber in dieser Gruppe einen relativ guten CPI Score durch umfangreiche Mittel zur Bekämpfung von Korruption an Stellen wo es erwünscht ist.

  • Kubisch: \hat{y}=0.969+1.416x-0.370x^2+0.033x^3
  • Quadratisch: \hat{y}=5.199-1.479x+0.196x^2
Kurvenanpassung: CPI und DI

Das kubische Modell:

Kurvenanpassung: CPI und DI - Kubisch - Modellzusammenfassung
Kurvenanpassung: CPI und DI - Kubisch - ANOVA
Kurvenanpassung: CPI und DI - Kubisch - Koeffizienten

Jetzt GDP auf CPI:

Kurvenanpassung: CPI und GDP - Alle
Kurvenanpassung: CPI und GDP - Kubisch
Kurvenanpassung: CPI und GDP - Quadratisch
Kurvenanpassung: CPI und GDP - Kubisch


Wie in der unten stehenden Tabelle zu sehen erklärt das kubische Modell die meiste Varianz in den Daten, (R^2=0.793), gefolgt vom quadratischen (R^2=0.786) und dem linearen (R^2=0.771). Eine Zusammenfassung der Kurven ist im Graph oben zu sehen. Man würde nach diesem Kriterium vermuten, dass das kubische Modell zur Vorhersage des CPI auf Grundlage des GDP am dienlichsten ist. Ein Bick in die Graphen offenbart jedoch, dass das kubische wenig sinnvoll ist und man sich in jedem Fall für das quadratische entscheiden wird. Die kubische Modell hat eine höheres Bestimmtheitsmaß, da es den Punkt rechts außen (Luxembourg) mit erfasst, wozu das quadratische aufgrund seiner funktionalen Form nicht in der Lage ist. Ein kubischer funktioneller Zusammenhang in dieser Form zwischen dem GDP und dem CPI ist jedoch wenig sinnvoll, da nicht davon auszugehen ist, dass bei steigendem GDP die Korruptionsbekämpfung wieder abnimmt oder weniger effektiv wird. Es ist auch nicht davon auszugehen, dass ein Land sich bei einer hohen Korruptionsrate auf einem überdurchschnittlichen Einkommensniveau etablieren kann. Die hohe Güte des linearen Modells untermauert vorhandene theoretische Überlegungen zu dieser Beobachtung (siehe z.b. Mauro 1995, Tanzi 1998). Intuitiver ist das quadratische Modell, welches ein Sättigungspunkt bzw. eine Konvergenz zu einem CPI Score marginal unter 10 beschreibt. Das scheint realistisch, dass eine ökonomsische Einheit Korruption nicht vollständig eindämpfen kann, es so eine natürliche Korruptionsrate gibt da eine perfekte Kontrolle (fehlerbarer durch fehlbare Indiviuen) nicht möglich scheint. Der letzte Graph zeigt eine lineare Kurvenanpassung. Optisch gibt sie den Zusammenhang gut wieder, nur den Sättigungsscore von 10 kann sie leider nicht wiedergeben. So kann man je nach Anwendung wohl auch den linearen Zusammenhang wählen.

  • Kubisch: \hat{y}=2.270+0.142x+0.003x^2-0.000058x^3
  • Quadratisch: \hat{y}=2.027+0.224x-0.002x^2
  • Linear: \hat{y}=2.295+0.163x
Kurvenanpassung: CPI und GDP

Das quadratische Modell:

Kurvenanpassung: CPI und GDP - Quadratisch - Modellzusammenfassung
Kurvenanpassung: CPI und GDP - Quadratisch - ANOVA
Kurvenanpassung: CPI und GDP - Quadratisch - Koeffizienten

Die Kurvenanpassung zeigt, warum in der Regressionsanalyse beide Variablen, DI und GDP, zur Erklärung des CPI herangezogen werden. Erstens ist der DI Score nicht ausrechend, da reiche Ölstaaten im Nahen Osten zwar sehr schlechte demokratische Verhältnisse haben aber durch umfangreiche finanzielle Mittel das Problem an Stellen bekämpfen können, an denen es nicht erwünscht ist. zweitens ist das GDP allein nicht ausreichend, da der politische Wille vorhanden sein muss. Dieser wird wahrscheinlicher gesamtgesellschaftlich mit umfangreicher Partizipation großer Bevölkerungsteile gebildet. Dieses Zusammenspiel, zwischen politischer Handlungsfähigkeit, politischem Willen, und den Mitteln die gewünschten Strukturen zur Bekämpfung von Korruption zu installieren, scheint essentiell.

Latente Konstrukte[edit]

Die Regressionsanalyse hat gezeigt, dass sich aus den anfänglich 7 erklärenden Variablen 2 selektieren ließen, die begründbar einen starken Erklärungsgehalt für hohe Korruption innerhalb eines Landes bieten. Schrittweise Auswahl von endogenen Variablen hat ergeben, dass Op noch dazu gezählt werden müsste. In dieser Sektion soll der Datensatz mit Hilfe einer Faktorenanalyse untersucht werden um diesem Entscheidungsproblem zu begegnen. Es soll ein latentes Konstrukt gesucht werden, welches das Auftreten von Korruption erklärt. Entscheidend wird die Beobachtung sein, ob Op dazu gezählt werden kann oder nicht. Die Faktoren werden mit Hilfe der Hauptachsen-Faktorenanalyse durchgeführt, da nicht davon ausgegangen werden kann, dass die gewählten Variablen den Anspruch erheben können alleinige Erklärungskomponenten für auftretende Korruption zu sein (in diesem Fall wäre eine Hauptkomponentenmethode angebracht), und zur besseren Interpretation wird die Varimax Rotation gewählt.

Reliabilitätsanalyse[edit]

Die Reliabilitätsanalye versucht zu bewerten, ob die Beobachtungen eines Items im wesentlichen einen Beitrag zum Konstrukt ethalten und nur kleine Fehler aufweist (Rönz, 2000). Dies geschieht auf der Grundlage einer Varianzanalyse mittels einer Varianzzerlegung. In diesem Fall soll bewertet werden, ob die vorhandenen Variablen das latente Konstrukt der Korruption messen. Es ist in diesem Fall ebenfalls auf die Korrelationsmatrix oben und auf die Anti-Image Matrix in der Sektion Faktorenanalyse zu verweisen, die beide zu dem Ergebnis kommen, dass die gewählten Variablen hoch miteinander korreliert sind und eine gute Grundlage für eine Faktorenanalyse bilden. Deskriptive Statistiken einzelner Items können in der zugehörigen Sektion oben gefunden werden. Auf eine umfangreiche Reliabilitätsanalyse wird verzichtet (Hotellings T-Quadrat Test auf Gleichheit der Mittelwerte ist beipsielsweise wegen den unterschiedlichen Skalenniveaus nicht ohne weiteres anwendbar).

Cronbach's Alpha ist ein häufig verwendetes Maß zur Einschätzung, inwieweit das theoretische Konstrukt durch die beobachtete synthetische Variable widergespiegelt wird, d.h. ein Maß für die innere Konsistenz der synthetischen Variablen (Rönz, 2000). Der Wertebereich liegt zwischen 0 und 1. Wenn in den Items kein Beitrag zum Konstrukt, sondern nur zufällige Fehler enthalten sind, nimmt Cronbach's Alpha den Wert 0 an und wenn die Items exakt das gleiche messen wird der Wert 1. In diesem Fall ist nimmt das unstandardisierte Cronbach's Alpha den Wert 0.186 an, was aufgrund der verschiedenen Skalenniveaus wenig aussagekräftig ist. Das standardisierte Alpha ist 0.727, was auf eine gewisse innere Konsistenz der Varianz zwischen den Fällen (Ländern) hinweist. Da der Wert von der Anzahl der Items (Variablen) abhängt, sollte ein Blick auf die folgende Statistik geworfen werden.

Cronbach's Alpha, wenn Item weggelassen

Diese Tabelle, auch wenn sie nur dan unstandardisierte Alpha zeigt, weist darauf hin, dass wenn Op und/oder Gini ausgeschlossen werden, Cronbach's Alpha entscheidend steigen würden. Auf der anderen Seite, wenn GDP oder KOF ausgeschlossen werden würden, die Maßzahl entscheidend sinken würde. Interessant ist, das im Gegenteil zur Regressionsanalyse DI keine entscheidende Rolle spielt. Das lässt sich wohl auf die schon im Verlaufe hingewiesenen Ausreißer zurückführen (Golstaaten mit hohem GDP aber schlechtem DI und die Tigerstadtstaaten Singapore und Hongkong mit ebenfalls schlechten DI Scores aber hohen GDP, welche in der Dinstanzanalyse identifiziert wurden).

Tukey's Test auf Additivität der Items lehnt die Nullhypothese klar ab (Asymptiotische Signifikanz ist 0.000). Damit kann davon ausgegangen werden, dass die vermutete synthetische Variable nicht als Summe der einzelnen Items (Variablen) gebildet werden kann.

Anschließend ist die Inter-Klassen Korrelationsmatrix im Zwei-Wege-zufällig Modus gezeigt, da in jedem Fall die gewählten Items als zufällig betrachtet werden müssen. Die Annahme, dass die Observationen eine Auswahl aus einer ihr zugrunde liegenden Grundgesamtheit ist, ist in sofern nur erfüllt, als dass Observationen wegen fehlender Werte entfernt wurden. Das Verhältnis zwischen Grundgesamtheit und Stichprobe ist allerdings relativ groß, es bleibt also zu evaluieren, ob diese Annahme erfüllt ist.

Inter-Klassen Korrelation: Zwei-Wege zufällig

Im Folgenden soll getestet werden, ob die Observationen insgesamt ähnliche Muster in der Itembewerttung (Variablen) aufweisen. Die Tabelle zeigt, dass nicht gezeigt werden kann, dass die Observationen grundsätlich ähnliche Muster aufweisen. Es scheint abweichende Muster in den Mustern der Variablenwerte der einzelnen Länder zu geben. Es konnte also nicht gezeigt werden, dass die Bewertungen in sich konsistent sind.

Inter-Klassen Korrelation: Zwei-Wege zufällig

Homogenitätsanalyse/Faktorenanalyse[edit]

Die Korrelationsmatrix weiter oben deutet bereits darauf hin, dass viele der Variablen einen ähnlichen Aspekt beschreiben. Fast ausnahmslos sind die Variablen hoch miteinander korreliert. Die einzige Ausnahme bildet Op, die nur mit dem CPI und dem GDP signifikant korreliert ist. Wenn zwei Variablen miteinander korreliert sind, dann lässt sich immer ein Teil der Varianz der einen durch die andere erklären (Image). Das impliziert im Umkehrschluss, dass sich auch ein Teil der Varianz der einen nicht durch die andere erklären lässt (Anti-Image). Die folgende Tabelle zeigt die Anti-Image Matrix, also die negativen partiellen Korrelationen zwischen den Variablen. Das heißt, es sind diejenigen Korrelationen welche sich ergeben, wenn um den Einfluss der übrigen Variablen kontrolliert wird. Je näher also die Anti-Image Korrelationen in dieser Matrix näher 0, dest besser ist diese Variable für eine Faktorenanalyse geeignet, da durch die jeweils eine, nur ein kleiner Teil der Varianz der jeweils anderen nicht erklärt werden kann, es somit wahrscheinlich ist, das es einen zugrundeliegenden latenten Faktor gibt, der diese beiden Variablen treibt. Auf der Diagonalen findet man das Maß der Stichprobeneignung der jeweiligen Variable. Je näher dieses Maß an dem Wert 1 ist, desto besser ist diese Variable für eine Faktorenanalyse geeignet. Die Tabelle zeigt, dass nur Op einen relativ schlechten Wert aufweist. Da dieser aber noch nicht unter 0.5 ist, wird Op weiter in der Analyse belassen, dieser Fakt aber später in der Auswertung berücksichtig.

Anti-Image Matrix

Zusammenfassund ist zu sagen, dass das Kaiser-Meyer-Olkin Maß der Stichprobeneignung 0.832, welches diese Stichprobe als geeignet für eine Faktorenanalyse beschreibt.

Jetzt soll untersucht werden, wieviele Faktoren extrahiert werden. Bei Homogenität sollte es nur ein Faktor sein (das KMO Maß deutet darauf hin). Wie die folgende Tabelle zeigt, werden nach dem Kaiser Kriterium (Eigenwerte größer als 1) 2 Faktoren extrahiert. Der erste hat einen Eigenwert von 4.33, ist somit klar größer als 1. Der zweite ist sehr nahe an 1, es entscheidet also eine inhaltliche Interpretation über die Anzahl der Faktoren.

Faktoren
Screeplot

Anschließend folgt die unrotierte und die rotierte (Varimax) Faktorenmatrix:

Faktorenmatrix
Rotierte Faktorenmatrix mit Varimax Rotation
Faktordiagramm im gedrehten Faktorbereich

Es ist ersichtlich, dass sich nur der erste, nicht aber der zweite Faktor sinnvoll interpretieren lässt. KOF, Op und der Edu laden den zweiten Faktor hoch, wobei nur Op den zweiten höher als den ersten lädt. Das deutet darauf hin, dass nur Op die Grundlage einer Interpretation für den zweiten Faktor bieten kann. Jedoch ist ein Variable nicht genug um den Verbleib von dem zweiten Faktor zu rechtfertigen. Wenn man möchte, kann man den zweiten Faktor als eine Art Globalisierung oder Offenheit definieren, dies ist jedoch beim Blick auf die Ladungen wenig überzeugend. Darum wird das Modell auf einen Faktor reduziert, der zusammenfassend als wirtschaftlicher Entwicklungsstand charakterisiert werden kann. Es ist also nach dieser Analyse allein der wirtschaftliche Entwicklungsstand eines Landes welcher den Korruptionsindex bestimmt. In der nächsten Graphik findet man die Faktorscores für das Einfaktormodell.

1-Faktoren Modell

Deutlich wird, dass Op so gut wie gar nicht auf den Faktor hochlädt. Es wurde bereits vorher auf Probleme mit dieser Variablen hingewiesen. Hier wird wiederholt deutlich, dass Op nicht als robustes Charakteristikum für den wirtschaftlichen Enwicklungsstand eines Landes gelten kann, da die Maßzahl die Stärke des einheimischen Markets vernachlässigt und nur einen Vergleich von Ländern ähnlicher Marktstruktur und -größe zulässt. Gini lädt im Gegensatz den dem Rest der Variablen negativ auf den Faktor hoch, was als ein deutlicher Hinweis auf die Bedeutung von gesellschaftlicher Ballance für eine erfolgreiche wirtschaftliche Entwicklung interpretiert werden kann. Das Gini hier nicht auf einen eigenen Faktor hochlädt zeigt, dass der Einkommensausgleich mit steigender wirtschaftlicher Kraft einher geht. Obwohl man hier vorsichtig sein muss, denn es handelt sich um Daten der Vergangenheit und es sollten Zweifel an der Haltbarkeit dieses hypothetischen kausalen Zusammenhangs in jedem Fall bedacht werden. Darauf soll hier aber nicht weiter eingegangen werden. Es bleibt hier der allgemeine Hinweis, dass eine Neubewertung globaler Entwicklungen in Kombination mit vergangenen Ausgangspositionen essentiell für eine sorgfälltige Politikempfehlung ist.

Jetzt soll noch der Faktor wirtschaftlicher Entwicklungsstand aud CPI regressiert werden. Das adjustierte R^2 beträgt .761 und ist somit schlechter als das der vorgestellten Regressionsansätze weiter oben, die aber 2 exogene Variablen benötigen um CPI zu erklären. Der Zusammenhang wird durch folgende Gleichung beschrieben:

CPI_i=5.775+.875*WE_i+e_i

Hierbei ist zu beachten, dass der Faktor wirtschaftliche Entwicklung standardisiert (Mittelwert 0, Standardabweichung 1, Minimum -2.097, Maximum 1.359) ist, also auch negative Werte annehmen kann. Hier eine graphische Verdeutlichung:

1-Faktoren Modell - Regression

Offen bleibt trotzdem die Frage ob das Huhn vor dem Ei war oder anders herum. Zum Großteil wurden in der Analyse auch kulturelle Komponenten ausgeklammert. Dies ist mit dem aktuellen Stand der Forschung zu Rechtfertigen, welcher nur einen signifikanten Unterschied zwischen katholisch oder protestantisch dominierten Gebieten ausmachen kann.

Konklusionen[edit]

Das Ergebnis der Faktorenanalyse deckt sich inhaltlich mit dem der Regressionsanalyse. Aus der Regressionsanalyse lässt sich schließen, dass sowohl wirtschaftliche Kraft als auch funktionierende gesellschaftliche Partizipationsmöglichkeiten (DI) entscheidend das Korruptionslevel bestimmen. Obwohl Bildungsvariablen hoch mit dem Korruptionslevel verknüpft sind, wird ihr Einfluss jedoch insignifikant, wenn dieser um das GDP pro Kopf und den DI kontrolliert wird. Auch der Grad der Globalisierung einer Gesellschaft spielt keine Rolle wenn um das GDP und den DI kontrolliert wird. Das weißt darauf hin, dass in den Variablen GDP und DI sehr viele der möglichen Faktoren die auf die Korruptionsrate einen Einfluss haben enthalten sind. Das GDP pro Kopf charakterisiert beispielsweise die Möglichkeit einer Gesellschaft die Staatsbeamten entsprechend zu entlohnen und somit den Anreiz korrupter Handlung durch Erhöhung der Opportunitätskosten zu senken. Ein hohes Einkommen pro Kopf bietet auch bei entsprechendem politischen Willen (DI Komponente) die Möglichkeit Mittel in die Administration zur Korruptionsabwehr zu lenken. Auch sind bei hohem Einkommen pro Kopf die Anreize der privaten Bürger weniger hoch. Gestützt wird diese Struktur den Ergebnissen nach von einer funktionierenden Partizipation des Volkes an gesellschaftlich relevanten Entscheidungen. Ein hoher DI kombiniert mit einem hohen GDP pro Kopf birgt die Möglichkeit volkswillentliche Entscheidungen durchzusetzen und sie auch finanzieren zu können. Diese Kombiation scheint essentiell. Das praktische Problem, ob nur mit einem hohen GDP ein hoher CPI zu erreichen ist, oder nur durch einen hohen CPI auch ein hohes GDP pro Kopf zu realisieren ist, bleibt durch diese Analyse unbeantwortet. Zu unterstreichen ist nur die Wichtigkeit des DI als Säule dieses Prozesses.

Die Faktorenanalyse bietet ein ähnliches Ergebnis. Es wurde ein Faktor extrahiert, der als "wirtschaftliche Entwicklung" benannt wurde, welcher beide in der Regressionsanalyse identifizierten signifikanten exogenen Merkmale beinhaltet.

Abkürzungsverzeichnis[edit]

  • CI > Condition Index
  • CPI > Corruption Perception Index 2007
  • DI > Democracy Index 2007
  • EEdu > Pro Kopf Ausgaben für Bildung 2005
  • Edu > Education Index
  • EigV > Eigenvalue (Eigenwert)
  • GDP > Bruttosozialprodukt pro Kopf 2005
  • Gini > Gini Koeffizient
  • KOF > KOF Gloabization Index 2004
  • Op > Openess 2006
  • T > Tolerance
  • TI > Transparency International
  • VIF > Variance Inflation Factor
  • WE > Wirtschaftlicher Entwicklungsstand

Referenzen[edit]

  • Andvig, J. C., Fjeldstad, O.-H., Amundsen, I., Sissener, T., and Søreide, T. (2000). Research on Corruption - A policy oriented survey. Report, Chr. Michelsen Institute (CMI) & Norwegian Institute of International Affairs (NUPI).
  • Bjørnskov, Chr. and Paldam, M. (2005). Corruption trends. In Lambsdorff, J.G., editor, New Institutional Economics of Corruption, pages 59-75. Routledge.
  • Dreher, Axel (2006): Does Globalization Affect Growth? Evidence from a new Index of Globalization, Applied Economics 38, 10: 1091-1110. Updated in Dreher, Axel, Noel Gaston and Pim Martens (2008), Measuring Globalization – Gauging its Consequences (New York: Springer).
  • Härdle, W., Simar, L. (2007). Applied Multivariate Statistical Analysis. Springer Verlag, Berlin-Heidelberg-New York 2007.
  • Khan, M. H. (2006). Determinants of corruption in developing countries: the limits of conventional economic analysis. In Rose-Ackerman, S., editor, International Handbook on the Economics of Corruption, pages 216–244. Edward Elgar.
  • Lambsdorff, J.G. (2007). The Institutional Economics of Corruption and Reform - Theory, Evidence and Policy. Cambridge University Press.
  • Lambsdorff, J.G. (2001). How Corruption in Government Affects Public Welfare - A Review of Issues. Discussion Paper 9, Center for Globalization and Europeanization of the Economy.
  • Mauro, P. (1995). Corruption and Growth. The Quarterly Journal of Economics, 101(3):681–712.
  • Heston, A., Summers, R. and Aten, B (2006). Penn World Table Version 6.2, Center for International Comparisons of Production, Income and Prices at the University of Pennsylvania, September 2006.
  • Rönz, B. (2000). Computergestützte Statistik I - Skript. Humboldt-Universität zu Berlin, Wirtschaftwissenschaftliche Fakultät, Institut für Statistik und Ökonometrie, Berlin.
  • Rönz, B. (2000). Computergestützte Statistik II - Skript. Humboldt-Universität zu Berlin, Wirtschaftwissenschaftliche Fakultät, Institut für Statistik und Ökonometrie, Berlin.
  • Shleifer, A. and Vishny, R. W. (1993). Corruption. The Quarterly Journal of Economics, 108(3):599–617.
  • Tanzi, V. (1998). Corruption Around the World - Causes, Consequences, Scope and Cures. IMF Staff Papers 45(4), International Monetary Fund.
  • Tanzi, V. and Davoodi, H. (1997). Corruption, Public Investment, and Growth. IMF Working Paper 139, International Monetary Fund.