Analyse wirtschaftlicher Daten von 20 industrialisierten Ländern (Econom-Datensatz)

From Teachwiki
Jump to: navigation, search

Einleitung[edit]

In Zeiten eines vereinigten Europas und einer immer weiter voranschreitenden Globalisierung ist es von entscheidender Bedeutung Zusammenhänge wirtschaftlicher Daten zu identifizieren und wirtschaftlich ähnlich entwickelte Ländern zu vergleichen, um Schlüsse für die Zukunft ziehen zu können. Mit Hilfe der Analyse wirtschaftlicher Daten von 20 industrialisieren Ländern soll dies hier exemplarisch geschehen. Zur Analyse der Daten, wurde in der folgenden Arbeit das Statistikprogramm XploRe (http://www.xplore-stat.de/index_js.html) verwandt. Der benutzte Datensatz "econom.dat" wurde der Datenbank MD*Base Online (http://www.quantlet.org/mdbase/) entnommen. Die Zahlen wurden ursprünglich vom Institut der deutschen Wirtschaft Köln in der Publikation "Zahlen zur wirtschaftlichen Entwicklung der Bundesrepublik Deutschland" aus dem Jahr 1993 veröffentlich. In dieser Arbeit werden zunächst die Daten beschrieben, um deren Gehalt zu verdeutlichen. Im Weiteren werden die Daten anhand einer univariaten Analyse aufbereitet, es werden unter anderem Ausreißer identifiziert und die Verteilung geklärt. Es soll die multivariate Analyse vorbereitet werden beziehungsweise zur Wahl von geeigneten Methoden für die weitere Analyse beitragen. In der multivariaten Analyse soll herausgearbeitet werden, ob sinnvolle Zusammenhänge zwischen den Variablen bestehen und ob sich Variablen durch andere erklären lassen.

Datenbeschreibung[edit]

Der Datensatz zeigt die Investitionsquoten (INVEST), die Inflationsraten (INFLA), das Wachstum des BIP (BIP), die Steuerraten (in Prozent des BSP, STEUER), die Anzahl der genutzten Kernkraftwerke (AKW), die Arbeitslosenraten (ALQ), die Arbeitskosten (pro Stunde in DM, ARBKOST), die Bevölkerungszahlen (in Millionen, BEVÖLK) und die Anzahl der Streiktage (je 1000 Beschäftigten, STREIKTG) von 20 ausgewählten Ländern. Der Datensatz ist vollständig und enthält demnach keine "fehlenden Werte".

Zu den beobachteten Ländern gehören Belgien, Dänemark, Deutschland, Finnland, Frankreich, Griechenland, Großbritannien, Irland, Italien, Luxemburg, Niederlande, Österreich, Portugal, Spanien und Schweden, sie sind die so genannten „EU 15-Länder“. Die restlichen Länder sind Norwegen, Schweiz, Kanada, USA und Japan. Alle Länder dieses Datensatzes sind Mitgliedsstaaten der OECD.


LAND INVEST INFLA BIP STEUER AKW ALQ ARBKOST BEVÖLK STREIKTG
Belgien 20,2 3,5 3,9 28,5 7 7,6 34,26 9,8 34
Dänemark 17,7 2,6 0,8 46,9 0 8,1 33,02 5,2 42
Deutschland 21,0 2,7 3,3 23,9 20 4,9 41,96 80,0 15
Frankreich 21,2 3,4 4,1 24,4 60 9,0 27,75 57,1 53
Griechenland 19,4 20,4 3,5 27,9 0 7,0 11,04 10,1 1589
Großbritannien 19,3 9,5 2,1 30,4 32 7,0 22,79 57,4 83
Irland 18,6 3,4 6,5 31,4 0 14,5 22,30 3,5 275
Italien 20,2 6,5 2,9 26,6 0 10,0 32,91 57,1 305
Niederlande 21,3 2,6 4,0 28,4 2 7,5 33,76 15,0 14
Portugal 26,4 13,4 5,2 25,0 0 4,6 8,96 10,6 47
Spanien 24,6 6,7 4,8 20,0 9 16,1 22,93 39,0 260
Finnland 26,4 6,1 5,4 35,2 4 3,5 29,08 5,0 456
Norwegen 18,8 4,1 0,6 34,1 0 5,2 38,91 4,3 76
Österreich 24,6 3,3 3,8 27,6 0 3,2 33,15 7,8 3
Schweden 20,9 10,4 2,3 41,8 12 1,5 38,46 8,6 192
Schweiz 26,9 5,4 3,9 20,9 5 0,6 39,24 6,8 2
Kanada 21,4 4,8 2,3 32,2 22 8,1 27,54 27,0 450
USA 16,8 5,4 2,5 20,4 115 5,5 24,79 252,7 56
Japan 32,2 3,1 4,7 17,0 54 2,1 30,00 123,9 3
Luxemburg 15,0 3,7 2,3 29,3 0 1,7 31,07 0,4 0

Univariate Analyse[edit]

Als erstes werden die Minima, Maxima, die arithmetischen Mittel, die Mediane und die Standardabweichungen der metrischen Variablen betrachtet.

Minimum Maximum arithm. Mittel Median Standardabweichung
INVEST 15,00 32,20 21,65 20,95 4,09
INFLA 2,60 20,40 6,05 4,45 4,44
BIP 0,60 6,50 3,45 3,65 1,50
STEUER 17,00 46,90 28,60 28,15 7,26
AKW 0,00 115,00 17,10 4,50 29,13
ALQ 0,60 16,10 6,39 6,25 4,06
ARBKOST 8,96 41,96 29,20 30,54 8,68
BEVÖLK 0,40 252,70 39,07 10,35 59,80
STREIKTG 0,00 1589,00 197,75 54,50 359,13

Bei den Variablen Investitionsquote (INVEST), Wachstum des BIP (BIP), Steuerrate (STEUER), Arbeitslosenrate (ALQ) und Arbeitskosten (ARBKOST) sind keine Auffälligkeiten zu erkennen. Hingegen bei den Variablen Inflationsrate (INFLA), Anzahl der genutzten Kernkraftwerke (AKW), Bevölkerungszahlen (BEVÖLK) und Anzahl der Streiktage (STREIKTG) weichen das arithmetische Mittel und der Median stark von einander ab. Das arithmetische Mittel ist deutlich größer als der Median. Dies macht deutlich, dass es sehr hohe Ausreißer geben muss. Die hohe Standardabweichung dieser Variablen unterstreicht diesen Schluss und verdeutlich die hohe Bandbreite der Werte dieser Variablen. Um diese Feststellungen zu untermauern und zu verdeutlichen, ist es nötig die Daten auf Ausreißer zu testen und die Verteilung zu prüfen.

Ausreißer[edit]

Mit Hilfe von Boxplots wurden die Ausreißer der einzelnen Variablen identifiziert. Die Investitionsquoten, das Wachstum des BIP und die Arbeitskosten enthalten keine Ausreißer. Bei der Steuerrate ist Dänemark ein Ausreißer (dot). Wird Dänemark als Ausreißer ausgeschlossen, entsteht Schweden als "neuer Ausreißer". Da dies nur "einfache" Ausreißer sind, bleibt festzuhalten, dass sie die Standardabeichung nur schwach beeinflussen und auch keinen wirklichen Unterschied zwischen arithmetischem Mittel und Median verursachen. Bei den Arbeitslosenraten ist Spanien ein "einfacher Ausreißer" (dot). Jegliche Ausreißer der Daten, sind Ausreißer nach oben.

Bei der Inflationsrate (Graphik 1) sind Portugal (dot) und Griechenland (star) die Ausreißer. Werden sie entfernt, entstehen nach einander zwei "neue Ausreißer" – erst Schweden, dann Großbritannien. Der Unterschied zwischen arithmetischem Mittel und Median ist vor allem durch die Ausreißer zu erklären. Die Ergebnisse geben aber auch erste Hinweise darauf, dass die Variable Inflationsrate nicht normal verteilt sein kann.

Graphik 1

Japan (dot), Frankreich (dot) und die USA (star) sind die Ausreißer bei der Anzahl der genutzten Kernkraftwerke (Graphik 2). Falls man die Ausreißer aus den Daten entfernt, entstehen nacheinander drei „neue Ausreißer", nämlich Großbritannien, Kanada und Deutschland. Die Daten zu den genutzten Kernkraftwerken ist sehr heterogen, daher die Auffälligkeiten des Median, arithmetischen Mittels und der Standardabweichung. Hinzu kommt das die Zahl der USA sehr stark von den anderen differiert.

Graphik 2

Der Ausreißer der Bevölkerungszahl (Graphik 3) ist die USA (star), es gibt als einzigen "neuen Ausreißer" Japan. Auch hier bestätigen sich die vorher gezogenen Schlüsse.

Graphik 3

Bei der Anzahl der Streiktage ist Griechenland ein sehr "extremer Ausreißer" (star). Dies ist die Erklärung für den Unterschied zwischen arithmetischem Mittel und Median, und die hohe Standardabweichung.

Verteilung[edit]

Um die geeigneten Methoden für die multivariate Analyse zu identifizierten und die Verteilung zu klären, wurde die Verteilung anhand von Histogrammen und Q-Q Plots bestimmt.

Graphik 4
Graphik 5

Nach der Betrachtung der Histogramme (Graphik 4) und Q-Q Plots (Graphik 5), kann man die Variablen in zwei Gruppen unterteilen. Beide Gruppen sind multimodal verteilt, selbst wenn man die Ausreißer entfernt. Allerdings ist die eine Gruppe, bestehend aus Inflationsrate, Kernkraftwerke, Bevölkerung und Streiktage, deutlich rechts-schief. Dies erklärt die Ergebnisse der bisherigen Analyse und zeigt, dass diese Variablen für eine multivariate Analyse teilweise nicht geeignet sind. Die andere Gruppe (Investitionsquote, BIP, Steuerrate, Arbeitslosenquote und Arbeitskosten) hat auch multimodale Ausprägungen, ist aber aufgrund der Q-Q Plots für die weitere Analyse als normal verteilt zu betrachten.

Multivariate Analyse[edit]

Korrelation[edit]

INVEST INFLA BIP STEUER AKW ALQ ARBKOST BEVÖLK STREIKTG
INVEST 1 0,013734 0,54422 -0,43169 -0,024319 -0,24829 -0,0411 -0,01367 -0,10106
INFLA 0,013734 1 0,053689 0,014145 -0,1411 -0,043874 -0,67488 -0,12132 0,74665
BIP 0,54422 0,053689 1 -0,45747 -0,071961 0,25036 -0,38377 -0,071349 0,089862
STEUER -0,43169 0,014145 -0,45747 1 -0,42552 -0,029243 0,19363 -0,50984 0,087852
AKW -0,024319 -0,1411 -0,071961 -0,42552 1 -0,066523 -0,080623 0,92017 -0,19244
ALQ -0,24829 -0,043874 0,25036 -0,029243 -0,066523 1 -0,33715 -0,028499 0,19472
ARBKOST -0,0411 -0,67488 -0,38377 0,19363 -0,080623 -0,33715 1 -0,059168 -0,51875
BEVÖLK -0,01367 -0,12132 -0,071349 -0,50984 0,92017 -0,028499 -0,059168 1 -0,1684
STREIKTG -0,10106 0,74665 0,089862 0,087852 -0,19244 0,19472 -0,51875 -0,1684 1

Zwischen den Variablen Inflationsrate und Arbeitskosten, besteht laut der hier benutzten Daten eine hohe negative Korrelation. Werden allerdings die Ausreißer der Inflationsrate (Griechenland und Portugal) entfernt, nimmt der Zusammenhang von -0,67488 auf -0,16601 ab. Bei der Korrelation zwischen der Inflationsrate und der Anzahl der Streiktage, ist die Höhe des gegenseitigen Einflusses wiederum auf die Ausreißer der Inflationsrate zurückzuführen. Schließt man sie aus erhält man nur noch eine Korrelation von 0,37947. Hingegen ist die sehr hohe positive Korrelation zwischen der Anzahl der genutzten Atomkraftwerken und der Bevölkerungszahl nachvollziehbar (Ausschluss von Ausreißern bestätigt hohe Korrelation), denn Länder mit hohen Bevölkerungszahlen benötigen mehr Energie. In der 90er Jahren war hoher Energiebedarf nur mit Hilfe von Atomkraftwerken zu befriedigen.

Weiterhin haben die Variablen Investitionsquote und Wachstum des BIP, Wachstum des BIP und Steuerrate, Steuerrate und Bevölkerungsanzahl, Arbeitskosten und Streiktage auffällige Korrelationen. Die positive Korrelation von Investitionsquote und Wachstum des BIP ist damit zu erklären, dass unter anderem Investitionen das Wachstum des BIP beeinflussen, beziehungsweise durch Investition nachhaltiges Wachstum gewährleistet werden kann. Der negative Zusammenhang zwischen dem Wachstum des BIP und der Steuerrate ist plausibel, da eine niedrige Steuerrate den Unternehmen höhere Gewinne ermöglicht und somit das Wachstum des BIP unterstützt. Bei der Steuerrate und der Bevölkerungsanzahl könnte die negative Korrelation dadurch begründet werden, dass bei Ländern mit großer Bevölkerungszahl verhältnismäßig weniger oder effizienter öffentliche Güter durch den Staat bereitgestellt werden. Der negative Zusammenhang zwischen den Arbeitskosten und den Streiktage könnte damit erklärt werden, dass die Arbeitnehmer weniger streiken, wenn sie eine höhere soziale Absicherung erhalten. Diese Erklärungen können allerdings mehr als Möglichkeiten der Begründung aufgefasst werden, da der Datensatz nur aus einem Jahr besteht und damit nur eingeschränkt Begründungen möglich sind.

Einfache lineare Regressionsanalyse[edit]

Da bei der linearen Regression die Normalverteilung der Variablen gegeben sein muss, können nur die Beziehungen zwischen der Investitionsquote und dem Wachstum des BIP, dem Wachstum des BIP und der Steuerrate untersucht werden.

Investitionsquote (abhängige Variable), Wachstum des BIP (unabhängige Variable)

[ 1,] ""
[ 2,] "A  N  O  V  A                   SS      df     MSS       F-test   P-value"
[ 3,] "_________________________________________________________________________"
[ 4,] "Regression                    94.282     1    94.282       7.575   0.0131"
[ 5,] "Residuals                    224.047    18    12.447"
[ 6,] "Total Variation              318.330    19    16.754"
[ 7,] ""
[ 8,] "Multiple R      = 0.54422"
[ 9,] "R^2             = 0.29618"
[10,] "Adjusted R^2    = 0.25708"
[11,] "Standard Error  = 3.52804"
[12,] ""
[13,] ""
[14,] "PARAMETERS         Beta         SE         StandB        t-test   P-value"
[15,] "________________________________________________________________________"
[16,] "b[ 0,]=         16.5420       2.0150       0.0000         8.209   0.0000"
[17,] "b[ 1,]=          1.4813       0.5382       0.5442         2.752   0.0131"

Der bei der Korrelation festgestellt Zusammenhang zwischen der Investitionsquote und dem Wachstum des BIP, wird auch durch die signifikante Regressionsanalyse bestätigt. Das R^2 zeigt, dass ca. 30% der Variation der Investitionsquote durch die Variation des Wachstum des BIP erklärt werden kann.

Wachstum des BIP (abhängige Variable), Steuerrate (unabhängige Variable)

[ 1,] ""
[ 2,] "A  N  O  V  A                   SS      df     MSS       F-test   P-value"
[ 3,] "_________________________________________________________________________"
[ 4,] "Regression                     8.993     1     8.993       4.764   0.0426"
[ 5,] "Residuals                     33.977    18     1.888"
[ 6,] "Total Variation               42.970    19     2.262"
[ 7,] ""
[ 8,] "Multiple R      = 0.45747"
[ 9,] "R^2             = 0.20928"
[10,] "Adjusted R^2    = 0.16535"
[11,] "Standard Error  = 1.37390"
[12,] ""
[13,] ""
[14,] "PARAMETERS         Beta         SE         StandB        t-test   P-value"
[15,] "________________________________________________________________________"
[16,] "b[ 0,]=          6.1556       1.2793       0.0000         4.812   0.0001"
[17,] "b[ 1,]=         -0.0948       0.0434      -0.4575        -2.183   0.0426"

Auch der Zusammenhang zwischen dem Wachstum des BIP und der Steuerrate ist signifikant. Das R^2 zeigt, dass ca. 20% der Varianz des Wachstum des BIP durch die Varianz der Steuerrate erklärt werden kann. Da alle drei Variablen untereinander korrelieren, ist es allerdings nicht möglich eine multiple lineare Regression zu erstellen. Um allerdings die Variation der abhängigen Variablen besser erklären zu können wird im folgenden Abschnitt die Regressionsanalyse um die restlichen normal verteilten Variablen erweitert.

Multiple lineare Regressionsanalyse[edit]

Bei der multiplen linearen Regressionsanalyse ist auf die Unabhängigkeit zwischen den Variablen zu achten. Nach Prüfung aller möglicher Kombinationen ausgehend von den abhängigen Variablen Investitionsquote und Wachstum des BIP, konnte als einziges die folgende aussagekräftige Regression gefunden werden.

Investitionsquote (abhängige Variable), Wachstum des BIP (unabhängige Variable)

[ 1,] ""
[ 2,] "A  N  O  V  A                   SS      df     MSS       F-test   P-value"
[ 3,] "_________________________________________________________________________"
[ 4,] "Regression                    94.282     1    94.282       7.575   0.0131"
[ 5,] "Residuals                    224.047    18    12.447"
[ 6,] "Total Variation              318.329    19    16.754"
[ 7,] ""
[ 8,] "Multiple R      = 0.54422"
[ 9,] "R^2             = 0.29618"
[10,] "Adjusted R^2    = 0.25708"
[11,] "Standard Error  = 3.52804"
[12,] ""
[13,] ""
[14,] "PARAMETERS         Beta         SE         StandB        t-test   P-value"
[15,] "________________________________________________________________________"
[16,] "b[ 0,]=         16.5420       2.0150       0.0000         8.209   0.0000"
[17,] "b[ 1,]=          1.4813       0.5382       0.5442         2.752   0.0131"

Investitionsquote (abhängige Variable), Wachstum des BIP und Arbeitslosenrate (unabhängige Variablen)
[ 1,] ""
[ 2,] "A  N  O  V  A                   SS      df     MSS       F-test   P-value"
[ 3,] "_________________________________________________________________________"
[ 4,] "Regression                   144.502     2    72.251       7.066   0.0058"
[ 5,] "Residuals                    173.827    17    10.225"
[ 6,] "Total Variation              318.329    19    16.754"
[ 7,] ""
[ 8,] "Multiple R      = 0.67375"
[ 9,] "R^2             = 0.45394"
[10,] "Adjusted R^2    = 0.38970"
[11,] "Standard Error  = 3.19768"
[12,] ""
[13,] ""
[14,] "PARAMETERS         Beta         SE         StandB        t-test   P-value"
[15,] "________________________________________________________________________"
[16,] "b[ 0,]=         18.2198       1.9770       0.0000         9.216   0.0000"
[17,] "b[ 1,]=          1.7608       0.5039       0.6469         3.495   0.0028"
[18,] "b[ 2,]=         -0.4136       0.1866      -0.4103        -2.216   0.0406"

Durch die Hinzunahme der Arbeitslosenrate verbessert sich das R^2 von 0,29618 auf 0,45394. Da in der Analyse reale Daten verwendet wurden, ist die Höhe der erklärten Variation der Investitionsquote als akzeptabel anzusehen.

Ergebnis[edit]

Die betrachteten Länder haben einen ähnlichen Entwicklungsstand, und befinden sich auf einem ähnlichen wirtschaftlichen Niveau. Dennoch konnte nur vereinzelt Korrelationen, zum Beispiel zwischen der Investitionsquote und dem Wachstum des BIP, zwischen dem Wachstum des BIP und der Steuerrate, gefunden werden. Die Zusammenhänge konnten durch die lineare Regression nur zum Teil bestätigt werden, da nicht alle Variablen normal verteilt sind. Auch konnten Zusammenhänge die man vor der Analyse hätte erwarten können, wie zum Beispiel ein Zusammenhang zwischen der Arbeitslosenrate und den Arbeitskosten nicht bestätigt werden.

Trotz des relative kleinen Datensatzes mit 10 Variablen und je 20 Beobachtungen und vor allem Indexzahlen als Variablen, konnten elementare Ergebnisse der empirischen Wirtschaftsforschung, die Zusammenhänge zwischen Investitionen und BIP, zwischen BIP und Steuern, durch die Analyse bestätigt werden. Um mehr Ergebnisse und größere Zusammenhänge zwischen den Variablen erkennen zu können, wäre in einer weiteren Analyse von nutzen die Daten von mehreren Jahren und gegebenenfalls absolute Zahl statt Änderungen zu betrachten. Allerdings ist zu beachten, dass selbst dann wirtschaftliche Daten nur selten durch einige wenige Variablen gut erklärt werden können und Variablen, wie zum Beispiel das BIP, auch durch andere Länder beeinflusst werden.

Literaturverzeichnis[edit]

Bleymüller, J./ Gehlert, G./ Gülicher, H.: Statistik für Wirtschaftswissenschaftler, Vahlen 2002

Härdle, W./ Klinke, S./ Müller, M.: XploRe Learning Guide, Springer 2003

Härdle, W./ Klinke, S./ Hlavka, Z.: XploRe Application Guide, Springer 2000

Härdle, W./ Simar, L.: Applied Multivariate Statistical Analysis, Springer 2003

Kommentare[edit]

  • Auch in anderen Arbeiten wird immer der Boxplot "missbraucht" um Ausreisser zu erkennen
  • Die Grafiken in Abb. 4 und 5 sind gut zusammensortiert
  • Die lineare Regression kann auch bei nicht Normalverteilung durchgeführt werden (kleinste Quadrate Methode!)
  • Evtl. hätte sich eine Hauptkomponentenanalyse angeboten um die Korrelation zwischen den Variablen zu beseitigen
  • Kurz