Analyse ausgewählter Strukturindikatoren der Europäischen Union

From Teachwiki
Jump to: navigation, search

Einleitung

Im Rahmen des Kurses "Computergestützte Statistik I" wurde die Aufgabe gestellt, die besprochenen statistischen Analysemethoden anhand von Daten sinnvoll anzuwenden. Dabei sollten die Themenbereiche Ausreißeridentifikation, Verteilungsprüfung und Parametervergleiche abdeckt sein.

Zunächst werden der Datensatz und die einzelnen Strukturindikatoren der Europäischen Union erläutert. Anschließend werden Ausreißer anhand von "Boxplots" und "Steam-and-Leaf Plots" identifiziert. Im Weiteren wird die Verteilung der Strukturindikatoren durch graphische Methoden und Tests geprüft. Abschließend werden die Parameter Mittelwert und Varianz der einzelnen Indikatoren in Form von "Fehlerbalkendiagrammen", dem "Levene-Test" und der "ANOVA" verglichen.

Die ausgewählten statistischen Methoden der Datenanalyse wurden mit Hilfe des Statistikprogramms SPSS (Version 15.0) durchgeführt. Die hierfür notwendigen Schritte zur Ausgabe in SPSS sind am Ende jedes Schaubildes beschrieben. Außerdem ist die Arbeit bzw. deren Formatierung an den Firefox-Browser angepasst.

Datensatz

Auf dem Lissabonner Gipfel im März 2000 haben sich die Staats- und Regierungschefs der Europäischen Union das strategische Ziel gesetzt, die Union innerhalb des nächsten Jahrzehnts "zum wettbewerbsfähigsten und dynamischsten wissensbasierten Wirtschaftsraum der Welt zu machen - einem Wirtschaftsraum, der fähig ist, ein dauerhaftes Wirtschaftswachstum mit mehr und besseren Arbeitsplätzen und einem größeren sozialen Zusammenhalt zu erzielen" (Vgl. Europäische Kommission 2007). Die Fortschritte im Rahmen dieser Strategie werden mit Hilfe von sogenannten Strukturindikatoren bewertet und diskutiert. Das europäische statistische Amt (Eurostat) veröffentlicht daher 130 Strukturindikatoren (Datenbasis der Strukturindikatoren, Stand der Daten: 27.01.08), die in die sechs verschiedenen Gebiete allgemeiner wirtschaftlicher Hintergrund, Beschäftigung, Innovation und Forschung, Wirtschaftsreform, Sozialer Zusammenhalt sowie Umwelt untergliedert werden.

Im Rahmen dieser Arbeit werden die folgenden acht Strukurindikatoren aus dem Jahr 2004 untersucht:

  • Wachstumsrate des realen BIP (Bruttoinlandsprodukt) - Wachstumsrate des BIP-Volumens - Prozentuale Veränderung zum Vorjahr (Bereich: allgemeiner wirtschaftlicher Hintergrund):
Es wird das BIP zu Marktpreisen verwendet, es ist das Endergebnis der Produktionsaktivitäten der gebietsansässigen Produktionseinheiten (Vgl. Eurostat 2007a).
  • Arbeitsproduktivität je geleisteter Arbeitsstunde - BIP in KKS je geleisteter Arbeitsstunde im Vergleich zu EU15 (EU15=100; Bereich: allgemeiner wirtschaftlicher Hintergrund):
Die Daten sind als Index angegeben, mit dem Wert für die EU15 gleich 100. Die EU15 sind die Länder, die bis zum 30.April 2004 die EU-Mitgliedsstaaten bildeten (Belgien, Dänemark, Deutschland, Finnland, Frankreich, Griechenland, Irland, Italien, Luxemburg, Niederlande, Österreich, Portugal, Schweden, Spanien und Vereinigte Königreich).
Kaufkraftstandards (KKS) sind eine fiktive "Währungseinheit", die die Kaufkraftunterschiede, d.h. die verschiedenen Preisniveaus zwischen den Ländern eliminiert. So kann das gleiche nominale Aggregat in zwei Ländern mit unterschiedlichen Preisniveaus zu verschiedenen Kaufkraftwerten führen. Die in Kaufkraftstandards ausgedrückten Zahlen werden mit Hilfe von Kaufkraftparitäten (KKP) als Umrechnungsfaktor aus den Angaben in Landeswährung abgeleitet. Diese Paritäten erhält man aus dem gewichteten Durchschnitt der Preisrelationen eines homogenen Waren- und Dienstleistungskorbs, der für alle Mitgliedstaaten vergleichbar und repräsentativ ist. Sie sind so festgesetzt, dass die durchschnittliche Kaufkraft eines Euro in der Europäischen Union einem KKS entspricht (Vgl. Eurostat 2007a).
  • Öffentlicher Schuldenstand - Konsolidierter Bruttoschuldenstand des Staates in Prozent des BIP (Bereich: allgemeiner wirtschaftlicher Hintergrund):
Der Indikator öffentlicher Schuldenstand bezieht sich auf den konsolidierten Schuldenstand zum Nominalwert am 31. Dezember. Er umfasst die staatlichen Teilsektoren Bund (Zentralstaat), Länder, Gemeinden und Sozialversicherungen (Vgl. Eurostat 2004a).
  • Beschäftigungsquote - insgesamt - Anteil der Erwerbstätigen im Alter von 15-64 Jahre an der Gesamtbevölkerung derselben Altersgruppe (Bereich: Beschäftigung).
  • Bruttoinlandsausgaben für Forschung und Entwicklung (FuE) - in Prozent des BIP (Bereich: Innovation und Forschung):
Die Bruttoinlandsausgaben für FuE (GERD) setzen sich aus den FuE-Ausgaben des Unternehmenssektors (BERD), den FuE-Ausgaben des Hochschulsektors (HERD), den FuE-Ausgaben des Staatssektors (GOVERD) und FuE-Ausgaben der privaten Organisationen ohne Erwerbszweck (PNRD) zusammen (Vgl. Eurostat 2004b).
  • Unternehmensinvestitionen - Bruttoanlageinvestitionen des privaten Sektors in Prozent des BIP:
Die Bruttoanlageinvestitionen (BAI) umfassen den Erwerb abzüglich der Veräußerungen von Anlagegütern durch gebietsansässige Produzenten in einem Zeitraum zuzüglich gewisser Werterhöhungen an nichtproduzierten Vermögensgütern durch produktive Tätigkeiten von Produzenten oder institutionellen Einheiten. Veräußerungen von Anlagegütern werden als negativer Erwerb behandelt.
Der private Sektor umfasst finanzielle und nichtfinanzielle Kapitalgesellschaften, private Haushalte sowie private Organisationen ohne Erwerbszweck, d.h. alle Sektoren der Volkswirtschaft außer dem Sektor Staat.
Das BIP wird in Marktpreisen ausgedrückt, d.h. einschließlich Steuern sowie Import- und sonstigen Subventionen. Hier wird das BIP zu jeweiligen Preisen verwendet.
Die Unternehmensinvestitionen werden als Prozentsatz des BIP ausgedrückt. Da die BAI (nach der Verwendungsdarstellung) integraler Bestandteil des BIP sind, geben die Zahlen echte Anteile wieder. Sie sollen einen Eindruck von der Bedeutung der Investitionen im Verhältnis z. B. zum Konsum vermitteln (Vgl. Eurostat 2007b).
  • Langzeitarbeitslosenquote - insgesamt - Langzeitarbeitslose Bevölkerung (12 Monate und mehr) in Prozent der Erwerbsbevölkerung insgesamt (Bereich: Sozialer Zusammenhalt):
Arbeitslose Personen sind alle Personen zwischen 15 und 74 Jahren, die während der Referenzwoche nicht gearbeitet, in den letzten vier Wochen aktiv nach Arbeit gesucht haben und sofort oder innerhalb der nächsten zwei Wochen eine Arbeit aufnehmen können (Vgl. Eurostat 2007c).
  • Gesamtemissionen von Treibhausgasen - Index der Gesamttreibhausgasemissionen und Zielwerte - In CO2-Äquivalenten (Basisjahr=100; Bereich: Umwelt):
Dieser Indikator zeigt den Trend anthropogener Treibhausgas-Emissionen. Der Indikator basiert auf den Gesamtemissionen des "Kyoto-Warenkorbs" (der die 6 wichtigsten Treibhausgase (GHG) laut Kyoto-Protokoll gewichtet nach ihrem globalen Treibhauspotenzial, in 1000t CO2-Äquivalenten enthält) dividiert durch die Emissionen im gewählten Basisjahr. Die 6 wichtigsten Treibhausgase sind: Kohlendioxid (CO2), Distickstoffoxid (N2O), Methan (CH4), Fluorkohlenwasserstoffe (HFC), Perfluorkohlenwasserstoffe (PFC) und Schwefelhexafluorid (SF6; Vgl. Eurostat 2004c).
Das Basisjahr für CO2, CH4 und N2O ist 1990 und für die fluorierten Gase 1995 (Vgl. European Environment Agency 2004).
Die Analyse der acht ausgewählten Strukturindikatoren bezieht sich auf die sogenannten EU27-Länder: Belgien, Bulgarien, Dänemark, Deutschland, Estland, Finnland, Frankreich, Griechenland, Irland, Italien, Lettland, Litauen, Luxemburg, Malta, Niederlande, Österreich, Polen, Portugal, Rumänien, Schweden, Slowakei, Slowenien, Spanien, Tschechische Republik, Ungarn, Vereinigtes Königreich und Zypern.

Ausreißeridentifikation

Die Identifikation von Ausreißern bildet einen der ersten Schritte bei der Analyse von Daten, da durch Ausreißer Verzerrungen der Ergebnisse statistischer Methoden und ihrer Interpretation verursacht werden können (Vgl. Rönz 2001).

In der hier durchgeführten Analyse werden zunächst Ausreißer respektive Extremwerte mit Hilfe von "Boxplots" und "Steam-and-Leaf Plots" dargestellt. Beim Boxplot werden Werte als extrem angesehen, wenn sie größer als die Summe aus dem 75%-Quartil und dem 1,5-fachen des Interquartilsabstandes (Differenz zwischen 75%-Quartil und 25%-Quartil) bzw. kleiner als die Differenz aus dem 25%-Quartil und dem 1,5-fachen des Interquartilsabstandes sind. Ist ein Ausreißer größer als die Summe aus dem 75%-Quartil und dem 3-fachen des Interquartilsabstandes bzw. kleiner als die Differenz aus dem 25%-Quartil und dem 3-fachen des Interquartilsabstandes dann wird er nicht mehr als Kreis sondern als Stern dargestellt.

Wie aus Schaubild 1A (Schaubild im Anhang) zu entnehmen ist, sind in den Variablen 'Wachstumsrate des realen BIP', 'Arbeitsproduktivität je geleisteter Arbeitsstunde', 'Öffentlicher Schuldenstand', 'Beschäftigungsquote', 'Bruttoinlandsausgaben für FuE' und 'Gesamtemissionen von Treibhausgasen' keine Ausreißer nach der obigen Definition enthalten. Hingegen zeigt der Boxplot der Variable 'Unternehmensinvestitionen' einen Ausreißer an (siehe Schaubild 1). Der mit der "Ziffer 6" gekennzeichnete Ausreißer steht für das Land Estland. Auch die Variable 'Langzeitarbeitslosenquote' enthält Ausreißer, der mit der "Ziffer 20" ausgewiesene Ausreißer steht dabei für das Land Polen und der mit der "Ziffer 24" ausgewiesene Ausreißer für das Land Slowakei. Die beiden Variablen wurden zusätzlich durch "Steam-and-Leaf Plots" dargestellt, um eine zweite Form der Veranschaulichung zu zeigen.


Schaubild 1: Variablen mit Ausreißer - Boxplot und Steam-and-Leaf Plot
a) Unternehmensinvestitionen
A6SD.PNG
Frequency       Stem &  Leaf

    1,00           1 .  3
    6,00           1 .  445555
    5,00           1 .  66677
    8,00           1 .  88888999
    3,00           2 .  011
    1,00           2 .  2
    2,00           2 .  44
    1,00 Extremes    (>=28)

Stem width:     10,00
Each leaf:       1 case(s)
b) Langzeitarbeitslosenquote
A7SD.PNG
Frequency    Stem &  Leaf

    8,00           1 .  01222366
    3,00           2 .  179
    4,00           3 .  2449
    5,00           4 .  01268
    4,00           5 .  0568
     ,00           6 .
    1,00           7 .  2
    2,00 Extremes    (>=10,3)

Stem width:      1,00
Each leaf:       1 case(s)
SPSS für Boxplot und Steam-and-Leaf Plot: → Analyze → Descriptive Statistics → Explore → man fügt die entsprechenden Variablen bei "Dependent List" ein und wählt im Feld "Display": Plots, dann wählt man im Untermenü "Plots": "Boxplots" - Factor levels together - und im Feld "Descriptive": Steam-and-Leaf. Nun verlässt man das Untermenü und drückt "OK" → es erscheinen die gewünschten Boxplots und Steam-and-Leaf Plots.


Nachdem man Ausreißer identifiziert hat, gilt es das weitere Verfahren mit diesen zu bestimmen. Man kann die Ausreißer eliminieren, ersetzen oder die weiteren Analysemethoden unter Einbezug und Ausschluss der Ausreißer durchführen, um die Auswirkungen der Ausreißer abzuschätzen (Vgl. Rönz 2001). Da eine Eliminierung auf Grund der relativ geringen Anzahl an Beobachtungswerten nicht sinnvoll erscheint und ein Ersetzen die Vielfalt der Ausprägungen reduzieren würde, werden die im Weiteren verwandten statistischen Methoden, wenn sich dadurch unterschiedliche Ergebnisse zeigen lassen, jeweils mit und ohne Einbeziehung der Ausreißer bei den beiden relevanten Variablen durchgeführt und präsentiert. Diese Entscheidung führt auch dazu, dass in dieser Arbeit weitere Verfahren zur Identifikation von Ausreißern wie Tests nicht durchgeführt und mögliche Werte zur Ersetzung nicht berechnet werden.

Verteilungsprüfung

Explorative Prüfung

Die Darstellung und Prüfung der empirischen Häufigkeitsverteilung ist ein weiterer notweniger Schritt bei der Datenanalyse, da eine Vielzahl statistischer Verfahren Voraussetzungen an die Verteilung stellen (Vgl. Rönz 2001). Zunächst wird anhand einer explorativen Analyse überprüft, ob die Variablen der Normalverteilung genügen. Dies wird anhand von "Histogrammen mit Normalverteilungskurve", "Q-Q Plots" und "Trendbereinigten Q-Q Plots" überprüft.

Bei einem "Histogramm" werden die nach der Größe geordneten Beobachtungswerte in Klassen mit bestimmten Klassengrenzen und -breiten eingeteilt und in Balken dargestellt. Die Höhe eines Balkens zeigt die absolute Häufigkeit der Beobachtungen der Klasse und die gesamte Fläche eines Balkens zeigt die relative Häufigkeit der Beobachtungen der Klasse im Bezug auf alle Beobachtungen. Wenn bei einem "Histogramm mit Normalverteilungskurve" der Verlauf der Balken dem Verlauf der eingeblendeten Normalverteilungskurve stark folgt, kann man davon ausgehen, dass eine Normalverteilung vorliegt.

Mit Hilfe der "Q-Q Plots" und der "Trendbereinigten Q-Q Plots" wird graphisch geprüft, ob die empirische Verteilung der jeweiligen Variablen der angenommenen Testverteilung, hier der Normalverteilung, entspricht. Während beim "Q-Q Plot" jeder beobachtete Wert mit seinem unter Normalverteilung erwarteten Wert gepaart dargestellt wird, werden beim "Trendbereinigten Q-Q Plot" die Abweichungen zwischen beobachteten und erwarteten Werten in Abhängigkeit von den beobachteten Werten dargestellt. Im exakten Normalverteilungsfall liegen beim "Q-Q Plot" die dargestellten Punkte auf der diagonalen Gerade und beim "Trendbereinigten Q-Q Plot" auf der horizontalen, durch den Nullpunkt laufenden Gerade (Vgl. Bühl 2006).


Schaubild 2: Verteilung
a) Wachstumsrate des realen BIP
Histogramm mit Normalverteilungskurve
Q-Q Plot
Trendbereinigter Q-Q Plot
b) Arbeitsproduktivität je geleisteter Arbeitsstunde
Histogramm mit Normalverteilungskurve
Q-Q Plot
Trendbereinigter Q-Q Plot
c) Öffentlicher Schuldenstand
Histogramm mit Normalverteilungskurve
Q-Q Plot
Trendbereinigter Q-Q Plot
d) Beschäftigungsquote
Histogramm mit Normalverteilungskurve
Q-Q Plot
Trendbereinigter Q-Q Plot
e) Bruttoinlandsausgaben für FuE (GERD)
Histogramm mit Normalverteilungskurve
Q-Q Plot
Trendbereinigter Q-Q Plot
f) Unternehmensinvestitionen
Histogramm mit Normalverteilungskurve
Q-Q Plot
Trendbereinigter Q-Q Plot
g) Langzeitarbeitslosenquote
Histogramm mit Normalverteilungskurve
Q-Q Plot
Trendbereinigter Q-Q Plot
h) Gesamtemissionen von Treibhausgasen
Histogramm mit Normalverteilungskurve
Q-Q Plot
Trendbereinigter Q-Q Plot
SPSS für Histogramm mit Normalverteilungskurve: → Analyze → Descriptive Statistics → Frequencies → man fügt die entsprechenden Variablen ein und wählt im Untermenü "Charts": Histograms - with normal curve. Nun verlässt man das Untermenü und drückt "OK" → es erscheinen die gewünschten Histogramme mit Normalverteilungskurve.
SPSS für Q-Q Plot und trendbereinigten Q-Q Plot: → Analyze → Descriptive Statistics → Explore → man fügt die entsprechenden Variablen bei "Dependent List" ein und wählt im Feld "Display": Plots, dann wählt man im Untermenü "Plots": Normality plots with tests. Nun verlässt man das Untermenü und drückt "OK" → es erscheinen die gewünschten Q-Q Plots und trendbereinigten Q-Q Plots.


Durch die in Schaubild 2 dargestellten "Histogramme mit Normalverteilungskurve", "Q-Q Plots" und "Trendbereinigten Q-Q Plots" kann nicht eindeutig geklärt werden, ob die Variablen normalverteilt sind. Nur die Variable 'Beschäftigungsquote', scheint nach dem "Histogramm mit Normalverteilungskurve" und nach dem "Q-Q Plot" annähernd normal verteilt zu sein. Um die bisherigen Ergebnisse der Verteilungsprüfung zu verfestigen und die Verteilung abschließend zu klären, werden nun die beiden Normalverteilungstests, "Kolmogorov-Smirnov-Test" und "Shapiro-Wilk-Test", durchgeführt. Die Prüfung der Verteilung ist im Weiteren bei den Parametervergleichen wichtig, da davon abhängt welche Verfahren sinnvoller Weise angewendet werden sollten.


Induktive Prüfung

Grundsätzlich kann der "Kolmogorov-Smirnov-Test" durchgeführt werden, wenn die zu untersuchende Variable metrisch skaliert und nicht klassiert ist. Dieser Test eignet sich auch bei einer kleinen Anzahl an Beobachtungswerten und prüft, wie groß die beobachteten absoluten Abweichungen der theoretischen von der empirischen Verteilungsfunktion sind. Erhält man beim "Kolmogorov-Smirnov-Test" als Ergebnis einen Signifikanzwert kleiner als 0.05, so weicht die gegebene Verteilung signifikant von der Normalverteilung ab (Vgl. Bleymüller/Gehlert/Gülicher 2002).

Der "Shapiro-Wilk-Test" in seiner Grundform ist gerade für eine besonders kleine Anzahl an Beobachtungswerten ausgelegt. Auch bei diesem Test gilt bei einem Signifikanzwert größer als 0.05, dass die untersuchte Variable als normalverteilt angesehen werden kann. Die genaue Ausgestaltung des Test respektive der Teststatistik kann in der Veröffentlichung "An analysis of variance test for normality" von Shapiro und Wilk (Vgl. Shapiro/Wilk 1965) nachgelesen werden.

Die in Schaubild 3 dargestellten Ergebnisse der beiden Tests auf Normalverteilung zeigen, dass beim "Kolmogorov-Smirnov-Test" die Nullhypothese für keine Variable abgelehnt werden kann. Somit gelten alle Variablen als normalverteilt. Hingegen muss man beim "Shapiro-Wilk-Test" bei einem Signifikanzniveau von 5% die Nullhypothese bei den Variablen 'Langzeitarbeitslosenquote' und 'Bruttoinlandsausgaben für FuE' ablehnen. Da der "Shapiro-Wilk-Test" für eine sehr kleine Anzahl von Beobachtungswerten, wie das hier der Fall ist, ausgelegt ist, wird nun festgelegt, welche Variablen im Weiteren statistischen Methoden unterzogen werden, die die Voraussetzung der Normalverteilung besitzen. So werden die Variablen 'Langzeitarbeitslosenquote' und 'Bruttoinlandsausgaben für FuE' als nicht normalverteilt angesehen. Außerdem wird angenommen, dass die Variable 'Unternehmensinvestitionen' nicht der Normalverteilung unterliegt, da auf Grund des Signifikanzwerts von 0.082 nur knapp die Nullhypothese angenommen wird. (Führt man die beiden Tests für die Variablen 'Unternehmensinvestitionen' und 'Langzeitarbeitslosenquote' unter Ausschluss der Ausreißer durch, ergibt sich in beiden Fälle und beiden Tests, dass sie der Normalverteilung genügen. Allerdings werden sie weiterhin nicht als normalverteilt angesehen, da die Signifikanzwerte im Vergleich zu den anderen Variablen beim "Shapiro-Wilk-Test" deutlich geringer sind und der Ausschluss auf Grund der kleinen Zahl an Beobachtungswerten den Informationsverlust nicht rechtfertigen würde. Durch die Anwendung statistischer Methoden ohne Verteilungsvoraussetzung können dann nämlich Aussagen bezüglich aller EU27-Länder getroffen werden.)


Schaubild 3: Tests auf Normalverteilung
                                           Kolmogorov-Smirnov(a)	         Shapiro-Wilk
                                         Statistic   df  Significance    Statistic     df  Significance
Wachstumsrate des realen BIP	            ,123     27     ,200(*) 	    ,956       27     ,301
Arbeitsproduktivität je 
     geleisteter Arbeitsstunde	            ,125     27     ,200(*)	    ,964       27     ,463
Öffentlicher Schuldenstand	            ,090     27     ,200(*)	    ,968       27     ,558
Beschäftigungsquote                         ,075     27     ,200(*)	    ,986       27     ,963
Bruttoinlandsausgaben für FuE	            ,143     27     ,166	    ,886       27     ,007
Unternehmensinvestitionen	            ,122     27     ,200(*)	    ,933       27     ,082
Langzeitarbeitslosenquote                   ,142     27     ,171            ,863       27     ,002
Gesamtemissionen von Treibhausgasen	    ,110     27     ,200(*)	    ,969       27     ,575

*	This is a lower bound of the true significance.
a	Lilliefors Significance Correction
SPSS für Kolmogorov-Smirnov-Test und Shapiro-Wilk-Test: → Analyze → Descriptive Statistics → Explore → man fügt die entsprechenden Variablen bei "Dependent List" ein und wählt im Feld "Display": Plots, dann wählt man im Untermenü "Plots": Normality plots with tests. Nun verlässt man das Untermenü und drückt "OK" → es erscheinen die gewünschten Ergebnisse des Kolmogorov-Smirnov-Tests und Shapiro-Wilk-Tests.

Parametervergleiche

Explorativer Vergleich

Zunächst sollen der Parameter Mittelwert in verschiedenen Gruppen anhand von Fehlerbalkendiagrammen graphisch analysiert werden. Hierzu ist es nötig eine geeignete Gruppierung durchzuführen. In dieser Arbeit wird die Gruppierung anhand der geographischen Lage vollzogen. Dies wird so gehandhabt, da der wirtschaftliche Entwicklungsstand und die Kultur als unterschiedlich angesehen werden. Die erste Gruppe besteht aus den folgenden acht kontinentaleuropäischen EU-Mitgliedsländern: Belgien, Niederlande, Irland, Deutschland, Frankreich, Vereinigtes Königreich, Österreich und Luxemburg. Die zweite Gruppe besteht aus den zehn osteuropäischen Ländern Lettland, Slowakei, Tschechische Republik, Polen, Slowenien, Litauen, Bulgarien, Rumänien, Ungarn und Estland. Die sechs EU27-Mitgliedsstaaten Spanien, Griechenland, Malta, Zypern, Italien und Portugal werden der Gruppe Südeuropa zugeordnet. Die verbleibenden drei Länder Schweden, Finnland und Dänemark werden als nordeuropäische Gruppe angesehen. Wie in Schaubild A2 im Anhang ersichtlich, verändern sich die im Folgenden getroffenen Aussagen bei Entfernung der Ausreißer nicht.


Schaubild 4: Mittelwertvergleich - Fehlerbalkendiagramme
a) Wachstumsrate des realen BIP b) Arbeitsproduktivität je geleisteter Arbeitsstunde c) Öffentlicher Schuldenstand d) Beschäftigungsquote
F1SD.PNG
F2SD.PNG
F3SD.PNG
F4SD.PNG
e) Bruttoinlandsausgaben für FuE (GERD) f) Unternehmensinvestitionen g) Langzeitarbeitslosenquote h) Gesamtemissionen von Treibhausgasen
F5SD.PNG
F6SD.PNG
F7SD.PNG
F8SD.PNG
SPSS für Fehlerbalkendiagramm: → Graphs → Legacy Dialogs → Error Bar → man wählt Simple und im Feld "Data in Chart Are" Summaries for groups of cases, dann drückt man "Define". Nun fügt die zu untersuchende Variable in das Feld "Variable" und eine Gruppierungsvariable in das Feld "Category Axis" ein und wählt im Feld "Bars Represent": Confidence interval for mean mit einem Level von 95%. Letztendlich drückt man "OK" → es erscheint das gewünschte Fehlerbalkendiagramm.


Die in Schaubild 4 dargestellten Fehlerbalkendiagramme veranschaulichen die Unterschiede zwischen den Mittelwerten der Gruppen bei einem 95% Konfidenzintervall für den Mittelwert. Bei der Variablen 'Wachstumsrate des realen BIP' bestehen nur zwischen den Gruppen Kontinental- und Nordeuropa sowie Ost- und Nordeuropa keine signifikante Unterschiede in den Mittelwerten, da sich die Konfidenzintervalle nicht überlappen. Auch ist zu beobachten, dass die verschiedenen Gruppen unterschiedlich starke Streuungen aufweisen. Bei den Variablen 'Arbeitsproduktivität je geleisteter Arbeitsstunde', 'Öffentlicher Schuldenstand' und 'Langzeitarbeitslosenquote' weichen nur die Mittelwerte der süd- und nordeuropäischen sowie kontinental- und südeuropäischen Länder signifikant voneinander ab. Bei den beiden Variablen 'Beschäftigungsquote' und 'Unternehmensinvestitionen' sind keine signifikanten Unterschiede der Mittelwerte der vier Gruppen zu erkennen. Die Mittelwerte der Gruppen der Variablen 'Bruttoinlandsausgaben für FuE (GERD)' unterscheiden sich zwischen Kontinental- und Südeuropa, Süd- und Nordeuropa sowie Ost- und Nordeuropa signifikant von einander. Bei der letzten zu betrachtenden Variablen 'Gesamtemissionen von Treibhausgasen' ist nur der Mittelwert der südeuropäischen Länder signifikant unterschiedlich zu den Mittelwerten der drei anderen Gruppen. So konnte insgesamt gezeigt werden, dass die Unterscheidung anhand der Mittelwerte bei einigen Variablen bezogen auf die verschiedenen Gruppen die gleichen sind.


Induktiver Vergleich

Die Prüfung der Gleichheit der Varianzen mittels des "Levene-Tests" und eine anschließende Prüfung der Gleichheit der Mittelwerte mittels Test sind bisher auf Grund der Anzahl der Länder (drei Länder) in der nordeuropäischen Gruppe in SPSS nicht möglich. Um diesem Umstand Rechnung zu tragen, wurde im Weiteren der Gruppe der nordeuropäischen Länder ein weiteres fiktives Land hinzugefügt, dessen Werte aus den arithmetischen Mitteln der Länder Dänemark, Finnland und Schweden bestehen.

Die für den Levene-Test nötigen Voraussetzungen sind nun erfüllt. Die Teststatistik von Levene entspricht der Anwendung einer einfachen Varianzanalyse auf die absoluten Differenzen. Somit steht im Zähler der Teststatistik die Summe der Abweichungsquadrate zwischen den Stichproben, die durch die Faktorvariable erklärt wird. Im Nenner steht die Summe der Abweichungsquadrate innerhalb der Stichprobe, die nicht durch die Wirkung der Faktorvariablen erklärt werden kann. Bei einem Signifikanzwert kleiner als 0.05, wird die Nullhypothese auf einem Signifikanzniveau von 5% verworfen, und die Stichproben stammen nicht aus Verteilungen mit verschiedenen Varianzen (Vgl. Rönz).

Die in Schaubild 5 dargestellten Ergebnisse des Levene-Tests zeigen, dass einzig bei der Variablen 'Wachstumsrate des realen BIP' auf Basis des "Means" und getrimmten "Means", und bei der Variablen 'Langzeitarbeitslosenquote (ohne Ausreißer)' auf Basis des "Means" die Stichproben aus Grundgesamtheiten mit verschiedenen Varianzen stammen.


Schaubild 5: Test der Gleichheit von Varianzen - Levene-Test (Bei den Variablen Unternehmensinvestitionen und Langzeitarbeitslosenquote sind die Signifikanzwerte in Klammern, die Werte ohne Ausreißer)
Levene Statistic df1 df2 Significance
Wachstumsrate des realen BIP Based on Mean 3.233 3 24 0.040
Based on Median 2.675 3 24 0.070
Based on Median and with adjusted df 2.675 3 22.730 0.071
Based on trimmed mean 3.260 3 24 0.039
Arbeitsproduktivität je geleisteter Arbeitsstunde Based on Mean 1.453 3 24 0.252
Based on Median 1.280 3 24 0.304
Based on Median and with adjusted df 1.280 3 14.396 0.319
Based on trimmed mean 1.346 3 24 0.283
Öffentlicher Schuldenstand Based on Mean 2.169 3 24 0.118
Based on Median 1.790 3 24 0.176
Based on Median and with adjusted df 1.790 3 16.699 0.188
Based on trimmed mean 2.149 3 24 0.120
Beschäftigungsquote Based on Mean 0.913 3 24 0.449
Based on Median 0.738 3 24 0.539
Based on Median and with adjusted df 0.738 3 19.763 0.542
Based on trimmed mean 0.913 3 24 0.449
Bruttoinlandsausgaben für FuE Based on Mean 0.276 3 24 0.842
Based on Median 0.225 3 24 0.878
Based on Median and with adjusted df 0.225 3 19.869 0.878
Based on trimmed mean 0.277 3 24 0.842
Unternehmensinvestitionen Based on Mean 1.318 (1.046) 3 24 (23) 0.292 (0.391)
Based on Median 1.287 (0.836) 3 24 (23) 0.302 (0.488)
Based on Median and with adjusted df 1.287 (0.836) 3 19.599 (19.360) 0.307 (0.490)
Based on trimmed mean 1.325 (1.056) 3 24 (23) 0.289 (0.387)
Langzeitarbeitslosenquote Based on Mean 3.074 (2.008) 3 24 (22) 0.047 (0.142)
Based on Median 1.233 (0.705) 3 24 (22) 0.319 (0.559)
Based on Median and with adjusted df 1.233 (0.705) 3 15.829 (16.469) 0.331 (0.563)
Based on trimmed mean 2.631 (1.861) 3 24 (22) 0.073 (0.166)
Gesamtemissionen von Treibhausgasen Based on Mean 0.854 3 24 0.478
Based on Median 0.783 3 24 0.515
Based on Median and with adjusted df 0.783 3 21.835 0.516
Based on trimmed mean 0.846 3 24 0.482
SPSS für Levene-Test: Analyze → Descriptive Statistics → Explore → man fügt die zu untersuchenden Variablen bei "Dependent List" und die Gruppierungsvariable bei "Factor List" ein, wählt im Feld "Display": Plots, dann wählt man im Untermenü "Plots" nur im Display "Spread vs. Level with Levene Test": Untransformed. Nun verlässt man das Untermenü und drückt "OK" → es erscheinen die Ergebnisse des gewünschten Levene-Test.


Die bisherigen Analysen zur Verteilung und Gleichheit der Varianzen lassen nur für die Variablen 'Arbeitsproduktivität je geleisteter Arbeitsstunde', 'Öffentlicher Schuldenstand', 'Beschäftigungsquote' und 'Gesamtemissionen von Treibhausgasen' einen Test der Mittelwerte mehrerer Grundgesamtheiten mittels ANOVA (analysis of variance) zu.

Die Ergebnisse der ANOVA in Schaubild 6, die die Gleichheit der Mittelwerte über die Analyse der Varianzen vollzieht, zeigen für alle vier Variablen, dass mindestens ein Mittelwertpaar der verschiedenen Gruppe unterschiedlich ist. Dies widerspricht nur den Erkenntnissen aus den Fehlerbalkendiagrammen für die Variable 'Beschäftigungsquote'.


Schaubild 6: Prüfung der Gleichheit der Mittelwerte mehrerer Grundgesamtheiten - ANOVA
Sum of Squares df Mean Square F Significane
Arbeitsproduktivität je geleisteter Arbeitsstunde Between Groups 24.220,481 3 8.073,494 36,380 0,000
Within Groups 5.326,168 24 221,924
Total 29.546,650 27
Öffentlicher Schuldenstand Between Groups 7.735,376 3 2.578,459 6,208 0,003
Within Groups 9.968,337 24 415,347
Total 17.703,713 27
Beschäftigungsquote Between Groups 532,241 3 177,414 8,088 0,001
Within Groups 526,466 24 21,936
Total 1.058,707 27
Gesamtemissionen von Treibhausgasen Between Groups 22.992,544 3 7.664,181 31,946 0,000
Within Groups 5.757,883 24 239,912
Total 28.750,427 27
SPSS für ANOVA: Analyze → Compare Menas → One-Way ANOVA → man fügt die zu untersuchenden Variablen bei "Dependent List" und die Gruppierungsvariable bei "Factor" ein, drückt "OK" → es erscheinen die Ergebnisse der ANOVA.

Fazit

Mit Hilfe der durchgeführten Analysen konnte gezeigt werden, dass nur bei den Variablen 'Unternehmensinvestitionen' und Langzeitarbeitslosenquote' Ausreißer vorhanden sind. Die bei der Verteilungsprüfung verwendeten Methoden lieferten zum Teil abweichende Ergebnisse. Letztendlich wurde eine Entscheidung bezüglich den Verteilungsannahmen anhand des "Shapiro-Wilk-Tests" getroffen, denn dieser eignet sich besonders für sehr kleine Stichproben. So wurden dadurch die Variablen 'Langzeitarbeitslosenquote', 'Bruttoinlandsausgaben für FuE' und 'Unternehmensinvestitionen' im Weiteren als nicht normalverteilt angesehen. Beim explorativen Parametervergleich der Mittelwerte anhand von "Fehlerbalkendiagrammen" zeigte sich, dass die einzelnen Gruppen bei mehreren Variablen unterschiedlich sind. Es konnte allerdings keine einheitliche Aussage über alle Variablen hinweg getroffen werden. Beim induktiven Parametervergleich konnte festgestellt werden, dass die meisten Variablen hinsichtlich der verschiedenen Gruppen aus Grundgesamtheiten mit nicht unterschiedlichen Varianzen stammen. Dies steht im Gegensatz zu den "Fehlerbalkendiagrammen" im Bezug auf die Streuung. Hingegen konnten mit Hilfe der "ANOVA" für die Mehrzahl der dabei untersuchten Variablen die Ergebnisse der "Fehlerbalkenanalyse" bestätigt werden.

Anhang

Schaubild A1: Variablen ohne Ausreißer - Boxplot
Wachstumsrate des realen BIP
Arbeitsproduktivität je geleisteter Arbeitsstunde
Öffentlicher Schuldenstand
Beschäftigungsquote - insgesamt
Bruttoinlandsausgaben für FuE (GERD)
Gesamtemissionen von Treibhausgasen


Schaubild A2: Variablen ohne Ausreißer - Fehlerbalkendiagramm
Unternehmensinvestitionen
Langzeitarbeitslosenquote

Literatur und Datenquelle

Bleymüller, J./ Gehlert, G./ Gülicher, H.: Statistik für Wirtschaftswissenschaftler, 13. Auflage., Vahlen, München.

Bühl, A. (2006): SPSS 14 - Einführung in die moderne Datenanalyse, 10. überarb. und erw. Auflage, Pearson Studium, München.

Europäische Kommission (2007): Introduction & presentation of SI, http://circa.europa.eu/Public/irc/dsis/structind/library?l=/general_information/presentation/presentationdoc/_EN_1.0_&a=d.

European Environment Agency (2004): Annual European Community greenhouse gas inventory 1990–2002 and inventory report 2004, in: Technical Report, No 2/2004.

Eurostat (2004a): Öffentlicher Finanzierungssaldo & Öffentlicher Schuldenstand, Eurostat Metadaten: Transitseite, http://europa.eu.int/estatref/info/sdds/de/strind/ecobac_gov_sm.htm, letzte Aktualisierung dieser Dokumentation am 10. Dezember 2004.

Eurostat (2004b): Bruttoinlandsausgaben für FuE, Eurostat-Metadaten im SDDS-Format: Die Methodik im Überblick, http://europa.eu.int/estatref/info/sdds/de/strind/innore_exp_sm.htm, letzte Aktualisierung dieser Dokumentation am 7. Dezember 2004.

Eurostat (2004c): Gesamtemissionen von Treibhausgasen, Eurostat Metadaten im SDDS Format: Basisinformation, http://europa.eu.int/estatref/info/sdds/de/strind/enviro_eg_base.htm, letzte Aktualisierung dieser Dokumentation am 16. November 2004.

Eurostat (2007a): Eurostat Strukturindikatoren - Gesamtwirtschaftlicher Hintergrund (ecobac), Eurostat Metadaten im SDDS Format: Die Methodik im Überblick, http://europa.eu.int/estatref/info/sdds/de/strind/ecobac_gdp_sm.htm, letzte Aktualisierung dieser Dokumentation am 06. September 2007.

Eurostat (2007b): Unternehmensinvestitionen, Eurostat Metadaten im SDDS Format: Die Methodik im Überblick, http://europa.eu.int/estatref/info/sdds/de/strind/ecoref_bi_sm.htm, letzte Aktualisierung dieser Dokumentation am 16. Oktober 2007.

Eurostat (2007c): Long-term unemployment, Eurostat Metadata in SDDS format: Summary Methodology, http://europa.eu.int/estatref/info/sdds/de/strind/socohe_ur_sm.htm, letzte Aktualisierung dieser Dokumentation am 21. Februar 2007.

Rönz, B. (2001): Skript Computergestützte Statistik I, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.

Shapiro, S. S./Wilk, M. B. (1965): An analysis of variance test for normality (complete samples), in: Biometrika, Vol. 52, No. 3/4, S.n591-611.