Analyse des Geopol-Datensatzes

From Teachwiki
Jump to: navigation, search

Einleitung[edit]

Die folgende Arbeit analysiert den Datensatz geopol.dat mit Hilfe des Softwarepaketes XploRe 4.0. Zunächst werden die vorliegenden Daten kurz beschrieben und die Zielstellung der Untersuchung erläutert. Anschließend erfolgt eine erste Analyse, die auf Basis grafischer Darstellungen einen erster Eindruck von den Daten vermitteln soll. Insbesondere wird hier auf die Problematik der Identifikation und Behandlung von Ausreißern eingegangen. Im darauf folgenden Kapitel, der deskriptiven Statistik, werden ausgewählte Variablen wie das Bruttoinlandsprodukts pro Kopf, dessen Untersuchung den Schwerpunkt der Arbeit darstellt, weiteren Analysen unterzogen. Den Hauptteil der Arbeit bildet die multivariate Analyse. Ausgehend von den einzelnen Korrelationen werden hier verschiedene Abhängigkeiten zwischen dem Bruttoinlandsprodukt pro Kopf und den übrigen Variablen in linearen und nicht-linearen Regressionen näher betrachtet. Eine Clusteranalyse bildet den letzten Teil der statistischen Untersuchung. Die Arbeit schliesst mit einem Fazit, in dem die gewonnenen Ergebnisse aller Analysemethoden zusammengefasst werden.

Datensatzbeschreibung und Zielstellung der Arbeit[edit]

Beschreibung des Datensatzes[edit]

Analysegegenstand der folgenden Untersuchung ist der Geopol-Datensatz, der auf der Homepage von MDBase zur Verfügung gestellt wird. In der Datenbank MDBase ist unter dem Namen geopol.xml auch eine vollständige Beschreibung des Datensatzes abgelegt.

10 Indikatoren
Bevölkerung
Bruttoinlandsprodukt pro Kopf
Bevölkerungswachstum in Prozent
Stadtbevölkerung in Prozent
Analphabetenquote in Prozent
Studentanteil in Prozent
Durchschnittliche Lebenserwartung in Jahren
Grad der Verfügbarkeit von Nahrungsmitteln
Anzahl der Zeitungen pro 1000 Einwohner
Anzahl der Fernsehgeräte pro 1000 Einwohner
41 OECD Mitgliedstaaten
South Africa Cameroon Gabun Kenia Thailand
Algeria Canada Greece Marokko USSR
Germany Chile Hong Kong Mexico USA
Great Britain China Hungary Norway Venezuela
Saudi Arabia Cuba India Peru Yugoslavia
Argentina Denmark Indonesia Poland
Australia Egypt Israel Portugal
Austria Spain Italia Sweden
Belgium France Japan Switzerland

Die Bereitstellung der Daten erfolgte durch die OECD, wobei das Bereitstellungsdatum nicht bekannt ist. Schätzungsweise liegt es um den Beginn der 1990er Jahre, da Deutschland als BRD mit 62 Mio. Einwohnern ausgewiesen ist.
Die Datenmatrix weist die Dimension 41\times 11 auf. Unter der ersten Variable sind 41 OECD Mitgliedsländer erfasst, abgebildet auf der rechten Seite. Es folgen zehn metrische Variablen, die als Indikatoren der in diesen Ländern vorherrschenden Lebensbedingungen aufgefasst werden können. Linkerhand sind diese untereinander aufgelistet. Ein Test der zehn metrischen Variablen auf NaN, Inf und –Inf zeigt, dass die Daten vollständig vorliegen. Die 41 Länder der ersten Spalte sind Abkürzungen für die Ländernamen und enthalten keine Zahlenwerte.

Zielstellung der Arbeit[edit]

Ziel der vorliegenden Arbeit ist die umfangreiche Analyse der Variable Bruttoinlandprodukts pro Kopf (BIP) und ihrer Abhängigkeiten mit anderen Variablen. Dabei wird das BIP sowohl als erklärende als auch als abhängige Variable untersucht. Des weiteren soll analysiert werden, ob sich Gruppen von Ländern identifizieren lassen.

Explorative Datenanalyse[edit]

Univariate Analyse[edit]

Abbildung 1

Die Betrachtung der Boxplots der zehn metrischen Variablen vermittelt einen ersten Eindruck vom vorliegenden Geopol-Datensatz. Dabei zeigt sich, dass nur bei zwei der zehn Variablen Ausreißer im Boxplot zu erkennen sind. Abbildung 1 stellt diese beiden Variablen, die Gesamtbevölkerung und den Studentenanteil in Prozent, grafisch dar. Bei der Gesamtbevölkerung lassen sich fünf Ausreißer erkennen, namentlich China, Indien, USSR, USA und Indonesien als bevölkerungsstärkste Länder der Stichprobe. Bei vier dieser fünf Ausreißer handelt es sich zudem um extreme Ausreißer. Bei der Variable Studentenanteil können zwei Ausreißer beobachtet werden: Kanada mit einem Wert von 6,89 % sowie die USA mit 5,01 %.

Abbildung 2
Zusammenfassend veranschaulicht Abbildung 2 die Boxplots der übrigen Variablen Bevölkerungswachstum, Anteil der Stadtbevölkerung, Analphabetenquote, Grad der Verfügbarkeit von Nahrungsmitteln, BIP pro Kopf, durchschnittliche Lebenserwartung, Anzahl von Zeitungen und Zeitschriften pro tausend Einwohner und Anzahl von Fernsehgeräten pro tausend Einwohner. Wie bereits oben erwähnt lassen sich hier keine Ausreißer identifizieren. Eine genauere Betrachtung der Boxplots in den Abbildungen 1 und 2 zeigt zudem, dass Median und Mittelwert der einzelnen Variablen, dargestellt durch die durchgezogenen und gestrichelten Linien innerhalb der Boxen, in allen Fällen mehr oder weniger stark voneinander abweichen. Auch die Längen der Barthaare auf den Unter- und Oberseiten der Boxen unterscheiden sich, abgesehen von der Variable Verfügbarkeit von Nahrungsmitteln, bei allen Variablen deutlich. Dies deutet darauf hin, dass die meisten der betrachteten Variablen eine schiefe Verteilung aufweisen. Zur weiteren Veranschaulichung werden in Abbildung 3 die durchschnittsverschobenen (average shifted) Histogramme aller Variablen betrachtet.
Abbildung 3

Abbildung 3 bestätigt den Eindruck der Boxplots, dass die Variablen schiefe Verteilungen erkennen lassen. Zudem zeigt sich, dass bei einigen Variablen bi- oder sogar multimodale Verteilungen auftreten. Insgesamt vermitteln die Kurven den Eindruck, dass für alle Variablen die Normalverteilung ausgeschlossen werden kann.

Abbildung 4

Abbildung 4 stellt zusammenfassend die Verteilung des BIPs pro Kopf, das in der vorliegenden Arbeit schwerpunktmäßig analysiert werden soll, in einem Boxplot, einem Histogramm, einer Punktwolke und einem Quantil-Quantil-Plot, dem eine Normalverteilung zugrunde liegt, dar. Insgesamt wird der Eindruck einer schiefen Verteilung des BIPs, genauer gesagt einer rechtsschiefen Verteilung, bestätigt. Einerseits unterscheidet sich die Länge der beiden Barthaare im Boxplot deutlich voneinander. Andererseits verdeutlichen auch das Histogramm und die Punktwolke, dass viele Länder ein eher geringes BIP pro Kopf aufweisen, während bei einigen Ländern ein höheres BIP zu beobachten ist. Aus dem Quantil-Quantil-Plot ist eindeutig zu erkennen, dass die Variable BIP pro Kopf keiner Normalverteilung folgt. Auch die Tatsache, dass im Histogramm zwei lokale Maxima auftreten, untermauert diese Vermutung. Die bimodale Verteilung des BIPs kann dabei als erster Anhaltspunkt für eine mögliche Gruppenbildung innerhalb der Stichprobe angesehen werden, die im Kapitel Clusteranalyse näher untersucht wird.

Bivariate Analyse[edit]

Um die Fragestellung nach der Behandlung der identifizierten Ausreißer zu beantworten, gilt es zu überprüfen, ob die in den Variablen Gesamtbevölkerung und Studentenanteil auftretenden Ausreißer auch in den anderen Variablen Ausreißer darstellen. Da in den Boxplots insgesamt in nur zwei Dimensionen überhaupt Ausreißer beobachtet werden konnten, kann dies vermutlich verneint werden. Der weiteren Analyse liegt die folgende Vorgehensweise zugrunde: Ist bekannt, dass in einer Variable Ausreißer auftreten, wird die Scatterplot-Matrix mit allen anderen Variablen betrachtet, wobei die Ausreißer der Ausgangsvariable rot eingefärbt werden. Sind die identifizierten Ausreißer auch in anderen Dimensionen Ausreißer, werden sich die eingefärbten Punkte in den entsprechenden Scatterplots der Matrix außerhalb der Punktwolken befinden.

Abbildung 5
Abbildung 6

Zunächst sei die Variable Bevölkerung betrachtet. Abbildung 5 auf der linken Seite stellt die Scatterplot-Matrix aller anderen Variablen dar. Die Ausreißer-Länder China, Indien, USSR, USA und Indonesien sind dabei in rot von den übrigen Ländern des Datensatzes abgesetzt. Eine genaue Betrachtung der Scatterplot-Matrix zeigt, dass die rot eingefärbten Punkte zumeist innerhalb der Punktwolke der einzelnen Scatterplots liegen. Abbildung 6 veranschaulicht die entsprechende Scatterplot-Matrix für die Ausreißer der Variable Studentenanteil. Hierbei sind die Länder Kanada und USA rot eingefärbt. Auch hier ist erkennbar, dass sich die roten Punkte zumeist innerhalb der Punktwolken befinden.

Zusammenfassend sprechen die Ergbnisse der obigen Analyse somit gegen einen Ausschluß der Ausreißer aus der Datengrundlage. Zudem sind noch weitere Argumente zu berücksichtigen. Zum einen ist der Umfang der Daten mit ohnehin nur 41 Beobachtungen eher gering. Eine Reduktion der Datengrundlage würde eine fundierte Analyse daher weiter erschweren. Zum anderen würden bei einer Elimination der bevölkerungsstärksten Länder wichtige Daten verloren gehen, da die fünf Ausreißer China, Indien, USSR, USA und Indonesien einen Anteil von über 70 % an der Gesamtbevölkerung der Stichprobe ausmachen. Außerdem hat die univariate Analyse gezeigt, dass bei allen Variablen schiefe Verteilungen auftreten. Insbesondere weist die Variable Bevölkerung eine extrem rechtsschiefe Verteilung auf (auch ohne die Ausreißer beträgt die Schiefheit 1,6, mit Ausreißern 3,7). Ausreißer am rechten Ende der Skala könnten somit auch normaler Bestandteil der Verteilung der Variable sein. Aufgrund der oben dargelegten Argumente werden die identifizierten Ausreißer somit nicht aus der Stichprobe eliminiert.

Die Scatterplot-Matrizen dienen jedoch als Teil der bivariaten Untersuchung nicht nur zur Ausreißer-Analyse. Vielmehr werden durch die Darstellung der bivariaten Verteilung erste Eindrücke über Zusammenhänge verschiedener Variablen vermittelt. Die Spalten und Zeilen des BIP pro Kopf, das in den folgenden Kapiteln näher analysiert wird, liefert dabei grundlegende Informationen über Abhängigkeiten zwischen dieser und den übrigen Variablen. Eine detaillierte Untersuchung diesbezüglich findet sich in Kapitel 5. Zunächst soll das BIP pro Kopf jedoch in der deskriptiven Statistik einer weiteren univariaten Analyse unterzogen werden.

Deskriptive Statistik[edit]

Mit der beschreibenden Statistik werden für die in der explorativen Analyse grafisch gewonnenen Ergebnisse Zahlenwerte ermittelt. So ergibt die deskriptive Analyse des BIP pro Kopf eine Spannweite von $ 25708 pro Einwohner. Dabei nimmt das BIP Indiens mit $ 317 den niedrigsten Wert an, während der Schweiz mit $ 26025 pro Einwohner der höchste Wert zuzuordnen ist. Das arithmetische Mittel beziffert sich auf $ 8634,32 pro Kopf und ist damit ungefähr doppelt so hoch wie der Median von $ 4304 pro Kopf, was ebenfalls auf eine schiefe Verteilung der Variable hindeutet.

Aus der univariaten Analyse waren deutlich die in den durchschnittsverschobenen Histogrammen sehr schiefen Verteilungen aller Variablen zu erkennen. Das Aussehen jeder einzelnen Verteilung spricht dabei gegen eine Normalverteilung der jeweiligen Variable. Zur weiteren Analyse sollen die Mediane und Mittelwerte der einzelnen Variablen verglichen werden. Tabelle 1 zeigt, dass die arithmetischen Mittelwerte in allen Variablen mehr oder weniger stark von den entsprechenden Medianen abweichen. Besonders große Differenzen weisen beispielsweise die Variablen Bevölkerung und BIP pro Kopf auf.

                                    Minimum   Maximum         Mean   	 Median      Std.Error
--------------------------------------------------------------------------------------------------------------------------------
Bevölkerung                    	     1.1       1119           89.104       23.88        212.84
BIP pro Kopf                 	   317        26025         8634.3       4304          8388.3
Bevölkerungswachstum                -0.1          4            1.2741       0.9           1.0861
Anteil der Stadtbev.                21.4        100           65.312       70.2          21.787
Analphabetenquote                    0.5         78.6         19.237        8.2          23.298
Anteil der Studenten                 0.11         6.89         1.9049       1.89          1.2496
durchschn. Lebenserw.               52           78           69.634       72             7.4086
Verf. v. Nahrungsmitteln            88          150          122.98       125            15.145
Anzahl Zeitungen                     6          585          199.76       124           187.69
Anzahl Fernseher                     6          812          271.34       247           206.61                         Tabelle 1	

Schlussfolgernd aus der bisherigen deskriptiven Analyse kann für keine der Variablen eine Normalverteilung angenommen werden. Noch eindeutigere Belege liefern Skewness- und Kurtosiskoeffizient. Für das BIP pro Kopf beträgt der für die Schiefe der Verteilung angegebene Skewnesskoeffizient 0,606953, der Kurtosiskoeffizient, der die Wölbung der Verteilung beschreibt, nimmt beim BIP einen Wert von 1.73514 an.

Um die Variablen auf eine Normalverteilung zu testen, kann an die beschreibende Staistik noch eine induktive Statistik knüpfen. Für eine normalverteilte Variable haben die Skewness- und Kurtosiskoeffizienten die Werte 0 und 3. Zur Überprüfung einer vorliegenden Normalverteilung dient der Jarque-Bera Test. Dieser Test überprüft die Nullhypothese, ob eine Normalverteilung mit dem Skewnesskoeffizienten von 0 und dem Kurtosiskoeffizienten von 3 vorliegt. Die Teststatistik ist definiert durch:

 JB = \frac{N}{6}\times s^2 + \frac{N}{24}\times(k - 3)^2,

mit s als Skewnesskoeffizient, k als Kurtosiskoeffizient und N als Anzahl der Beobachtungen. Unter der Nullhypothese ist die Teststatistik approximativ {\chi}^2–verteilt mit zwei Freiheitsgraden. Der ausgegebene Wert für das BIP pro Kopf beträgt 5,2505 und übersteigt damit 4,61 als kritischen Wert der {\chi}^2-Verteilung mit zwei Freiheitsgraden auf einem 10 Prozent Signifikanzlevel. Somit wird die Nullhypothese auf einem Signifikanzlevel von 10 Prozent abgelehnt. Hingegen kann bei den Variablen Bevölkerungswachstum, Stadtbevölkerung, Grad der Verfügbarkeit von Nahrungsmitteln und Fernsehgeräte pro 1000 Einwohner die Nullhypothese einer Normalverteilung auf einem Signifikanzlevel von 10 Prozent nicht abgelehnt werden. Problematisch bei diesem Test ist beim vorliegenden Datensatz der Stichprobenumfang. Da hier nur 41 Beobachtungen vorliegen, kann nur von einem ungenauen Ergebnis ausgegangen werden. Auch bei einem Test auf Leptokurtosis, der unter der Nullhypothese den Kurtosiskoeffizienten auf den Wert der Normalverteilung testet (H_{0}: k = 3), kann für das BIP pro Kopf ein nichtnormaler Koeffizient auf einem Signifikanzlevel von 10 Prozent festgestellt werden. Der für die Teststatistik

 L = \frac{N}{24}\times(k - 3)^2,

berechnete Wert 2,7331 ist größer als 2,71, der kritischer Wert der {\chi}^2-Verteilung mit einem Freiheitsgrad. Die Nullhypothese wird damit auf einem Signifikanzlevel von 10 Prozent verworfen. Die Ergebnisse der deskriptiven Analyse lassen somit auf nicht normalverteilte Grundgesamtheiten der Variablen schließen. Gefestigt werden die Resultate für die Variablen Bevölkerung, BIP pro Kopf, Analphabetenrate, Studentenanteil, Lebenserwartung und Anteil der Zeitungen und Zeitschriften auf 1000 Einwohner, durch die Analyse mittels des Jarque-Bera Tests.

Multivariate Analyse[edit]

Allgemeines[edit]

Ziel der folgenden multivariaten Analyse ist es, die Abhängigkeiten der einzelnen Variablen untereinander näher zu untersuchen. Zunächst erfolgt eine kurze Betrachtung der Korrelationsmatrix. In einer einfachen linearen Regression wird anschließend der Einfluß des Bruttoinlandsproduktes auf die anderen Variablen am Beispiel der durchschnittlichen Lebenserwartung genauer analysiert. Eine nicht-lineare Regression zeigt, dass sich die Ergebnisse durch eine geeignete Transformation verbessern lassen. Der letzte Teil dieses Kapitels widmet sich der Fragestellung nach einem Modell, in dem das Bruttoinlandsprodukt durch die anderen Variablen erklärt wird.

Korrelationen[edit]

Im Hinblick auf die Untersuchung des BIP pro Kopf und ihrer Wirkung auf andere Variablen soll zunächst auf die Korrelationen zwischen den einzelnen Variablen eingegangen werden. Diese sind in der nachfolgenden Korrelationsmatrix dargestellt.

Bevölk BIP/Kopf Bev.wa Stadtbev Analpha Student Lebens Nahrung Zeitung TV
B 1 -0.1963 0.02229 -0.43228 0.19736 -0.2311 -0.1675 -0.1913 -0.14844 -0.19298
BIP -0.1963 1 -0.60166 0.52668 -0.59087 0.60986 0.69098 0.3997 0.80045 0.84492
BW 0.02229 -0.60166 1 -0.43795 0.78256 -0.42582 -0.8391 -0.66713 -0.65121 -0.64667
ASB -0.43228 0.52668 -0.43795 1 -0.58675 0.53137 0.60408 0.40072 0.54992 0.58358
AA 0.19736 -0.59087 0.78256 -0.58675 1 -0.6214 -0.8555 -0.56456 -0.61084 -0.70487
AST -0.2311 0.60986 -0.42582 0.53137 -0.6214 1 0.62397 0.44712 0.40443 0.71007
LE -0.1675 0.69098 -0.83918 0.60408 -0.8555 0.62397 1 0.6289 0.65325 0.71100
GVN -0.1913 0.3997 -0.66713 0.40072 -0.56456 0.44712 0.6289 1 0.3526 0.59245
ZZ -0.14844 0.80045 -0.65121 0.54992 -0.61084 0.40443 0.65325 0.3526 1 0.72836
TV -0.19298 0.84492 -0.64667 0.58358 -0.70487 0.71007 0.711 0.59245 0.72836 1

Fett gedruckte Werte in der Spalte BIP pro Kopf geben die (betragsmäßig) größten Korrelationen zum Bruttoinlandsprodukt pro Kopf für die Variablen Studentenanteil (AST), durchschnittliche Lebenserwartung (LE), Anzahl an Zeitungen und Zeitschriften pro 1000 Einwohner (ZZ), sowie Anzahl an Fernsehgeräten pro 1000 Einwohner (TV) an. Die beiden letzten Variablen sind mit Werten von 80,045 % und 84,492 % dabei am stärksten mit dem BIP pro Kopf korreliert.

Einfache lineare und nicht-lineare Regression[edit]

Abbildung 7

Die Höhe des Bruttoinlandsproduktes pro Kopf hat einen großen Einfluss auf andere makroökonomische Größen eines Landes. Im Folgenden soll beispielhaft der Zusammenhang zwischen BIP und der durchschnittlichen Lebenserwartung auf Basis des gegebenen Datensatzes näher untersucht werden. Eine einfache lineare Regression liefert zunächst folgendes Modell, das in Abbildung 7 veranschaulicht wird:

\hat{Y}(x) = 0,00061 x + 64,37

Dabei bezeichnet X das BIP pro Kopf als erklärende Variable und Y die durchschnittliche Lebenserwartung als abhängige Variable. Es wird eine positiver Zusammenhang zwischen den Variablen unterstellt.

Bei näherer Betrachtung der Punkte im Scatterplot erscheint es zutreffend, eine positive Abhängigkeit zwischen dem BIP und der Lebenserwartung anzunehmen. Auch theoretisch ist dies plausibel, da mit einem höheren BIP vermutlich auch eine verbesserte Hygiene und eine bessere medizinische Versorgung einhergeht. Ob die Unterstellung eines linearen Zusammenhangs die Beziehung der untersuchten Variablen zutreffend abbildet, erscheint jedoch fraglich. Befindet sich das BIP in einem Land auf einem sehr geringen Niveau, zeigt sich dort zwar auch eine verhältnismäßig geringe Lebenserwartung. Durch einen kleinen Anstieg des BIPs verbessert sich die Situation jedoch bereits erheblich im Hinblick darauf, dass die durchschnittliche Lebenserwartung vergleichsweise stark ansteigt. Je höher das Niveau des BIPs ist, desto geringer scheint der Einfluß auf die Lebenserwartung auszufallen. Auch dies kann theoretisch nachvollzogen werden. Eine Volkswirtschaft wird zunächst in die wichtigsten Institutionen wie zum Beispiel Trinkwasseraufbereitungsanlagen investieren, was große Auswirkungen auf die Lebenserwartung hat. Hat eine Volkswirtschaft hingegen ein gewisses Wohlstandniveau erreicht, wird es zunehmend schwerer, die Lebenserwartung der Bevölkerung zu vergrößern. Abbildung 8, in der die Konturlinien einer zweidimensionalen Dichteschätzung der untersuchten Variablen dargestellt werden, untermauert die obigen Überlegungen.

Abbildung 8
Abbildung 9

Es ist somit zu untersuchen, ob eine geeignete Transformation der Variablen ein verbessertes Modell liefern kann. Aufgrund des dargelegten Zusammenhangs einer abnehmenden Steigung bietet sich insbesondere eine Logarithmus-Transformation der Variable Bruttoinlandsprodukt pro Kopf an. Hierdurch ergibt sich folgendes Modell:

\hat{Y}(x) = 4,08 ln(x) + 35,47

Abbildung 9 zeigt, dass sich die resultierende Logarithmus-Kurve im zugrundeliegenden Datensatz besser zur Modellierung des Zusammenhanges der beiden betrachteten Variablen eignet als die Gerade in Abbildung 7. Ein Vergleich der Bestimmtheitsmaße der linearen und nicht-linearen Regression bestätigt diesen Eindruck. Durch die Logarithmus-Transformation des BIPs kann die Qualität des Modells von R^2 = 47,745 % auf R^2 = 55,903 % verbessert werden. Fast 56 % der Variationen der Variable Lebenserwartung können somit durch das verbesserte Modell erklärt werden.

Vor einer Verallgemeinerung des entwickelten Modells sind jedoch zunächst weitere theoretische Überlegungen anzustellen. Insbesondere muss darauf hingewiesen werden, dass die Logarithmus-Transformation der Variable Bruttoinlandsprodukt nach Betrachtung des Scatterplots der beiden Variablen vorgenommen wurde und somit nicht auf einer theoretischen Analyse basiert, sondern lediglich durch derartige Überlegungen begründet wurde. Es darf daher nicht die Schlußfolgerung gezogen werden, dass zwischen den Größen BIP pro Kopf und durchschnittliche Lebenserwartung generell ein logarithmischer Zusammenhang auftritt.

Zudem ist denkbar, dass auch die Höhe der durchschnittlichen Lebenserwartung eines Landes Einfluss auf die Höhe seines BIPs pro Kopf hat, zum Beispiel, wenn eine höhere durchschnittliche Lebenserwartung mit einer höheren durchschnittlichen Lebensarbeitszeit einhergeht. Das Modell darf somit nicht derart verstanden werden, dass die Lebenserwartung ausschließlich als endogene Größe auftritt, die durch die exogene Größe Bruttoinlandsprodukt erklärt wird. Vielmehr soll aufgezeigt werden, dass die Entwicklung eines geeigneten Modells dazu dienen kann, Rückschlüsse auf eine Variable (in diesem Fall die durchschnittliche Lebenserwartung) zu ziehen, wenn nur Informationen über eine andere Variable (in diesem Fall das BIP pro Kopf) zur Verfügung stehen.

Um die Qualität des vorliegenden Modells, gemessen durch das Bestimmtheitsmaß R^2, weiter zu verbessern, ist eine Spezifizierung der Logarithmus-Transformation durch das Einfügen einer additiven Konstante innerhalb der Logarithmus-Funktion denkbar. Hierdurch verändert sich die Transformation von ln(X) zu ln(X+c). Ein geeignetes c kann durch Probieren verschiedener Werte ermittelt werden, was durch die Prozedur bestlogtrans erleichtert werden soll. Nach Eingabe eines Startwertes und eines Endwertes für c sowie einer Zahl, die angibt, um welchen Betrag c schrittweise erhöht werden soll, berechnet die Prozedur für alle Werte von c innerhalb des vorgegebenen Intervalls das Bestimmmtheitsmaß R^2 der sich ergebenen besten Regression und liefert als Ergebnis das Modell, bei dem das R^2 maximal war. Nach jeder Ausführung der Prozedur kann das Intervall für c vom Benutzer eingeschränkt und die Feinheit entsprechend angepasst werden. Nach wenigen Durchführungen resultiert ein hinreichend genaues c, das R^2 maximiert. Folgendes Programm stellt den XploRe-Code der Prozendur bestlogtrans dar:

library("stats")

proc(rsqu) = calcrsqu(x,y,beta) ;Berechnung von R^2
  ymean = mean(y)
  ytild = beta[2]*x + beta[1]
  n = rows(x)
  zaehler = 0
  i = 1
  while (i <= n)
    zaehler = zaehler + (ytild[i]-ymean)^2
    i = i + 1
  endo
  nenner = 0
  i = 1
  while (i <= n)
    nenner = nenner + (y[i]-ymean)^2
    i = i+1
  endo
  rsqu = zaehler/nenner
endp

proc() = bestlogtrans(x,y,start,end,interval)
  xglob = x
  rglob = 0
  cglob = 0
  c = start
  while (c <= end)
    xtmp = log(x+c)
    {beta,bse,bstan,bpval}=linreg(xtmp,y,"notext")
    r = calcrsqu(xtmp,y,beta)
    if (r > rglob)
      xglob = xtmp
      rglob = r
      cglob = c
    endif
    c = c + interval
  endo
  {beta,bse,bstan,bpval}=linreg(xglob,y)
  if (beta[1] > 0)
    "Y = " + string("%0.2f",beta[2]) + " * ln(X + " + string("%0.1f",cglob) + ") + " + string("%0.2f",beta[1])
  endif
  if (beta[1] <= 0)
    "Y = " + string("%0.2f",beta[2]) + " * ln(X + " + string("%0.1f",cglob) + ") " + string("%0.2f",beta[1])
  endif
  cglob
  rglob  
endp

data = read("geopol")
data = data[,2:11]

x = data[,2]
y = data[,7]

bestlogtrans(x,y,-min(x)+1,10000,50)

;bestlogtrans(x,y,150,250,1)

;bestlogtrans(x,y,183,185,0.1)
Abbildung 10
Im vorliegenden Fall ergibt sich ein c von 184 und folgendes Modell:

\hat{Y}(x) = 4.41 ln(x+184) + 32,35

Abbildung 10 stellt die modifizierte Logarithmus-Funktion (rot) im Vergleich zur obigen, aus Abbildung 9 bekannten Logarithmus-Kurve (blau) dar. Es ist deutlich erkennbar, dass sich die beiden Logartihmus-Kurven nur geringfügig unterscheiden. Auch das Bestimmtheitsmaß R^2 erhöht sich nur unwesentlich von 55,903 % auf 55,997 %. Insgesamt kann die vorgenommene Modifikation der Logarithmus-Transformation im vorliegenden Fall das Modell nicht weiter verbessern. Insbesondere im Hinblick auf die theoretische Interpretation erscheint es schwierig, plausibel zu begründen, warum zu den Werten für das BIP vor der Logarithmus-Transformation ein Betrag von 184 hinzuzuaddieren ist.

Im Allgemeinen kann eine möglichst genaue Spezifikation einer nicht-linearen Transformation jedoch die Qualität eines Modells erheblich verbessern oder eine sinnvolle nicht-lineare Transformation überhaupt erst ermöglichen. Beispielhaft soll hier kurz auf den Zusammenhang zwischen den beiden Variablen Bruttoinlandsprodukt pro Kopf (als erklärende Variable) und Anteil der Stadtbevölkerung (als abhängige Variable) eingegangen werden. Theoretische Überlegungen wie die Fragestellung, ob die vorgenommenen nicht-linearen Transformationen überhaupt zweckmäßig sind, werden dabei vollkommen vernachlässigt. Vielmehr dienen die Daten ausschließlich als Zahlenbeispiel.

Abbildung 11
Abbildung 12
Abbildung 11 zeigt die gemeinsame Verteilung der Variablen Bruttoinlandsprodukt und Stadtbevölkerung in einem Scatterplot und zwei lineare beziehungsweise nicht-lineare Regressionskurven. Die schwarze Gerade stellt das Ergebnis der einfachen linearen Regression dar. Es ergibt sich ein R^2 von 27,739 %. Die blaue Kurve ist das Resultat der Regression, nachdem die Werte des BIPs einfach quadriert wurden. Das dazugehörige R^2 von 16,764 % lässt erkennen, dass diese einfache Transformation nicht für die Modellierung des Zusammenhangs geeignet ist. Eine Erweiterung der Transformation von X^2 zu (X+c)^2 ermöglicht es hingegen, auch den Scheitelpunkt einer quadratischen Funktion zu verändern.1 Die Prozedur bestsqtrans, die analog zur oben beschriebenen Prozedur bestlogtrans vorgeht, liefert nach wenigen Durchführungen ein geeignetes c von -14490. Das Ergebnis der linearen Regression ist die Funktion

\hat{Y}(x) = -0,00000021 (x-14490)^2 + 87

wobei hier X das BIP pro Kopf und Y den Anteil der Stadtbevölkerung bezeichnet. Der Wert des Bestimmtheitsmaßes R^2 von 46,997 % bestätigt, dass sich das neue Modell besser zur Beschreibung des Zusammenhangs der Variablen eignet. Abbildung 12 veranschaulicht dieses Resultat.

Es sei jedoch wiederholt darauf hingewiesen, dass bei einer nicht-linearen Transformation von Variablen stets geprüft werden muss, ob die jeweilige Transformation auch theoretisch begründbar ist, da sonst die Gefahr besteht, ein Modell zu stark an die Daten einer Stichprobe anzupassen. Insbesondere vor einer Verallgemeinerung eines Modells sollten umfangreiche theoretische und empirische Analysen durchgeführt werden.

1 Alternativ könnte hier auch eine multiple Regression mit der untransformierten Variable X und der quadrierten Variable X^2 vorgenommen werden, um das gleiche Resultat zu erzielen. Dies ist jedoch nicht bei jeder beliebigen Transformation (wie zum Beispiel der Logarithmus-Transformation) möglich. Da an dieser Stelle allgemein gezeigt werden soll, wie eine Transformation verbessert werden kann, wird hier eine einfache Regression nach Transformation durch (X+c)² durchgeführt, auch wenn dies im vorliegenden Fall etwas umständlicher ist. Ein Vorteil der obigen Vorgehensweise ist, dass die Lage des Scheitelpunktes unmittelbar am optimalen Wert für c ablesbar ist.

Multiple lineare und nicht-lineare Regression[edit]

Im folgenden Abschnitt wird das Bruttoinlandsprodukt pro Kopf als abhängige Variable näher untersucht. Insbesondere soll ein geeignetes Modell zur Erklärung des BIPs gefunden werden. Analog zu Abschnitt 5.3 darf ein Modell dabei nicht so verstanden werden, dass das BIP als endogene Variable auftritt. Stattdessen soll das gefundene Modell Rückschlüsse auf die Höhe des BIP eines Landes ermöglichen, wenn nur Informationen über andere Variablen gegeben sind. Zur Erleichterung der Analyse erfolgen vorab die nachstehenden Definitionen:

Erklärende Variablen
X_{1}: Bevölkerung
X_{2}: Bevölkerungswachstum in Prozent
X_{3}: Anteil der Stadtbevölkerung in Prozent
X_{4}: Anteil der Analphabeten an der Bevölkerung in Prozent
X_{5}: Anteil der Studenten an der Bevölkerung in Prozent
X_{6}: Durchschnittliche Lebenserwartung in Jahren
X_{7}: Grad der Verfügbarkeit von Nahrungsmitteln in Prozent
X_{8}: Anzahl der Zeitungen und Zeitschriften pro 1000 Einwohner
X_{9}: Anzahl der Fernsehgeräte pro 1000 Einwohner
Abhängige Variable
Y: Bruttoinlandsprodukt pro Kopf

Eine multiple Regression mit allen zur Verfügung stehenden Variablen X_{1} bis X_{9} liefert zunächst folgendes Modell

\hat{Y}(x) = -2,98x_{1}-399,65x_{2}-30,16x_{3}+110,53x_{4}+748,01x_{5}+384,72x_{6}-100,18x_{7}+15,91x_{8}+23,80x_{9}-16278,27

mit einem Bestimmtheitsmaß R^2 von 83,395 % und einem angepassten R^2 von 78,574 % . Die ANOVA ist in Tabelle 2 dargestellt.

Contents of out
[ 1,] ""
[ 2,] "A  N  O  V  A                   SS         df      MSS             F-test    P-value"
[ 3,] "____________________________________________________________________________________"
[ 4,] "Regression                2347163180.713    9  260795908.968       17.299     0.0000"
[ 5,] "Residuals                  467349948.165   31   15075804.780                        "
[ 6,] "Total Variation           2814513128.878   40   70362828.222                        "
[ 7,] ""
[ 8,] "Multiple R      = 0.91321"
[ 9,] "R^2             = 0.83395"
[10,] "Adjusted R^2    = 0.78574"
[11,] "Standard Error  = 3882.75737"
[12,] ""
[13,] ""
[14,] "PARAMETERS         Beta         SE         StandB           t-test        P-value"
[15,] "_________________________________________________________________________________"
[16,] "b[ 0,]=     -16278.2687     16546.1451       0.0000        -0.984          0.3328"
[17,] "b[ 1,]=         -2.9785         3.3531      -0.0756        -0.888          0.3812"
[18,] "b[ 2,]=       -399.6545      1332.9195      -0.0517        -0.300          0.7663"
[19,] "b[ 3,]=        -30.1557        41.9543      -0.0783        -0.719          0.4776"
[20,] "b[ 4,]=        110.5347        56.0991       0.3070         1.970          0.0578"
[21,] "b[ 5,]=        748.0141       813.0383       0.1114         0.920          0.3646"
[22,] "b[ 6,]=        384.7173       208.9623       0.3398         1.841          0.0752"
[23,] "b[ 7,]=       -100.1761        63.1585      -0.1809        -1.586          0.1228"
[24,] "b[ 8,]=         15.9075         5.8977       0.3559         2.697          0.0112"
[25,] "b[ 9,]=         23.7991         6.4180       0.5862         3.708          0.0008"

                                                                                Tabelle 2

Eine genauere Betrachtung zeigt jedoch, dass nur die P-Werte der Variablen X_{8} und X_{9} kleiner als 5 % sind, während alle übrigen Variablen höhere P-Werte aufweisen. Da die Parameter dieser Variablen zum Signifikanzniveau von 5 % nicht statistisch signifikant von null verschieden sind, sollte überprüft werden, inwiefern diese Variablen überhaupt in einem Modell zur Erklärung von Y verwendet werden sollten. XploRe bietet die drei Quantlets linregfs2, linregbs und linregstep, die bei der Durchführung einer multiplen linearen Regression nach verschiedenen Vorgehensweisen und Kriterien berücksichtigen, ob eine Variable in ein Modell miteinbezogen werden soll (vgl. Härdle/Klinke/Müller, 2000, S. 143ff.). Die Anwendung der Quantlets linregfs2 und linregstep liefert mit den Standardeinstellung im vorliegenden Fall folgendes Ergebnis

\hat{Y}(x) = 17,62x_{8}+22,65x_{9}-1029,95,

wobei das Bestimmtheitsmaß R^2 einen Wert von 78,682 % und das angepasste R^2 einen Wert von 77,560 % annimmt. Die P-Werte der beiden verwendeten Variablen liegen deutlich unter dem 5 % Niveau (vgl. Tabelle 3).

Contents of ANOVA
[ 1,] ""
[ 2,] "A  N  O  V  A                        SS     df         MSS           F-test   P-value"
[ 3,] "_____________________________________________________________________________________"
[ 4,] "Regression                2214526715.506     2   1107263357.753      70.128    0.0000"
[ 5,] "Residuals                 599986413.372    4e+01   15789116.141                      "
[ 6,] "Total Variation           2814513129        40     70362828.222                      "
[ 7,] ""
[ 8,] "Multiple R      = 0.88703"
[ 9,] "R^2             = 0.78682"
[10,] "Adjusted R^2    = 0.77560"
[11,] "Standard Error  = 3973.55208"

Contents of Summary
[1,] "Variables in the Equation for Y:"
[2,] " "
[3,] ""
[4,] "PARAMETERS         Beta         SE         StandB      t-test   P-value  Variable                                      "
[5,] "  _____________________________________________________________________________________________________________________"
[6,] "b[ 0,]=      -1029.9475    1037.1559       0.0000     -0.9930   0.3269   Constant                                      "
[7,] "b[ 1,]=         17.6151       4.8855       0.3941      3.6056   0.0009   Zeitungen und Zeitschriften pro 1000 Einwohner"
[8,] "b[ 2,]=         22.6488       4.4380       0.5579      5.1033   0.0000   Fernseher pro 1000 Einwohner                  "

                                                                                                                     Tabelle 3

Das Quantlet linregbs ermittelt hingegen nachstehendes Modell

\hat{Y}(x) = 100,85x_{4}+416,97x_{6}-94,86x_{7}+14,18x_{8}+26,43x_{9}-20679,48

unter Einbeziehung von fünf Variablen, von denen zwei Variablen einen P-Wert von mehr als fünf Prozent aufweisen (vgl. Tabelle 4).

Contents of ANOVA
[ 1,] ""
[ 2,] "A  N  O  V  A                   SS          df     MSS             F-test   P-value"
[ 3,] "___________________________________________________________________________________"
[ 4,] "Regression               2130568580.910      5   426113716.182      30.181   0.0000"
[ 5,] "Residuals                 494148925.583   4e+01   14118540.731                     "
[ 6,] "Total Variation          2814513129         40    70362828.222                     "
[ 7,] ""
[ 8,] "Multiple R      =    0.87005"
[ 9,] "R^2             =    0.75699"
[10,] "Adjusted R^2    =    0.79935"
[11,] "Standard Error  = 3757.46467"

Contents of Summary
[ 1,] "Variables in the Equation for Y:"
[ 2,] " "
[ 3,] ""
[ 4,] "PARAMETERS         Beta         SE         StandB      t-test   P-value  Variable"
[ 5,] "  _____________________________________________________________________________________________________________________"
[ 6,] "b[ 0,]=     -20679.4819   12201.1093       0.0000     -1.6949   0.0990   Constant                                      "
[ 7,] "b[ 1,]=        100.8511      51.0793       0.2801      1.9744   0.0563   Anteil der Analphabeten                       "
[ 8,] "b[ 2,]=        416.9743     174.9042       0.3683      2.3840   0.0227   durchschnittliche Lebenserwartung             "
[ 9,] "b[ 3,]=        -94.8560      54.4442      -0.1713     -1.7423   0.0902   Grad der Verfügbarkeit von Nahrungsmitteln    "
[10,] "b[ 4,]=         14.1803       5.0075       0.3173      2.8318   0.0076   Zeitungen und Zeitschriften pro 1000 Einwohner"
[11,] "b[ 5,]=         26.4261       5.1807       0.6509      5.1009   0.0000   Fernseher pro 1000 Einwohner                  "

                                                                                                                      Tabelle 4

Bei einer Betrachtung von Tabelle 5 fällt auf, dass laut Quantlet linregbs das angepasste R^2 mit einem Wert von 79,935 % größer ist als das normale R^2, für das ein Wert von 75,699 % ausgegeben wird. Dies deutet auf einen Ausgabefehler des Quantlets linregbs in der verwendeten Version von XploRe hin. Die Überprüfung der Zahlen anhand des Quantlets linreg liefert für das durch linregbs ausgegebene Modell ein Bestimmtheitsmaß R^2 von 82,443 %. Das angepasste R^2 wird mit 79,953 % bestätigt (vgl. Tabelle 5).

Contents of out
[ 1,] ""
[ 2,] "A  N  O  V  A                   SS     df      MSS          F-test   P-value"
[ 3,] "____________________________________________________________________________"
[ 4,] "Regression            2320364203.295    5   464072840.659    32.870   0.0000"
[ 5,] "Residuals              494148925.583   35    14118540.731                   "
[ 6,] "Total Variation       2814513128.878   40    70362828.222                   "
[ 7,] ""
[ 8,] "Multiple R      = 0.90798"
[ 9,] "R^2             = 0.82443"
[10,] "Adjusted R^2    = 0.79935"
[11,] "Standard Error  = 3757.46467"
[12,] ""
[13,] ""
[14,] "PARAMETERS         Beta         SE         StandB        t-test   P-value"
[15,] "________________________________________________________________________"
[16,] "b[ 0,]=     -20679.4819   12201.1093       0.0000        -1.695   0.0990"
[17,] "b[ 1,]=        100.8511      51.0793       0.2801         1.974   0.0563"
[18,] "b[ 2,]=        416.9743     174.9042       0.3683         2.384   0.0227"
[19,] "b[ 3,]=        -94.8560      54.4442      -0.1713        -1.742   0.0902"
[20,] "b[ 4,]=         14.1803       5.0075       0.3173         2.832   0.0076"
[21,] "b[ 5,]=         26.4261       5.1807       0.6509         5.101   0.0000"

                                                                       Tabelle 5

Ein Vergleich der Ergebnisse der Quantlets linregfs2 bzw. linregstep und linregbs mit dem ersten Modell zeigt, dass sich trotz Eliminierung von sieben bzw. vier der neun zur Verfügung stehenden Variablen die Bestimmtheitsmaße der verschiedenen Modelle insgesamt nur geringfügig verschlechten, während die Werte des angepassten Bestimmtheitsmaßes stabil bleiben. Eine Reduktion der Anzahl der erklärenden Variablen erscheint somit sinnvoll, weshalb im Folgenden von dem ersten Modell Abstand genommen werden soll.

Abbildung 13

Auch das Modell des Quantlets linregbs wirft jedoch bei genauerer Betrachtung Fragen auf. Insbesondere sind die Beta-Parameter der Variablen Analphabetenquote und Grad der Verfügbarkeit von Nahrungsmitteln positiv bzw. negativ, was bedeuten würde, dass eine hohe Analphabetenquote mit einem hohen BIP pro Kopf und eine hohe Verfügbarkeit von Lebensmitteln mit einem niedrigen BIP pro Kopf eines Landes einhergeht. Diese Ergebnisse erscheinen zum einen wenig plausibel, da sie im Widerspruch zu den theoretischen Vorstellungen stehen. Zudem weisen die Korrelationskoeffizienten der beiden Variablen mit dem Bruttoinlandsprodukt die umgekehrten Vorzeichen auf. Insgesamt ist somit das zweite Modell der Quantlets linregfs2 und linregstep zu favorisieren, das in Abbildung 13 veranschaulicht wird. Mit verhältnismäßig wenig Information ermöglicht es erste Rückschlüsse darüber, welche Größenordnung das BIP pro Kopf eines Landes haben könnte. Da die Datengrundlage mit 41 Ländern jedoch sehr gering ist, sollte das Modell vor einer Verallgemeinerung zunächst in weiteren empirischen Analysen überprüft werden.

Bei der Ermittlung eines geeigneten Modells zur Erklärung des BIP pro Kopf ist des weiteren die Fragestellung interessant, bei welchem Modell der Wert des angepassten Bestimmtheitsmaßes maximiert wird. Hierzu wurde die Prozedur bestarsqu entwickelt, welche diese Untersuchung ermöglicht. In der Prozedur bestarsqu wird für alle theoretisch möglichen Kombinationen der neun gegebenen Variablen das angepasste R^2 berechnet und anschließend das Modell ausgegeben, das das angepasste R^2 maximiert. Die Durchführung der Prozedur liefert als angepasstes-R^2-maximierendes Modell folgendes Modell

\hat{Y}(x) = 100,85x_{4}+416,97x_{6}-94,86x_{7}+14,18x_{8}+26,43x_{9}-20679,48,

welches bereits das Ergebnis des Quantlets linregbs war. Der XploRe-Code des entsprechenden Programms lautet folgendermaßen:

library("stats")

proc(arsqu) = calcarsqu(x,y,beta) ;Berechnung des angepassten R^2
  p = cols(x)
  n = rows(x)
  ymean = mean(y)
  ytild = matrix(n,1)-1+beta[1]
  i = 1
  while (i <= p)
    ytild = ytild + beta[i+1]*x[,i]
    i = i+1
  endo
  zae = 0
  i = 1
  while (i <= n)
    zae = zae + (ytild[i]-ymean)^2
    i = i+1
  endo
  nen = 0
  i = 1
  while (i <= n)
    nen = nen + (y[i]-ymean)^2
    i = i+1
  endo
  rsqu = zae/nen
  arsqu = rsqu - (p*(1-rsqu))/(n-p-1)
endp

proc() = bestarsqu(x,y,bin,critpval)
  n1 = "Bevölkerung"
  n2 = "Bevölkerungswachstum"
  n3 = "Anteil der Stadtbevölkerung"
  n4 = "Anteil der Analphabeten"
  n5 = "Anteil der Studenten"
  n6 = "durchschnittliche Lebenserwartung"
  n7 = "Grad der Verfügbarkeit von Nahrungsmitteln"
  n8 = "Zeitungen und Zeitschriften pro 1000 Einwohner"
  n9 = "Fernseher pro 1000 Einwohner"
  namenbasis = (n1|n2|n3|n4|n5|n6|n7|n8|n9)
  rglob = 0
  i = 0|0|0|0|0|0|0|0|0
  iglob = i
  while (i[1] <= 1)
    i[2] = 0
    while (i[2] <= 1)
      i[3] = 0
      while (i[3] <= 1)
        i[4] = 0
        while (i[4] <= 1)
          i[5] = 0
          while (i[5] <= 1)
            i[6] = 0
            while (i[6] <= 1)
              i[7] = 0
              while (i[7] <= 1)
                i[8] = 0
                while (i[8] <= 1)
                  i[9] = 0
                  while (i[9] <= 1)
                    xneu = matrix(rows(x),1)
                    namenneu = "a"
                    j = 1
                    while (j <= 9)
                      if (i[j] == 1)
                        xneu = xneu~x[,j]
                        namenneu = namenneu|namenbasis[j]
                      endif
                      j = j + 1
                    endo
                    xneu = xneu[,2:cols(xneu)]
                    {beta,bse,bstan,bpval}=linreg(xneu,y,"notext")
                    rtmp = calcarsqu(xneu,y,beta)
                    if (rtmp > rglob)
                      switch
                        case (bin == 0)
                          rglob = rtmp
                          iglob = i
                          xglob = xneu
                          namenglob = namenneu
                        case (bin == 1)
                          if (max(bpval[2:(rows(bpval))]) <= critpval)
                            rglob = rtmp
                            iglob = i
                            xglob = xneu
                            namenglob = namenneu
                          endif
                      endsw
                    endif
                    i[9] = i[9] + 1
                  endo
                  i[8] = i[8] + 1
                endo
                i[7] = i[7] + 1
              endo
              i[6] = i[6] + 1
            endo
            i[5] = i[5] + 1
          endo
          i[4] = i[4] + 1
        endo
        i[3] = i[3] + 1
      endo
      i[2] = i[2] + 1
    endo
    i[1] = i[1] + 1
  endo
  namenglob = namenglob[2:rows(namenglob)]
  opt = linregopt("out",1)
  {beta,bse,bstan,bpval}=linregbs(xglob,y,namenglob,opt)
  ;hier wird das Quantlet linregbs nur aus dem Grund verwendet, da es die Ausgabe der
  ;Variablennamen ermöglicht. Die Einstellungen wurden so angepasst, dass nie eine Variable
  ;eliminiert wird.
  iglob
  rglob
endp

data = read("geopol")

data = data[,2:11]

x = data[,1|3:10]
y = data[,2]

bestarsqu(x,y,0,0)

Bei einer reinen Maximierung des angepassten Bestimmtheitsmaßes werden jedoch die P-Werte der einzelnen Variablen außer Acht gelassen. Aus diesem Grund ermöglicht die Prozedur bestarsqu außerdem die Eingabe eines kritischen P-Wertes, der von den Variablen im Modell nicht überschritten werden darf. Hierzu muss der dritte Eingabeparameter von bestarsqu von "0" auf den Wert „1“ gesetzt werden. Der vierte Parameter gibt dann den kritischen P-Wert an, der bei der Berechnung des das angepasste-R^2-maximierenden Modells berücksichtigt wird. Der Aufruf der Prozedur mit einem kritischen P-Wert von 5 % erfolgt durch

bestarsqu(x,y,1,0.05)

Als Ergebnis wird dasselbe Modell wie bei der Ausführung des Quantlets linregfs2 ausgegeben:

\hat{Y}(x) = 17,62x_{8}+22,65x_{9}-1029,95

Insofern bestätigt die Untersuchung, dass das betrachtete Modell, das nur die Variablen Anzahl der Zeitung und Anzahl der Fernsehgeräte miteinbezieht, das angepasste R^2 unter der Nebenbedingung, dass keine Variable einen P-Wert von 5 % überschreitet, maximiert.

Im ersten Teil der multivariaten Analyse wurde gezeigt, dass der Zusammenhang zwischen den Variablen Bruttoinlandsprodukt pro Kopf und durchschnittliche Lebenserwartung besser durch eine Logarithmus-Kurve als durch eine Gerade beschrieben werden kann. Hierzu wurden die Werte des BIPs mit dem natürlichen Logarithmus transformiert. Im Folgenden soll näherer analysiert werden, ob dieses Ergebnis zur Verbesserung der Qualität der multiplen Regression zur Erklärung des BIPs verwendet werden kann. Da das BIP als abhängige Variable auftritt, die durch mehrere Variablen erklärt wird, muss hier die durchschnittliche Lebenserwartung mit der Umkehrfunktion des natürlichen Logarithmus, der Exponentialfunktion, transformiert werden. Somit gilt:

X_{6}^\prime := e^{X_{6}}

Die Durchführung der Prozedur bestarsqu

x[,6] = (10^-30)*exp(x[,6])

bestarsqu(x,y,1,0.05)

mit einem kritischen P-Wert von 5 % liefert folgendes Modell:

\hat{Y}(x) = 1,27\times10^{-30}e^{x_{6}}+11,75x_{8}+22,74x_{9}-808,94

Tabelle 6 veranschaulicht dieses Ergebnis, das mit den Resultaten der Quantlets linregfs2, linregbs und linregstep übereinstimmt.

Contents of ANOVA
[ 1,] ""
[ 2,] "A  N  O  V  A                   SS          df       MSS            F-test   P-value"
[ 3,] "____________________________________________________________________________________"
[ 4,] "Regression                2303583603.939     3    767861201.313      55.606   0.0000"
[ 5,] "Residuals                  510929524.939  4e+01    13808906.079                     "
[ 6,] "Total Variation           2814513129        40     70362828.222                     "
[ 7,] ""
[ 8,] "Multiple R      =    0.90469"
[ 9,] "R^2             =    0.81847"
[10,] "Adjusted R^2    =    0.80375"
[11,] "Standard Error  = 3716.03365"

Contents of Summary
[1,] "Variables in the Equation for Y:"
[2,] " "
[3,] ""
[4,] "PARAMETERS         Beta         SE         StandB      t-test   P-value  Variable                                      "
[5,] "  _____________________________________________________________________________________________________________________"
[6,] "b[ 0,]=       -808.9432     973.8360       0.0000     -0.8307   0.4115   Constant                                      "
[7,] "b[ 1,]=          1.2723       0.5010       0.2200      2.5395   0.0154   durchschnittliche Lebenserwartung             "
[8,] "b[ 2,]=         11.7523       5.1190       0.2630      2.2958   0.0275   Zeitungen und Zeitschriften pro 1000 Einwohner"
[9,] "b[ 3,]=         22.7414       4.1506       0.5601      5.4791   0.0000   Fernseher pro 1000 Einwohner                  "
 
                                                                                                                     Tabelle 6

Obige Tabelle zeigt, dass die Variable durchschnittliche Lebenserwartung nach der Exponential-Transformation in das Modell aufgenommen wird. Sie weist nun einen P-Wert von 1,54 % auf. Insgesamt verbessert sich das angepasste R^2 durch die Transformation auf 80,375 %. Es bleibt aber zu untersuchen, ob eine Spezifikation der Exponential-Transformation analog zur Vorgehensweise bei der einfachen nicht-linearen Regression die Qualität des gefundenen Modells weiter verbessern könnte. Da hier eine Exponential-Transformation vorgenommen wird, bietet sich das Einfügen eines Faktor innerhalb der Exponential-Funktion an, was einer Veränderung der Basis entspricht. Die Transformation erweitert sich folglich zu:

X_{6}^\prime := e^{a X_{6}}

Durch Probieren verschiedener Werte ergibt sich ein geeignetes a von 0,36. Der Aufruf der Prozedur bestarsqu nach Transformation von X_{6} mittels

x[,6] = (10^-9)*exp(0.36*x[,6])

bestarsqu(x,y,1,0.05)

liefert folgendes Modell:

\hat{Y}(x) = 6,90\times10^{-9}e^{0,36x_{6}}+9,74x_{8}+19,24x_{9}-1195,29

Tabelle 7 stellt die Ausgabe der Prozedur bestarsqu dar.

Contents of ANOVA
[ 1,] ""
[ 2,] "A  N  O  V  A                   SS          df     MSS             F-test   P-value"
[ 3,] "___________________________________________________________________________________"
[ 4,] "Regression                2404306632.549     3   801435544.183      72.288   0.0000"
[ 5,] "Residuals                  410206496.329  4e+01   11086662.063                     "
[ 6,] "Total Variation           2814513129        40    70362828.222                     "
[ 7,] ""
[ 8,] "Multiple R      =    0.92426"
[ 9,] "R^2             =    0.85425"
[10,] "Adjusted R^2    =    0.84244"
[11,] "Standard Error  = 3329.66396"

Contents of Summary
[1,] "Variables in the Equation for Y:"
[2,] " "
[3,] ""
[4,] "PARAMETERS         Beta         SE         StandB      t-test   P-value  Variable"
[5,] "  _____________________________________________________________________________________________________________________"
[6,] "b[ 0,]=      -1195.2930     870.0099       0.0000     -1.3739   0.1777   Constant                                      "
[7,] "b[ 1,]=          6.9006       1.6679       0.3564      4.1374   0.0002   durchschnittliche Lebenserwartung             "
[8,] "b[ 2,]=          9.7407       4.5146       0.2179      2.1576   0.0375   Zeitungen und Zeitschriften pro 1000 Einwohner"
[9,] "b[ 3,]=         19.2419       3.8090       0.4739      5.0518   0.0000   Fernseher pro 1000 Einwohner                  "

                                                                                                                     Tabelle 7

Es zeigt sich, dass durch die Veränderung der Basis eine weitere Verbesserung der Qualität des Modells erzielt werden kann. Sowohl das Bestimmtheitsmaß R^2 als auch das angepasste R^2 weisen mit 85,425 % und 84,244 % die bisher höchsten ermittelten Werte auf, obwohl lediglich drei Variablen im Modell verwendet werden. Zudem sind die Parameter aller Variablen auf einem Signifikanzniveau von 5 % statistisch signifikant von null verschieden.

Zwar ist es möglich, durch weiteres Absenken des Faktors a auf 0,25 die Werte des Bestimmtheitsmaßes R^2 und des angepassten R^2 auf 86,709 % bzw. 85,232 % zu verbessern.

x[,6] = (10^-5)*exp(0.25*x[,6])

bestarsqu(x,y,1,0.05)

Das resultierende Modell

\hat{Y}(x) = 72,93x_{4}+0,0000393e^{0,25x_{6}}+11,34x_{8}+21,79x_{9}-4643,72

wurde bereits in der Präsentation vorgestellt (vgl. Tabelle 8).

Contents of ANOVA
[ 1,] ""
[ 2,] "A  N  O  V  A                   SS      df     MSS          F-test   P-value"
[ 3,] "____________________________________________________________________________"
[ 4,] "Regression            2440433018.879     4   610108254.720   58.714   0.0000"
[ 5,] "Residuals              374080109.999  4e+01   10391114.167                  "
[ 6,] "Total Variation       2814513129        40    70362828.222                  "
[ 7,] ""
[ 8,] "Multiple R      = 0.93118"
[ 9,] "R^2             = 0.86709"
[10,] "Adjusted R^2    = 0.85232"
[11,] "Standard Error  = 3223.52511"

Contents of Summary
[ 1,] "Variables in the Equation for Y:"
[ 2,] " "
[ 3,] ""
[ 4,] "PARAMETERS         Beta         SE         StandB      t-test   P-value  Variable                                      "
[ 5,] "  _____________________________________________________________________________________________________________________"
[ 6,] "b[ 0,]=      -4643.7183    1628.7418       0.0000     -2.8511   0.0072   Constant                                      "
[ 7,] "b[ 1,]=         72.9341      32.7331       0.2026      2.2281   0.0322   Anteil der Analphabeten                       "
[ 8,] "b[ 2,]=          3.9310       0.8640       0.4111      4.5496   0.0001   durchschnittliche Lebenserwartung             "
[ 9,] "b[ 3,]=         11.3442       4.3359       0.2538      2.6163   0.0129   Zeitungen und Zeitschriften pro 1000 Einwohner"
[10,] "b[ 4,]=         21.7929       4.1499       0.5368      5.2514   0.0000   Fernseher pro 1000 Einwohner                  "

                                                                                                                      Tabelle 8

Hierbei wird jedoch mit der Analphabetenquote eine weitere Variable in das Modell aufgenommen, über die im Falle einer praktischen Anwendung Informationen zur Verfügung stehen müssen. Unserer Ansicht nach kann dieser Nachteil nicht durch eine geringfügige Verbesserung der Qualität des Modells ausgeglichen werden, zumal erneut wie in Tabelle 4 die Analphabetenquote mit einem positiven Beta modelliert wird, was theoretisch schwer zu begründen sein dürfte.

Clusteranalyse[edit]

Abbildung 14

In der multivariaten Analyse wurde der Zusammenhang zwischen den Variablen Bruttoinlandsprodukt pro Kopf und durchschnittliche Lebenserwartung näher analysiert. Abbildung 8 diente dabei zur Veranschaulichung der (nicht-linearen) Abhängigkeit der betrachteten Variablen. In Abbildung 8 ist jedoch eine weitere bemerkenswerte Tatsache zu erkennen. Die Konturlinien der Grafik zeigen, dass die geschätzte zweidimensionale Dichte des BIPs und der Lebenserwartung zwei lokale Maxima aufzeigt. Zum einen sind viele Länder zu beobachten, bei denen sowohl das BIP als auch die durchschnittliche Lebenserwartung eher gering ist. Zum anderen treten einige Länder auf, die ein hohes BIP und eine hohe durchschnittliche Lebenserwartung aufweisen. Im Mittelfeld befinden sich hingegen wenig Observationen, was als Anzeichen einer möglichen Gruppenbildung innerhalb der Stichprobe interpretiert werden könnte.

Auch eine Erweiterung der Betrachtung durch die Variable Analphabetenquote bestätigt die obigen Feststellungen. In Abbildung 14, in der die Konturlinien der dreidimensionalen Dichteschätzung der Variablen BIP pro Kopf, Analphabetenquote und durchschnittliche Lebenserwartung dargestellt sind, sind deutlich zwei verschiedene Gruppen zu erkennen.

Im folgenden, letzten Kapitel der vorliegenden Arbeit soll eine mögliche Gruppenbildung innerhalb der Stichprobe mittels einer Clusteranalyse genauer untersucht werden. Den Ausgangspunkt der Analyse bilden die quantitativen Merkmale der Objekte, im Geopol-Datensatz also die Ausprägungen der Indikatoren der einzelnen Länder. Gesucht ist eine Partition des gesamten Datensatzes in kleinere Gruppen, die auch als Klassen bezeichnet werden. Dabei stellt die Analysemethode darauf ab, dass die Objekte innerhalb der Klassen möglichst ähnlich sind, die Klassen gegeneinander aber große Unterschiede aufweisen. Man spricht von interner Kohärenz und externer Isolation (vgl. Handl, 2002).

Auf den vorliegenden Datensatz wird ein agglomeratives oder auch hierarchisch-agglomeratives Clustern (Gruppieren) angewandt. Beim hierarchischen Clustern wird vom Einzelobjekt als eigener Cluster ausgegangen. Am Anfang der Analyse stehen im vorliegenden Fall somit 41 Klassen, die im Laufe des Verfahrens auf wenige Klassen reduziert werden. Mit Hilfe einer Distanzfunktion werden sich nahe stehende Objekte zu einer größeren Klasse zusammengefasst. Über verschiedene Distanzfunktionen definieren sich unterschiedliche hierarchische Clusterverfahren.

In diesem Fall soll die Methode Ward Anwendung finden. Dabei werden nicht wie in den Linkage- oder Abstandsverfahren alle Klassen mit kleinsten Distanzen zusammengefasst. Ein großer Nachteil bei den Linkage Verfahren ist, dass sie invariant gegenüber gleichartigen Transformationen der Variablen sind, so dass zum Beispiel eine Standardisierung der Variablen keine Veränderung in der Zerlegung bringt. Dagegen vereinigt man beim Verfahren Ward nur Cluster, mit denen ein minimaler Informationsverlust einhergeht. Ein Kriterium für den Informationsverlust bieten die Fehlerquadratsummen. Als Distanzfunktion wird bei der Methode Ward die euklidische Distanz ermittelt. Vorteil dieser Methode ist die Berücksichtigung der Heterogenität der Gruppen gemessen an der Varianz, zu der alle Objekte der Gruppe gleichmäßig beitragen. Damit können Unterschiede der Clusterbildung zwischen zentrierten und belassenen Variablen betrachtet werden. Für den Abstand zweier zu vereinigender Gruppen zu einer anderen Gruppe gilt:

d(R, P + Q)\quad =\quad \frac{(n_{R} + n_{P} )\times d(R, P)}{( n_{R} + n_{P} + n_{Q})}\quad +\quad \frac{n_{Q}\times d(R, Q)}{( n_{R} + n_{P} + n_{Q})}\quad  -\quad \frac{n_{R}\times d(P, Q)}{( n_{R} + n_{P} + n_{Q})},

wobei n_{I},\ I = R,\ P,\ Q, die Anzahl der zu einer Gruppe gehörenden Objekte darstellt (Mucha, Sofyan, 2003).

Vor der kalkulatorischen Analyse macht es Sinn, die Gruppierungen grafisch darzustellen. Veranschaulichung bietet dabei ein Baumdiagramm, das so genannte Dendogramm. Dabei stehen auf der Abszisse alle 41 Länder (0 - 40), während auf der Ordinate der jeweiligen Graphen die Distanzen der Cluster abgetragen sind. Dabei ist jedes Land mit einer senkrechten Linie dargestellt, die so weit nach oben führt, bis das Land mit einem anderen Land in eine Gruppe fällt. Ist dies der Fall, werden die Linien der beiden in eine Gruppe fallenden Länder mit einer waagerechten Linie verbunden und durch eine senkrechte Gerade ersetzt. Die Verfahrensweise wird auf die einzelnen Länder solange angewandt, bis sich alle Objekte in einer Gruppe wiederfinden. Da die Darstellung mit zunehmenden Beobachtungsumfang unübersichtlicher wird, gibt ein Dendogramm hauptsächlich einen groben Überblick über eine eventuell mögliche Unterteilung in verschiedene Gruppen. Genauen Aufschluss liefert später die Berechnung mittels der Distanzfunktionen.

Da die Skalen der vorliegenden Daten stark voneinander abweichen, wird auch eine Clusteranalyse mit standardisierten Daten durchgeführt. Nachstehende Prozedur ermöglicht die Standardisierung:

proc(y) = cent(x)
  i = 1
  n = cols(x)
    while(i <= n)
    x[,i] = (x[,i] - mean(x[,i]))/sqrt(var(x[,i]))  ;Quotient aus (Spaltenwert - Mittelwert) und Standardabweichung der Variable
    i = i + 1
  endo
  y = x
endp

data = read("geopol")
data = data[,2:11]

data = cent(data)
;Variable x wird der gekürzte Datensatz Geopol mit der 2 bis 11ten Spalte übergeben
Abbildung 15

Abbildung 15 stellt die Dendogramme der unstandardisierten und standardisierten Daten dar. Aus der direkten Gegenüberstellung der Baumdiagramme lässt sich eine schärfere Unterteilung bei den standardisierten Daten ausmachen. Während bei den unstandardisieren Daten zwei große Gruppen zu sehen sind, lassen sich bei den standardisierten Daten drei Klassen erkennen. Bei genauerer Betrachtung kann jedoch auch bei den unstandardisierten Variablen eine Unterteilung in drei Gruppen erfolgen. Aus der Gegenüberstellung beider Varianten wird deutlich, dass große Skalenunterschiede starke Verzerrungen hervorrufen können. Da bei standardisiertem Datenmaterial alle Variablen gleich stark gewichtet werden, ist diese Betrachtungsweise den unstandardisierten Daten vorzuziehen.

Nach Ausführung der Methode Ward in Xplore werden bei beiden Varianten jeweils drei Gruppen unterschieden. Die Gruppeneinteilung erfolgt aufgrund der Höhe der Indikatoren der einzelnen Länder. So werden als reiche Länder diejenigen Länder zusammengefasst, in denen zum Beispiel ein überdurchschnittliches BIP pro Kopf erwirtschaftet wird. Die mittlere Gruppe weist die Länder aus, die eher um die Mittelwerte der jeweiligen Variablen schwanken. Dagegen sind arme Länder von unterdurchschnittlichem BIP pro Kopf geprägt. Die Ausprägungen der Variablen dieser Gruppe bilden genau das Gegenteil zu den Ausprägungen der Variablen aus der Gruppe der reichen Länder. Für eine bessere Vergleichbarkeit sind die sich ergebenden Gruppen bei unstandardisierten sowie bei standardisierten Daten nebeneinander in den Tabellen 9 und 10 aufgeführt.

Tabelle 9: Ohne Standardisierung
Gruppe 1: arme Länder Gruppe 2: mittlere Schicht Gruppe 3: reiche Länder
South Africa Saudi Arabia Germany
Algeria Spain Great Britain
Argentina Greece Australia
Cameroon Hong Kong Austria
Chile Israel Belgium
China Portugal Canada
Cuba USSR Denmark
Egypt France
Gabun Italia
Hungary Japan
India Norway
Indonesia Sweden
Kenia Switzerland
Marokko USA
Mexico
Peru
Poland
Thailand
Venezuela
Yugoslavia
Tabelle 10: Standardisierte Daten
Gruppe 1: arme Länder Gruppe 3: mittlere Schicht Gruppe 2: reiche Länder
South Africa Argentina Germany
Algeria Chile Great Britain
Saudi Arabia Cuba Australia
Cameroon Greece Austria
China Hungary Belgium
Egypt Mexico Canada
Gabun Peru Denmark
India Poland Spain
Indonesia Portugal France
Kenia USSR Hong Kong
Marokko Venezuela Israel
Thailand Yugoslavia Italia
Japan
Norway
Sweden
Switzerland
USA




























Abbildung 16

Tabelle 9 und Tabelle 10 zeigen, dass sich die Zusammensetzung der Gruppen nach Standardisierung des Datensatzes ändert, da die verschiedenen Variablen nach der Standardisierung gleich stark gewichtet werden. Unter anderem werden die drei Länder Spanien, Hong Kong und Israel nun der Gruppe der reichen Länder zugeordnet.

Zur besseren Visualisierung der Ergebnisse der Clusteranalyse dient die Abbildung von Parallel-Coordinate-Plots (PCP). Die Zugehörigkeit zu verschiedenen Gruppen wird hierbei durch verschiedene Farben dargestellt. Abbildung 16 zeigt eine Gegenüberstellung der Resultate mit unstandardisierten (links) und standardisierten (rechts) Daten. Arme Länder sind dabei schwarz, die mittlere Schicht blau und die reichen Länder rot eingefärbt. In der oberen Zeile sind jeweils alle 41 Länder dargestellt, während die untere Zeile die Durchschnitts-PCPs der einzelnen Gruppen enthält.

Da die Darstellung mehrerer PCPs in einem Display nur mit Hilfe des Quantlets grpcp möglich ist, welches im Gegensatz zu plotpcp nicht die automatische Standardisierung auf dem Intervall [0,1] ermöglicht, wurden die Daten vor der Erzeugung der PCPs durch die nachfolgende Prozedur stand auf das Intervall [0,1] standardisiert.

proc(y) = stand(x)
  n = cols(x)
  i = 1
  while (i <= n)
    x[,i] = x[,i] - min(x[,i])
    ma = max(x[,i])
    x[,i] = x[,i]/ma
    i = i + 1
  endo
  y = x
endp

Unabhängig davon, ob die Ergebnisse der standardisierten oder der unstandardisierten Daten betrachtet werden, zeigen sich arme und reiche Länder in Abbildung 16 als wechselseitige Gegenteile. Die mittlere Gruppe liegt hingegen fast immer zwischen diesen beiden Extremen. Dabei sind für die Gruppe der reichen Länder eine niedrige Gesamtbevölkerung, ein hohes Bruttoinlandsprodukt pro Kopf, ein niedriges Bevölkerungswachstum, ein hoher Anteil der Stadtbevölkerung, eine niedrige Analphabetenquote, ein hoher Studentenanteil, eine hohe durchschnittliche Lebenserwartung und ein hoher Grad an Verfügbarkeit von Nahrungsmitteln charakteristisch. Außerdem verfügen diese Länder über viele Zeitungen und Zeitschriften sowie Fernsehgeräte pro 1000 Einwohner.

Eine genaue Betrachtung des linken oberen PCP in Abbildung 16 zeigt zudem, dass sich die einzelnen Gruppen bei der Verwendung unstandardisierter Daten in der Variable BIP pro Kopf, deren Skala ohne Standardisierung die höchsten Werte aufweist, nicht überschneiden. Hieraus kann geschlossen werden, dass die Variable BIP pro Kopf bei der Clusteranalyse auf Basis unstandardisierter Werte einen sehr großen Einfluß auf die Gruppeneinteilung hatte. Die Möglichkeit derartiger Verzerrungen ist bei der Durchführung einer Clusteranalyse stets zu berücksichtigen. Im Allgemeinen sollten daher standardisierte Daten verwendet werden.

Insgesamt zeigen die Analysen, dass eine Unterteilung des Datensatzes in verschiedene Länder möglich und zweckmäßig ist. Auch eingeschränkte Informationen über ein Land lassen Rückschlüsse auf die Gruppenzugehörigkeit des Landes und damit auf seine grundlegenden Charakteristika zu.

Fazit[edit]

Gegenstand der vorliegenden Arbeit war die umfangreiche Analyse des Geopol-Datensatzes, der Informationen über verschiedene makroökonomische Größen von 41 OECD-Mitgliedsstaaten enthält. Schwerpunktmäßig wurden dabei das Bruttoinlandsprodukt pro Kopf sowie seine Beziehungen zu den übrigen Variablen untersucht. Es zeigte sich, dass Informationen über das BIP Rückschlüsse auf die Lebensumstände in einem Land ermöglichen. Beispielhaft wurde der Zusammenhang zwischen dem BIP pro Kopf und der durchschnittlichen Lebenserwartung näher analysiert. Hierbei stellte sich heraus, dass durch eine geeignete Transformation der Variablen die Qualität des ermittelten Modells deutlich verbessert werden könnte. XploRe wurde dabei nicht nur zur Berechnung der Parameter des besten Modells, sondern auch zur Verbesserung der Transformation eingesetzt.

Die Suche nach einem Modell, das die Höhe des Bruttoinlandsproduktes pro Kopf in Abhängigkeit der anderen zur Verfügung stehenden Variablen erklärt, zeigte, dass im vorliegenden Fall eine Reduktion der Anzahl der erklärenden Variablen zweckmäßig ist. Vor allem das folgende Modell

\hat{Y}(x) = 17,62x_{8}+22,65x_{9}-1029,95,

das nur Informationen über zwei makroökonomische Größen, die Anzahl der Zeitungen und Zeitschriften sowie der Fernsehgeräte pro 1000 Einwohner, benötigt, aber dennoch ein Bestimmtheitsmaß R^2 von 78,682 % aufweist, ist zur Erklärung des BIPs pro Kopf gut geeignet. Durch Einbeziehung der Ergebnisse der einfachen Regression bezüglich nicht-linearer Abhängigkeiten zwischen den Variablen ist eine weitere Verbesserung des Modells möglich. Nach geeigneter Transformation der durchschnittlichen Lebenserwartung wird das Modell um diese Variable erweitert

\hat{Y}(x) = 6,90\times10^{-9}e^{0,36x_{6}}+9,74x_{8}+19,24x_{9}-1195,29,

wodurch die Qualität auf ein Bestimmtheitsmaß R^2 von 85,425 % verbessert werden kann. Die Prozedur bestarsqu wurde dabei ergänzend zu den Quantlets linregfs2, linregbs und linregstep entwickelt und ermöglicht es, unter optionaler Vorgabe eines kritischen P-Wertes ein Modell mit einem maximalen angepassten Bestimmtheitsmaß zu ermitteln. Um der Gefahr vorzubeugen, dass die Modelle zu stark an die Daten einer Stichprobe angepasst werden, sollten theoretische Überlegungen die Plausibilität nicht-linearer Transformationen jedoch stets überprüfen.

Zudem ist darauf hinzuweisen, dass alle Modelle der vorliegenden Arbeit nicht auf die Art und Weise interpretiert werden dürfen, dass auch in der Realität ein derartiger kausaler Zusammenhang zwischen den Variablen auftritt. Insbesondere wird sich das Bruttoinlandsprodukt eines Landes wohl kaum bedeutend erhöhen, wenn sich jeder Einwohner einen Fernseher anschafft. Vielmehr sollen die gefundenen Modelle Rückschlüsse auf die abhängigen Variablen zulassen, wenn nur eingeschränkt Informationen vorliegen.

In der Clusteranalyse wurde eine mögliche Gruppenbildung innerhalb der Stichprobe analysiert. Sowohl bei unstandardisierten als auch bei standardisierten Daten lassen sich drei Gruppen von Ländern identifizieren: die reichen Länder, eine mittlere Schicht sowie die arme Länder. Während in der Gruppe der reichen Länder die typischen Charakteristika wie ein hohes Bruttoinlandsprodukt pro Kopf und eine hohe Lebenserwartung beobachtet werden können, weisen die armen Länder spiegelbildlich die umgekehrten Eingenschaften wie zum Beispiel eine hohe Analphabetenquote auf. Da die Ergebnisse der Clusteranalyse auf Basis unstandardisierter Daten sehr stark von der Hohe des BIPs beeinflusst werden, dessen Skala die höchsten Werte beinhaltet, liefert die Clusteranalyse unter Verwendung standardisierter Daten eine bessere Einteilung, bei der alle Variablen gleichwertig berücksichtigt werden.

Literaturverzeichnis[edit]

  • Härdle, W.; Hlavka, Z.; Klinke, S. (2000): XploRe Application Guide. Springer Verlag Berlin-Heidelberg.
  • Härdle, W.; Klinke, S.; Müller, M. (2000): Xplore Learning Guide. Springer Verlag Berlin-Heidelberg.
  • Härdle, W.; Simar, L. (2003): Applied Multivariate Statistical Analysis. Springer Verlag Berlin-Heidelberg.
  • Handl, A. (2002): Multivariate Analysemethoden. Springer Verlag Berlin-Heidelberg.
  • Mucha, H.-J.; Sofyan, H. (2003): Cluster Analysis. Xplore Tutorial, Xplore Help.

Kommentare[edit]

  • Grafiken zu klein (Scatterplot matrizen)
  • Den JB Test halte ich für unnötig; warum alpha=10%?
  • Aufgrund der Korrelation zwischen den möglichen erklärenden Variablen hätte sich eine Hauptkomponentenanalyse angeboten
  • Einerseits formulieren Sie einen logarithmischen Zshg. im Text andererseits lehnen Sie ihn allgemein ab. Was denn nun?
  • Guter Kommentare zur "besten" log-transformation
  • Ein Fehler in linregbs...
  • Endlich mal XploRe programme
  • Eine Übersichtstabelle über die Modelle wäre hilfreich
  • Bei der Clusteranalyse der unstandardisierten Daten würde ich nur zwei Cluster sehen

== Kommentare ==