Faktoren- und Diskriminanzanalyse für den Datensatz "State Public Expenditures"

From Teachwiki
Jump to: navigation, search

Einleitung

Die vorliegende Arbeit befaßt sich mit der Anwendung multivariater Analyseverfahren auf den Datensatz „State Public Expenditures“ unter Verwendung von SPSS. Zunächst werden der verwendete Datensatz vorgestellt und die einzelnen Variablen erläutert. Anschließend folgt eine deskriptive Analyse der Daten. Der dritte Teil beschäftigt sich mit der Faktorenanalyse, wobei diese zuerst für den gesamten Datensatz und anschließend getrennt für zwei Teilgruppen von Beobachtungen durchgeführt wird. Im vierten Teil werden die Daten anhand einer Diskriminanzanalyse untersucht. Der letzte Teil der Arbeit liefert eine kurze Zusammenfassung der Ergebnisse. Der im Rahmen dieser Arbeit verwendete Datensatz „State Public Expenditures“ stammt aus der Data and Story Library. Er umfaßt die öffentlichen Ausgaben pro Kopf auf regionaler und lokaler Ebene von 48 amerikanischen Bundesstaaten sowie weitere ökonomische und demografische Angaben. Die Daten wurden im Jahre 1960 durch die Zusammenarbeit verschieder Behörden der US-Regierung veröffentlicht, wozu unter anderem das Department of Commerce, das Department of Agriculture und das Department of the Interior gehören. Insgesamt umfaßt der Datensatz 48 Beobachtungen von sieben Variablen. Die Variablen eins bis sechs sind metrisch skaliert, die siebte Variable weist nominales Skalenniveau auf. Im einzelnen sind die Variablen wie folgt definiert:


  • 1. EX: öffentliche Pro-Kopf-Ausgaben auf regionaler und lokaler Ebene
  • 2. ECAB: Index für die Wirtschaftskraft, in dem Einkommen, Kaufkraft und BIP gleichermaßen berücksichtigt werden
  • 3. MET: Anteil der Bevölkerung, der in Großstädten lebt
  • 4. GROW: prozentuale Veränderung der Bevölkerung zwischen 1950 und 1960
  • 5. YOUNG: Anteil der Bevölkerung im Alter von 5-19 Jahren
  • 6. OLD: Anteil der Bevölkerung im Alter von über 65 Jahren
  • 7. WEST: Bundesstaat im Westen der USA (1) oder nicht (0)


Die siebte Variable dient im folgenden als Gruppierungsvariable zur getrennten Analyse der westlichen und der östlichen Bundesstaaten.


Deskriptive Statistiken

Im Mittelpunkt des Interesses steht die Frage, inwieweit sich die beiden Teilstichproben der westlichen und der östlichen Bundesstaaten voneinander unterscheiden. Anhand der deskriptiven Statistiken läßt sich bereits ein erster Eindruck über die Unterschiede zwischen den beiden Gruppen gewinnen. Deutlich unterscheiden sich beide Gruppen in Bezug auf das arithmetische Mittel der Variablen EX und MET, während die übrigen Variablen sich nur geringfügig unterscheiden. Die westlichen Staaten stellen wesentlich mehr öffentliche Güter pro Kopf bereit, die östlichen Staaten weisen dagegen einen deutlich höheren Anteil an Großstadtbevölkerung auf. Auch in Bezug auf die Streuung gibt es Unterschiede. Die westlichen Staaten weisen eine deutlich höhere Standardabweichung auf bei den Variablen EX, ECAB, GROW und OLD, die östlichen Staaten dagegen bei der Variablen YOUNG. Somit läßt sich feststellen, daß die westlichen Bundesstaaten in sich heterogener sind als die östlichen Staaten.


Tabelle 2.1

Deskriptive Statisken für die östlichen Bundesstaaten
N Minimum Maximum Mean Std.Deviation
EX 24 183,00 374,00 264,9167 48,05153
ECAB 24 65,20 121,60 95,8750 17,14086
MET 24 ,00 86,20 54,9875 25,28994
GROW 24 -7,40 77,20 17,1500 16,49511
YOUNG 24 24,00 32,90 27,5000 2,23937
OLD 24 6,30 11,20 9,2792 1,47707


Tabelle 2.2

Deskriptive Statisken für die westlichen Bundesstaaten
N Minimum Maximum Mean Std.Deviation
EX 24 198,00 454,00 308,3750 61,39736
ECAB 24 57,40 205,00 97,6333 26,76724
MET 24 ,00 86,50 37,3500 26,09723
GROW 24 -6,20 77,80 20,3083 21,22990
YOUNG 24 25,60 32,10 28,7292 1,90525
OLD 24 5,40 11,90 9,1458 1,81682


Faktorenanalyse

Im folgenden wird für den Datensatz eine Faktorenanalyse durchgeführt. Ziel dieser Analyse ist es, die Anzahl der Variablen zu reduzieren, indem diese zu Faktoren zusammengefasst werden. Ausgangspunkt für die Faktorenanalyse ist die Korrelationsmatrix, anhand derer man bereits einen ersten Eindruck gewinnen kann, welche der Variablen möglicherweise gebündelt werden könnten. Zwischen den Variablen EX und ECAB besteht ein deutlich positiver Zusammenhang, während die Kombinationen YOUNG und ECAB, YOUNG und MET sowie YOUNG und OLD einen erkennbar negativen Zusammenhang aufweisen. Des weiteren fällt auf, daß die Variable OLD mit insgesamt drei Variablen ( EX, ECAB und MET) nahezu unkorreliert ist. Dies ist ein erster Hinweis dafür, daß diese Variable möglicherweise für eine Faktorenanalyse wenig geeignet ist.


Tabelle 3.1

Korrelationsmatrix (Pearson)
EX ECAB MET GROW YOUNG OLD
EX 1 ,656 ,045 ,405 -,293 -,023
ECAB ,656 1 ,409 ,46 -,589 -,044
MET ,045 ,409 1 ,404 -,626 -,041
GROW ,405 ,46 ,404 1 -,204 -,413
YOUNG -,293 -,589 -,626 -,204 1 -,525
OLD -,023 -,044 -,041 -,413 -,525 1


Prüfung der Korrelationsmatrix

Vor der Durchführung einer Faktorenanalyse ist es erforderlich, die Daten auf ihre Eigung zu überprüfen. Zu diesem Zweck stehen eine Reihe von Kriterien zur Verfügung, von denen im Rahmen dieser Arbeit der Bartlett-Test und das Kaiser-Meyer-Olkin-Kriterium verwendet werden sollen. Der Bartlett-Test prüft die Nullhypothese, daß die Variablen der Erhebungsgesamtheit unkorreliert sind, d.h. daß die Korrelationsmatrix nur zufällig von der Einheitsmatrix abweicht. (vgl. Backhaus et al 2005, S. 274) Diese Hypothese kann im vorliegenden Fall verworfen werden, was für eine Eignung des Datensatzes für eine Faktorenanalyse spricht. Das KMO- Kriterium für die Anti-Image Korrelationsmatrix errechnet sich als die Summe der quadrierten Korrelationen durch die Summe der quadrierten Korrelationen plus der Summe der quadrierten partiellen Korrelationen. Es resultiert ein Wert zwischen null und eins, wobei ein Wert von >= 0,6 als Voraussetzung für eine gute Faktorenanalyse betrachtet werden kann. (vgl. Paulssen 2005, S.20) Für den vorliegenden Datensatz ergibt sich ein Wert von 0,494, was gegen die Durchführung einer Faktorenanalyse spricht. Im nächsten Schritt wird daher die Anti-Image-Korrelationsmatrix genauer betrachtet. Sie ermöglicht eine Beurteilung der Eignung einzelner Variablen für eine Faktorenanalyse.


Tabelle 3.2

Anti-Image-Korrelationsmatrix
EX ECAB MET GROW YOUNG OLD
EX ,593 -,543 ,279 -,294 -,016 -,095
ECAB -,543 ,594 ,108 ,017 ,548 ,429
MET ,279 ,108 ,474 -,153 ,681 ,480
GROW -,294 ,017 -,153 ,712 ,165 ,408
YOUNG -,016 ,548 ,681 ,165 ,443 ,803
OLD -,095 ,429 ,480 ,408 ,803 ,267


Die Hauptdiagonale der Anti-Image-Korrelationsmatrix enthält die KMO-Kriterien für jede einzelne Variable. Hier bestätigt sich der erste Eindruck, wonach die Variable OLD nur geringe Korrelationen mit den übrigen Variablen aufweist. Sie liegt mit einem Wert von 0,267 deutlich unter dem geforderten Mindestwert und wird daher für die Faktorenanalyse eliminiert. Nach Ausschluß der Variablen OLD liegt das KMO-Kriterium für die Korrelations-matrix insgesamt bei 0,601, womit die Mindestanforderung an eine gute Faktorenanalyse erfüllt ist.


Faktorextraktion

Für die Faktorextraktion stehen zwei Methoden zur Verfügung, die Hauptkomponentenmethode und die Hauptachsenmethode. Die beiden Verfahren unterscheiden sich hinsichtlich der Interpretation der Faktoren. Während die Hauptkomponentenmethode die Faktoren lediglich als Sammelbegriff für mehrere Variablen betrachtet, unterstellt die Hauptachsenmethode einen kausalen Zusammenhang zwischen den beobachtbaren Variablen und den dahinter stehenden theoretischen Konstrukten bzw. Faktoren. (vgl. Backhaus et al 2005, S. 293)

Da im Rahmen dieser Analyse lediglich eine Zusammenfassung von Variablen ohne kausale Interpretation der Faktoren stattfinden soll wird im folgenden die Hauptkomponentenmethode zur Extraktion der Faktoren verwendet. Bei der Festlegung der Anzahl der Faktoren wird das Kaiser-Kriterium verwendet. Dieses Kriterium besagt, daß lediglich Faktoren mit einem Eigenwert von größer als eins extrahiert werden. Um die Interpretation der Faktoren zu erleichtern wird eine Varimax-Rotation durchgeführt.


Tabelle 3.3

Total Variance Explained
Component Initial Eigenvalues Rotation Sums of Squared Loadings
Total  % of Variance Cumulative % Total  % of Variance Cumulative %
1 2,667 53,342 53,342 1,965 39,307 39,307
2 1,101 22,020 75,362 1,803 36,055 75,362
3 ,758 15,153 90,515
4 ,243 4,868 95,383
5 ,231 4,617 100,000


Wie die Tabelle 3.3 zeigt werden nach dem Kaiser-Kriterium zwei Faktoren extrahiert, die rund 75 % der Gesamtvarianz erklären. Beide Faktoren tragen mit 39,3 % bzw. 36,1 % in etwa gleichviel zur Erklärung der Gesamtvarianz bei. Um zu erkennen, welche Variablen mit dem jeweiligen Faktor zusammenhängen wird die in Tabelle 3.4 dargestellte rotierte Faktorenmatrix betrachtet. Ausschlaggebend sind hohe positive oder negative Faktorladungen, die als Korrelation einer Variablen mit dem jeweiligen Faktor interpretiert werden können.


Tabelle 3.4

Rotated Component Matrix
Component
1 2
EX ,930 -,052
ECAB ,788 ,432
MET ,077 ,927
GROW ,625 ,290
YOUNG -,286 -,818


Der erste Faktor ist durch positive Ladungen mit den Variablen EX, ECAB und GROW verbunden, während die Variable MET positiv und die Variable YOUNG negativ auf den zweiten Faktor hochladen. Wirtschaftskraft, das Ausmaß der bereitgestellten öffentlichen Güter pro Kopf sowie das Bevölkerungswachstum lassen sich unter dem Begriff „wirtschaftliche Prosperität“ zusammenfassen. Anteil der Großstadtbevölkerung und der Menschen zwischen fünf und neunzehn Jahren an der Gesamtbevölkerung läßt sich unter dem Begriff „Urbanisierung“ zusammenfassen. Das negative Vorzeichen der Variablen YOUNG könnte daher kommen, daß in ländlichen Regionen die Geburtenrate höher ist als in Großstädten bzw. daß Familien mit Kindern sich bevorzugt außerhalb von Großstädten niederlassen, wodurch Staaten mit einem geringeren Anteil an Großstadtbevölkerung möglicherweise einen höheren Anteil von Kindern und Jugendlichen aufweisen.


Bestimmung der Faktorwerte

Der letzte Schritt der Faktorenanalyse besteht darin, die Positionierung der einzelnen Beobachtungen, in diesem Fall der Bundesstaaten der USA, in Bezug auf die beiden extrahierten Faktoren zu betrachten. Zur Schätzung der Faktorwerte stehen verschiedene Verfahren zur Verfügung, wobei im Rahmen dieser Arbeit die Regressions- Methode verwendet wird. In Abbildung 3.1 ist der erste Faktor auf der Y-Achse abgetragen, der zweite Faktor befindet sich auf der X-Achse. Die Werte beziehen sich auf den Durchschnitt aller Beobachtungen, d.h. ein Wert von größer als null bedeutet, daß der betreffende Bundesstaat in Bezug auf den entsprechenden Faktor über dem Durchschnitt aller betrachteten Bundesstaaten liegt.


Abbildung 3.1: Positionierung der Bundesstaaten anhand der Faktorwerte

FAgesamt.jpeg


Um eventuelle Unterschiede zwischen den östlichen und den westlichen Bundesstaaten deutlich zu machen wurden unterschiedliche Symbole verwendet. Die westlichen Staaten sind durch einen Kreis, die östlichen Staaten durch ein Viereck gekennzeichnet. Es läßt sich erkennen, daß die östlichen Staaten vergleichsweise dicht beieinander liegen, während die westlichen Staaten mehrere Ausreißer aufweisen. In Bezug auf den ersten Faktor erreichen die westlichen Staaten höhere Werte in Relation zu den östlichen Staaten. Das arithmetische Mittel liegt bei ca. 0,33, während die östlichen Staaten einen Mittelwert von -0,33 aufweisen. Beim zweiten Faktor liegen dagegen die östlichen Staaten vorne. Sie erreichen im Schnitt einen Wert von 0,43, die westlichen Staaten dementsprechend nur -0,43.


Faktorenanalyse für die östlichen Bundesstaaten

Im folgenden wird die Faktorenanalyse durchgeführt für die Teilstichprobe der östlichen Bundesstaaten. Das KMO-Kriterium für die gesamte Korrelationsmatrix liegt in diesem Fall bei 0,593, was deutlich besser ist als für die Gesamtstichprobe. Es kann daher darauf verzichtet werden, einzelne Variablen für den Zweck der Analyse zu eliminieren. Nach dem Kaiser-Kriterium werden zwei Faktoren extrahiert, die zusammen rund 75 % der Gesamtvarianz aller Variablen erklären. Wie Tabelle 2.6 zeigt, hat sich die Zusammensetzung der Faktoren im Vergleich zur Analyse der Gesamtstichprobe verändert.


Tabelle 3.5

Rotated Component Matrix
Component
1 2
EX ,809 ,294
ECAB ,745 ,444
MET ,369 ,792
GROW ,014 ,727
YOUNG -,843 -,456
OLD ,830 -,359


Der erste Faktor umfaßt die Variablen EX, ECAB, YOUNG und OLD, wobei sämtliche Variablen bis auf YOUNG eine positive Faktorladung aufweisen. Der zweite Faktor umfaßt die Variablen MET und GROW, deren Faktorladungen beide positiv sind. Eine mögliche Bezeichnung für den ersten Faktor wäre „Einkommen“. Steigendes Einkommen ist mit einer höheren wirtschaftlichen Leistungsfähigkeit, aber auch mit höheren Steuereinnahmen und dadurch mit einem höheren pro-Kopf-Niveau an öffentlichen Gütern verbunden. Die unterschiedlichen Vorzeichen der Variablen YOUNG und OLD könnten dadurch erklärt werden, daß in einem höheren Lebensalter im Schnitt ein höheres Einkommen erzielt wird. Der zweite Faktor läßt sich als „urbanes Wachstum“ bezeichnen. Bei der Betrachtung der Positionierung der einzelnen Bundesstaaten in Bezug auf die beiden Faktoren läßt sich kein eindeutiges Muster erkennen. Allerdings ist eine Konzentration von Beobachtungen im rechten oberen Bereich der Abbildung festzustellen, d.h. ungefähr im Wertebereich zwischen null und zwei beider Faktoren. Die übrigen Beobachtungen befinden sich entweder links oder unterhalb dieser Häufung.


Abbildung 3.2: Positionierung der östlichen Bundesstaaten anhand der Faktorwerte

FAost.jpeg


Faktorenanalyse für die westlichen Bundesstaaten

Für die Teilstichprobe der westlichen Bundesstaaten wird zunächst wieder die Korrelationsmatrix auf ihre Eignung für eine Faktorenanalyse untersucht. Der Bartlett-Test liefert das Ergebnis, daß die Nullhypothese, wonach die Variablen unkorreliert sind mit einer Irrtumswahrscheinlichkeit von 0 % abgelehnt werden kann. Das KMO-Kriterium liefert allerdings nur einen Wert von 0,531, weshalb es sinnvoll erscheint, Variablen vor der Durchführung der Analyse zu eliminieren.


Tabelle 3.6

Anti-Image-Korrelationsmatrix
EX ECAB MET GROW YOUNG OLD
EX ,710 -,476 ,312 -,145 -,037 ,006
ECAB -,476 ,610 ,107 ,023 ,653 ,441
MET ,312 ,107 ,641 -,405 ,289 ,054
GROW -,145 ,023 -,405 ,615 ,420 ,700
YOUNG -,037 ,653 ,289 ,420 ,381 ,850
OLD ,006 ,441 ,054 ,700 ,850 ,379


Ein Blick auf die Anti-Image-Matrix zeigt, daß die Werte für YOUNG und OLD mit 0,381 und 0,379 deutlich unter denen der übrigen Variablen liegen, weshalb diese beiden Variablen bei der folgenden Faktorenanalyse nicht verwendet werden. Für die verbliebenen Variablen liegt das KMO-Kriterium bei 0,604, womit die Mindestanforderung erfüllt ist. Es werden zwei Faktoren extrahiert, die gemeinsam knapp 86 % der Gesamtvarianz der Variablen erklären.


Tabelle 3.7

Rotated Component Matrix
Component
1 2
EX ,948 -,036
ECAB ,836 ,355
MET ,009 ,958
GROW ,559 ,695


Faktor 1 umfaßt die Variablen EX und ECAB, und läßt sich als “Wirtschaftskraft” bezeichnen. Der zweite Faktor entspricht in der Zusammensetzung dem zweiten Faktor der Analyse für die östlichen Bundesstaaten und wird dementsprechend als „urbanes Wachstum“ bezeichnet. Im letzten Schritt wird wiederum die Positionierung der westlichen Staaten in Bezug auf die beiden Faktoren dargestellt.


Abbildung 3.3: Positionierung der westlichen Bundesstaaten anhand der Faktorwerte

FAwest.jpeg


Im zentralen Bereich der Abbildung, d.h. ungefähr zwischen den Werten -1 und 1 beider Faktoren gibt es eine deutliche Konzentration von Beobachtungen, für die ein leicht negativer Zusammenhang zu existieren scheint. Diese Vermutung läßt sich allerdings nicht anhand einer linearen Regression bestätigen, da eine Reihe von Ausreißern das Ergebnis verzerrt.


Diskriminanzanalyse

Im dritten Abschnitt dieser Arbeit werden mögliche Unterschiede zwischen den östlichen und den westlichen Bundesstaaten anhand einer Diskriminanzanalyse untersucht. Grundsätzlich können auf diese Weise zwei Fragestellungen beantwortet werden, und zwar inwieweit sich die Gruppen signifikant voneinander unterscheiden sowie welchen Variablen bei der Unterscheidung zwischen den beiden Gruppen eine besondere Bedeutung zukommt. (vgl. Backhaus et al 2005, S.156) Die dritte Anwendungsmöglichkeit der Diskriminanzanalyse besteht darin, neue Beobachtungen in die bestehenden Gruppen einzuordnen. (vgl. Härdle/Simar 2003, S.330) Da es jedoch eher unwahrscheinlich ist, daß neue Bundesstaaten hinzukommen, kommt der dritten Anwendungsmöglichkeit in diesem Fall keinerlei praktische Bedeutung zu. Als erstes erfolgt bei einer Diskriminanzanalyse die Festlegung der Gruppen, zwischen denen unterschieden werden soll. Im vorliegenden Fall dient die Variable WEST als Gruppierungsvariable. Im nächsten Schritt erfolgt die Schätzung der Diskriminanzfunktion mit dem Ziel, eine bestmögliche Trennung zwischen den Gruppen sowie eine Überprüfung des Einflusses der einzelnen Variablen zu gewährleisten. Die Gruppierungsvariable ist die abhängige Größe, die als Linearkombination der Merkmalsvariablen dargestellt wird.(vgl Backhaus et al 2005, S.161) Als unabhängige Größen dienen die Variablen EX, ECAB, MET, GROW, YOUNG und OLD. Die Schätzung der Diskriminanzfunktion erfolgt dahingehend, daß ein bestimmtes Diskriminanzkriterium maximiert wird. Ein solches Kriterium ist beispielsweise der Quotient aus der Streuung zwischen den Gruppen und der Streuung in den Gruppen. (vgl. Backhaus et al 2005, S.165)

Nachdem die Koeffizienten der Diskriminanzfunktion geschätzt wurden erfolgt deren Prüfung anhand verschiedener Kriterien. Zunächst wird überprüft, inwieweit die Funktion in der Lage ist, die Beobachtungen korrekt in die bestehenden Gruppen einzuordnen. Als zweites erfolgt die Prüfung des Diskriminanzkriteriums auf dessen Güte. Drittens werden die unab-hängigen Variablen auf ihren Beitrag zur Unterscheidung zwischen den Gruppen geprüft.


Prüfung der Zuordnung von Beobachtungen

Tabelle 4.1 beinhaltet die absoluten und relativen Häufigkeiten der korrekten und irrtümlichen Zuordnungen von Beobachtungen zu den beiden Gruppen. Von den östlichen Bundesstaaten wurden 20 richtig klassifiziert, vier sind falsch eingeordnet worden. Bei den westlichen Bundesstaaten wurden 18 korrekt und sechs fehlerhaft klassifiziert. Insgesamt ergeben sich somit 38 Treffer bei 48 Bundesstaaten. Dies entspricht einer Erfolgsquote von 79,2 %. Bei einer rein zufälligen Zuordnung der Elemente in die beiden Gruppen ergäbe sich eine Trefferquote von 50 %. (vgl. Backhaus et al 2005, S.180) Somit ist durch die geschätzte Diskriminanzfunktion eine erhebliche Verbesserung der Trefferwahrscheinlichkeit erreicht worden.


Tabelle 4.1

Classification Results
west Predicted Group Membership Total
0 1
Original Count 0 20 4 24
1 6 18 24
 % 0 83,3 16,7 100,0
1 25,0 75,0 100,0


Prüfung des Diskriminanzkriteriums

Zur Überprüfung des Diskriminanzkriteriums stehen zwei Gütemaße zur Verfügung. Das erste ist der bereits angesprochene Eigenwert, der sich als Quotient aus der Streuung zwischen den Gruppen und der Streuung in den Gruppen berechnet.


Tabelle 4.2

Eigenvalues
Function Eigenvalue  % of Variance Cumulative % Canonical Correlation
1 ,665 100,0 100,0 ,632


Wie aus der zweiten Spalte von Tabelle 4.2 ersichtlich beträgt dieser Wert 0,665. Eine Interpretation dieses Kriteriums ist jedoch problematisch, da keine Normierung stattfindet. (vgl. Backhaus et al 2005, S.181) Ein weiteres Gütemaß ist Wilk’s Lambda. Es berechnet sich als Quotient aus nicht erklärter Streuung und Gesamtstreuung. Wilk’s Lambda hat den Vorteil, daß es eine Prüfung der Signifikanz der Diskriminanzfunktion ermöglicht.(vgl. Backhaus et al 2005, S.183)


Tabelle 4.3

Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 ,600 21,935 6 ,001


Im konkreten Fall hat Wilk’s Lambda den Wert 0,6. Hierbei ist zu beachten, daß die Güte der Diskriminanzfunktion um so höher ist, je geringer der Wert ausfällt. Die statistische Signifikanz wird anhand der Nullhypothese geprüft, daß sich die beiden Gruppen nicht voneinander unterscheiden. Diese Hypothese ist bei einer Irrtumswahrscheinlichkeit von 0,001 abzulehnen. Demnach ist die geschätzte Diskriminanzfunktion geeignet, eine signifi-kante Unterscheidung zwischen den beiden Gruppen zu gewährleisten.


Prüfung der unabhängigen Variablen

Anhand Tabelle 4.4 läßt sich abschätzen, wie gut jede der Variablen für sich genommen zu einer Unterscheidung beiträgt. Von allen Variablen besitzt EX die größte Trennschärfe. Wenn man eine Irrtumswahrscheinlichkeit von maximal 5 % akzeptiert, dann liefern bei isolierter Betrachtung lediglich die Variablen EX, MET und YOUNG einen signifikanten Beitrag zur Unterscheidung zwischen den beiden Gruppen.


Tabelle 4.4

Tests of Equality of Group Means
Wilks' Lambda F df1 df2 Sig.
EX ,861 7,457 1 46 ,009
ECAB ,998 ,073 1 46 ,788
MET ,891 5,653 1 46 ,022
GROW ,993 ,331 1 46 ,568
YOUNG ,916 4,194 1 46 ,046
OLD ,998 ,078 1 46 ,782


Dies sagt allerdings noch nichts aus über die Bedeutung der einzelnen Variablen innerhalb der Diskriminanzfunktion. Hierzu ist es notwendig die in Tabelle 4.5 abgebildeten standardi-sierten kanonischen Diskriminanzfunktionskoeffizienten zu betrachten. Es zeigt sich, daß die Variable YOUNG den größten Einfluß hat, gefolgt von OLD und EX.


Tabelle 4.5: Standardized Canonical Discriminant Function Coefficients

Function
1
EX ,865
ECAB ,333
MET ,149
GROW ,378
YOUNG 1,714
OLD 1,054


Zusammenfassung

Die Faktorenanalyse für die Gesamtstichprobe lieferte zwei Faktoren, die als „wirtschaftliche Prosperität“ und „Urbanisierung“ bezeichnet wurden. Anhand der Positionierung der Beobachtungen in Bezug auf die beiden Faktoren ließ sich feststellen, daß die westlichen Bundesstaaten eine größere Streuung aufweisen als die östlichen. Die zweite Erkenntnis lautet, daß die westlichen Staaten bezogen auf den Faktor „wirtschaftliche Prosperität“ in Relation zu den östlichen Staaten höhere Werte aufweisen, dafür aber niedrigere Werte beim Faktor „Urbanisierung“ haben als ihre östlichen Nachbarn.

Die Faktorenanalyse für die Teilstichprobe der östlichen Bundesstaaten lieferte ebenfalls zwei Faktoren, allerdings in anderer Zusammensetzung. Der erste Faktor wurde als „Einkommen“ bezeichnet, der zweite als „urbanes Wachstum“. Bei der Positionierung Der Beobachtungen anhand der Faktorwerte fiel eine Konzentration im rechten oberen Bereich der Grafik auf, d.h. eine Teilgruppe innerhalb der östlichen Bundesstaaten die in Bezug auf Einkommen und urbanes Wachstum überdurchschnittliche Werte erzielen. Die übrigen östlichen Staaten weisen entweder in Bezug auf den ersten oder den zweiten Faktor deutlich unterdurchschnittliche Werte auf.

Die isolierte Analyse der westlichen Bundesstaaten lieferte die Faktoren „Wirtschaftskraft“ und „urbanes Wachstum“, wobei der zweite Faktor in seiner Zusammensetzung mit dem der Analyse für die östlichen Bundesstaaten übereinstimmt. Der Unterschied zwischen den beiden Teilanalysen liegt im ersten Faktor, der bei den westlichen Staaten zwei Variablen (OLD, YOUNG) weniger enthält. Die Positionierung der Beobachtungen anhand der beiden Faktoren zeigt eine Konzentration im Zentrum der Abbildung, wobei innerhalb dieser Häufung höhere Werte für den ersten Faktor tendenziell mit niedrigeren Werten für den zweiten Faktor einhergehen. Eine Prüfung des vermuteten negativen Zusammenhangs anhand einer linearen Regression liefert kein sinnvolles Ergebnis, da die übrigen Beobachtungen um den zentralen Bereich verstreut sind und somit das Ergebnis verzerren.

Ziel der Diskriminanzanalyse war die Identifikation derjenigen Variablen, anhand derer sich die beiden Teilgruppen am deutlichsten unterscheiden. Bei einer isolierten Betrachtung sind lediglich die Variablen EX, MET und YOUNG dazu geeignet, eine signifikante Trennung zu gewährleisten. Im Rahmen der geschätzten Diskriminanzfunktion besitzt die Variable YOUNG das größte Gewicht, gefolgt von OLD und EX.


Literaturverzeichnis

Backhaus, Klaus/ Erichson, Bernd / Plinke, Wulff / Weiber, Rolf: Multivariate Analysemethoden 11. Auflage, Springer-Verlag 2005

Härdle, Wolfgang / Simar, Leopold: Applied Multivariate Statistical Analysis Springer-Verlag 2003

Paulssen, Marcel: Vorlesungsskript "Advanced Marketing Research", Teil 3 (Factor Analysis), SS 2005

The Data and Story Library: http://lib.stat.cmu.edu/DASL/

Kommentare

  • Bartlett Test ist sensitiv gegen Verletzung der Normalverteilungsannahme, besser wäre hier der Levene-Test
  • Hinweis: Korrelation OLD-YOUNG
  • Auch viele ältere Menschen ziehen eine ruhigere (ländlicher) Umgebung vor
  • Welches Kriterium wurde denn nun verwendet?
  • Klare Struktur und Aussagen