Faktorenanalyse

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Dieser Artikel wurde in der deutschsprachigen Wikipedia erstellt und in das teachwiki importiert und bearbeitet. Hierbei wurden Änderungen am Artikel von unterschiedlichen Autoren gemacht. Die Versionsgeschichte und Autorenschaft dazu ist im entsprechenden Artikel der deutschsprachigen Wikipedia zu finden.

Die Faktorenanalyse, häufig auch Faktoranalyse, ist ein Verfahren der multivariaten Statistik. Es dient dazu, aus empirischen Beobachtungen vieler verschiedener manifester Variablen (Observablen, Items) auf wenige zugrunde liegende latente Variablen („Faktoren“) zu schließen. Die Entdeckung dieser voneinander unabhängigen Variablen oder Merkmale ist der Kern des datenreduzierenden (auch dimensionsreduzierenden) Verfahrens.

Unterschieden wird die Faktorenanalyse in die explorative Faktorenanalyse und die konfirmatorische Faktorenanalyse. Die konfirmatorische Faktorenanalyse ist ein inferenz-statistisches Verfahren und kann als Spezialfall eines Strukturgleichungsmodells aufgefasst werden. Die Faktorenanalyse ist ein bekanntes Verfahren im Umgang mit manifesten und latenten Variablen.

Geschichte[edit]

Die Faktorenanalyse wurde vom Psychologen Charles Spearman für die Auswertung von Intelligenztests entwickelt. 1904 zeigte er, dass Testergebnisse zu einem guten Teil durch ein eindimensionales Persönlichkeitsmerkmal, den general factor (g-Faktor), erklärt werden konnten. Die Verallgemeinerung auf eine Analyse mit mehreren Faktoren wird J. C. Maxwell Garnett zugeschrieben (Steiger 1979); popularisiert wurde sie in den 1940er Jahren von Louis Leon Thurstone.

Maximum-Likelihood-Schätzmethoden wurden in den 1930er und 40er Jahren von Lawley und Victor Barnett vorgeschlagen; ein stabiler Algorithmus wurde in den 1960ern von Karl Gustav Jöreskog entwickelt (Krzanowski, S. 487).

Bis heute wird jedoch trotz schlechter Konvergenzeigenschaften auch eine iterative Variante der Hauptkomponentenanalyse zur Faktorenextraktion eingesetzt. Ungenauigkeiten bis hin zur völligen Gleichsetzung von Faktoren- und Hauptkomponentenanalyse sind weit verbreitet.

Anwendungsgebiete[edit]

Die Faktorenanalyse ist ein universell einsetzbares Werkzeug, um von den sichtbaren Erscheinungen auf die diesen Erscheinungen zugrunde liegenden unbeobachtbaren Ursachen zu schließen. So sind zum Beispiel Konstrukte wie "Intelligenz" oder "Ehrgeiz" nicht messbar, werden aber als Ursache vieler Verhaltensweisen angesehen.

Gelegentlich wird die Faktorenanalyse auch für naturwissenschaftliche Probleme eingesetzt. Es gibt Beispiele für die faktorenanalytische Bearbeitung von Klangsignalen (Spracherkennung), bei denen akustische Hauptfaktoren herausgezogen werden. Hiermit werden Sprachüberlagerungen (Flughafenansage, Konferenzmitschnitte) oder überlagerte Musikaufnahmen verständlicher gemacht (Blind Source Separation, Independent Component Analysis (ICA), siehe auch Weblinks). Zum Beispiel kann man aus einem Persönlichkeitstest, bei dem Probanden einen Fragebogen mit etwa 60 Fragen ausfüllen, 8 bis 12 Faktoren bestimmen und als Extraversion, Introversion, Großzügigkeit, Konventionalität usw. interpretieren.

Die Faktorenanalyse verfolgt nach Markus Witz und Christof Nachtigall im Allgemeinen drei Ziele:[1]

  1. Reduktion der Variablenanzahl: Die Faktorenanalyse erkennt Variablengruppen, in denen jeweils alle Variablen ähnliche Informationen erfassen. Werden die Variablen innerhalb jeder homogenen Gruppe zusammengefasst, ergibt sich eine ökonomischere Darstellung der Gesamtinfomation.
  2. Ermittlung reliabler Messgrößen: Werden die Variablen zu einem Faktor zusammengefasst, so besitzt dieser Faktor günstigere messtechnische Eigenschaften als die einzelnen Variablen.
  3. Analytische Zielsetzung: Die Faktorenanalyse ermöglicht es, von den manifesten Variablen (den Indikatorvariablen) auf übergeordnete latente Variablen (z.B. Intelligenz) zu schließen.

Beispiel[edit]

In einer Müllsortierungsanlage seien zur Trennung des Mülls ein Magnet mit vertikaler Wirkungsrichtung und ein Gebläse mit horizontaler Wirkungsrichtung installiert. Die geometrischen Koordinaten der Müllstücke beim Niederfallen mögen Teil der erhobenen Daten sein. Man findet Richtungskorrelationen bei Stücken ohne Metall und großer Windanfälligkeit sowie bei Stücken mit Metallgehalt und geringer Windanfälligkeit.

Mit der Faktorenanalyse kann man dann zunächst herausfinden, dass es zwei orthogonale Einflüsse gibt, die die Bewegungsrichtung beeinflussen.

Die Applikation der Untersuchungsmethode mag dann sein,

  • zunächst die Anzahl der Faktoren zu schätzen (s.u.): Es ist sicher nicht interessant, für jedes einzelne Stück die Flugbahn zu dokumentieren und für jedes Stück einen eigenen Faktor anzunehmen, sondern aus den Korrelationen der Daten wesentliche gemeinsame Faktoren zu extrahieren: sehr wahrscheinlich bilden sich zwei Faktoren aus dem Datenmaterial heraus,
  • die Stärke und die Orientierung dieser Einflüsse zu bestimmen (noch ohne Theorie über die Art der Einflüsse) oder
  • aus der Kenntnis der Stückeigenschaften (metallisch, kompakt vs nichtmetallisch, windanfällig) die Faktoren inhaltlich zu beschreiben und für die kontinuierlichen Eigenschaften "Metallanteil" und "Windwiderstand" die "Ladungen" auf den Faktoren (deren Korrelationen mit der Magnetkraft und der Gebläsestärke) zu beschreiben.

Es wird an diesem Beispiel auch der Unterschied zwischen orthogonaler und schiefwinkliger Faktorenanalyse deutlich: vor allem in den Sozialwissenschaften gehen wir in der Regel von nicht-orthogonalen Faktoren aus: die sozialwissenschaftlichen Analoge zu Gebläse und Magnet im Beispiel müssen nicht unbedingt im Winkel von 90 Grad zueinander angeordnet sein und entsprechend einwirken.

In einer explorativen Situation, in der man noch keine Hypothesen über die Gründe für das Auftreten korrelierter Auftreffpunkte hat, wird man sich mit dem Auffinden und Markieren von zwei Faktoren zufriedengeben, und versuchen einzugrenzen, auf was diese Richtungskorrelationen zurückzuführen sind. In einer konfirmatorischen Situation wird man untersuchen, ob die aufgefundenen Korrelationen tatsächlich mit zwei Faktoren (wie vielleicht aus einer Theorie her anzunehmen) zu erklären sind, oder ob man einen dritten Faktor annehmen muss (oder tatsächlich nur ein Faktor wirkt).

Explorative und konfirmatorische Faktoranalyse[edit]

Die Faktorenanalyse kann in die explorative und die konfirmatorische Faktorenanalyse aufgeteilt werden. In der explorativen Faktorenanalyse wird davon ausgegangen, dass jeder Faktor mit jedem Item korrelieren kann. Die explorative Faktoranalyse dient der Reduktion der Daten, soll die Hauptdimensionen der Skalen entdecken und zudem Messfehler aufdecken. Die Hauptaufgabe stellt jedoch die Erstellung der Hypothesen dar. Sie wird daher benutzt, um mögliche existierende Faktorenstrukturen aufzufinden.

Die konfirmatorische Faktorenanalyse wird dagegen zur Überprüfung der Ergebnisse aus der explorativen Faktorenanalyse genutzt. Zudem ist es möglich, die Skalen zu validieren und die Dimensionen der Skalen zu testen.

Mathematischer Rahmen[edit]

Geometrische Bedeutung[edit]

Geometrisch gesehen, werden die in die Berechnung einbezogenen Items als Vektoren gesehen, die allesamt vom selben Ursprung ausgehen. Die Länge dieser p Vektoren wird durch die Kommunalität der jeweiligen Items und die Winkel zwischen den Vektoren werden durch deren Korrelation bestimmt. Die Korrelation r zweier Items x_i, x_j und der Winkel \alpha zwischen deren Vektoren hängen folgendermaßen zusammen

{r}(x_i,x_j) = \cos \alpha

Eine Korrelation von 1 stellt also einen Winkel von 0°, eine Unkorreliertheit hingegen einen rechten Winkel dar. Ein Modell aus p Variablen spannt somit einen p-dimensionalen Raum auf. Ziel der Faktorenanalyse ist es, dieses Konstrukt geometrisch zu vereinfachen, also einen q-dimensionalen Unterraum zu finden. Es sollen durch das Extraktionsverfahren irrelevante Faktoren "ausgeblendet" werden. Die Lösung dieses Verfahrens sind sogenannte "Punktwolken" in einem q-dimensionalen Koordinatensystem. Die Koordinaten dieser Punkte stellen die sogenannten Faktorladungen dar. Durch ein Rotationsverfahren sollen die q extrahierten Faktoren so nahe wie möglich in diese Punktwolken gedreht werden.

Lineares Faktorenmodell[edit]

Der Faktorenanalyse liegt stets ein lineares Modell zugrunde:

x = \mu+\Gamma z+\epsilon

mit

  • x: Vektor der p zu erklärenden Variablen,
  • \mu: Vektor mit konstanten Werten,
  • \Gamma: Matrix der „Faktorladungen“,
  • z: Vektor der q Faktorwerte,
  • \epsilon: Zufallsvektor mit Mittelwert 0.

Es wird gefordert, dass die Komponenten von z zentriert, normiert und untereinander sowie mit \epsilon unkorreliert sind.

In der Regel wird außerdem gefordert, dass die Komponenten von ε nicht miteinander korreliert sind. Wird diese Forderung fallengelassen, ist das Modell invariant unter orthogonaler Transformation der \Gamma, z und ε.

Das empirische Datenmaterial besteht aus n Realisationen des Variablenvektors x (z. B. Fragebögen mit p Fragen, die von n Probanden bearbeitet wurden). Zur Notationsvereinfachung kann angenommen werden, dass die Rohdaten in einem ersten Schritt der Auswertung zentriert wurden, so dass \mu=0.

Im Rahmen einer Faktorenanalyse sind zu schätzen:

  • die Anzahl q der Faktoren,
  • die p\times q Faktorladungen aus \Gamma,
  • die p Varianzen der Residuen aus \epsilon,
  • die n\times q Realisationen des Faktorvektors z.

Die Schätzung erfolgt typischerweise in drei oder mehr Schritten:

  • Es werden mögliche Faktoren identifiziert („extrahiert“);
  • es wird entschieden, welche Anzahl q von Faktoren berücksichtigt werden soll;
  • eventuell werden Faktoren rotiert, um ihre Interpretation zu vereinfachen;
  • zuletzt werden die Faktorvektoren z für die einzelnen Realisationen von x (z. B. persönliche Werte für einzelne Probanden) geschätzt.

Hauptsatz[edit]

Aus den Modellannahmen folgt nach kurzer Rechnung der Hauptsatz der Faktoranalyse:

\operatorname{Cov}(x_i,x_j) = (\Gamma\Gamma^\operatorname{T})_{ij} + \operatorname{Cov}(\epsilon_i,\epsilon_j).

Für i=j vereinfacht sich dieser Satz zu

\operatorname{Var}(x_i) = \sum_{k=1}^q{\Gamma_{ik}}^{\!\!2} + \operatorname{Var}(\epsilon_i).

Hier steht Var für die Varianz, Cov für die Kovarianz und T für Matrixtransposition.

Der Term \mbox{Var}(\epsilon_i) ist derjenige Anteil der Varianz der Observablen x_i, der durch das Faktorenmodell nicht erklärt wird. Der erklärte Anteil, \mbox{Var}(x_i)-\mbox{Var}(\epsilon_i), also die Summe der quadrierten Faktorladungen, heißt Kommunalität der Variablen x_i.

Explorative Faktorenanalyse[edit]

Die explorative Faktorenanalyse wird in sechs Schritten durchgeführt

  • Variablenauswahl und Errechnung der Korrelationsmatrix
  • Bestimmung der Kommunalitäten
  • Prüfung der Korrelationsmatrix auf Eignung
  • Bestimmung der Anzahl der Faktoren/ Extraktion der Faktoren
  • Faktorrotation
  • Bestimmung der Faktorenwerte

Variablenauswahl und Errechnung der Korrelationsmatrix[edit]

Besondere Sorgfalt muss auf die Wahl der Untersuchungsmerkmale gelegt werden. Diese sollen relevant sein. Desweiteren soll die Stichprobe aus einer möglichst homogenen Gruppe genommen werden, da durch den Homogenitätsgrad der Stichprobe die Höhe der Korrelationen zwischen den Variablen beeinflusst wird. Wichtig ist außerdem, dass die einzelnen Fragen objektiv gestellt werden und den Befragten in keiner Weise vorab beeinflusst wird. Die aus den Befragungen gewonnen Daten müssen zudem metrisch skaliert sein.

Bestimmung der Kommunalitäten[edit]

Die Gesamtvarianz einer Variablen lässt sich in Kommunalität (durch die gemeinsamen Faktoren erklärt) und Einzelrestvarianz (auf spezifische Faktoren oder Messfehler zurückzuführen) aufteilen. Die Kommunalität erklärt somit den Anteil der gemeinsamen Varianz und ist daher ein Maß für den Grad des Zusammenhangs einer Variablen mit allen anderen Variablen. Zur Schätzung von unbekannten Kommunalitäten dient folgende Formel:


h^2_{j}= {\sum a^2_{jq}}


Dabei gibt es verschiedene Methoden, die Kommunalitäten zu bestimmen:

(1) Wird angenommen, dass die gesamte Varianz erklärt werden kann, werden die Kommunalitäten gleich 1 gesetzt

(2) Ein Schätzwert wird vorgegeben:

- höchster quadrierter Korrelationskoeffizient einer Variable mit den anderen Variablen

- multiples Bestimmtheitsmaß

(3) Die Kommunalitäten werden durch den Iterationsprozess der Faktorenanalyse bestimmt

Prüfung der Korrelationsmatrix auf Eignung für die Faktorenanalyse[edit]

Vor der Durchführung der Faktorenanalyse ist es sinnvoll, die Korrelationsmatrix der Variablen auf Eignung für die Faktorenanalyse zu prüfen. Wenn die erhobenen Merkmale gar nicht oder nur schwach untereinander zusammenhängen ist es unwahrscheinlich, dass sich Faktoren finden lassen, die gemeinsam auf einem Faktor laden. Somit wäre eine Datenreduktion auf eine geringere Anzahl von Dimensionen nicht möglich. Zu diesem Zweck stehen verschiedene Testmethoden zur Verfügung.

Der Bartlett-Test auf Sphärizität prüft, ob die Daten aus einer Grundgesamtheit stammen, in der die Variablen untereinander allesamt unkorreliert sind. Kann diese Hypothese verworfen werden, eignet sich die Korrelationsmatrix zur Durchführung einer Faktorenanalyse.

Die Anti-Image-Korrelationsmatrix gibt dagegen an, wie groß der Anteil der Varianz der einzelnen Variablen ist, der sich nicht durch die anderen Variablen erklären lässt. Daher sollten die Diagonalelemente der Matrix mindestens über 0,5 liegen (Werte ab 0,8 werden als sehr gut angesehen). Eine dritte Methode stellt das Kaiser-Meyer-Olkin-Kriterium dar.

Faktorenextraktion[edit]

Für die Extraktion der Faktoren gibt es unterschiedliche Verfahren:

Hauptachsenmethode[edit]

Bei der Hauptachsenmethode werden zunächst die Kommunalitäten geschätzt: Entweder als Bestimmtheitsmaß der Regression der betrachteten Messvariablen auf alle anderen Messvariablen oder als das Maximum der Beträge der Korrelationen der betrachteten Messvariablen mit allen anderen Messvariablen. Danach wird ein iteratives Verfahren durchgeführt:

  1. Die Varianzen der Residuen werden geschätzt als Differenz der Varianz der Messvariablen und der entsprechenden Kommunalität.
  2. Für die reduzierte Kovarianzmatrix werden die Eigenwerte und -vektoren berechnet. Die reduzierte Kovarianzmatrix enthält im Gegensatz zur Kovarianzmatrix auf der Hauptdiagonalen die Kommunalitäten.
  3. Mit den Eigenvektoren der q größten Eigenwerte wird die reproduzierte Korrelationsmatrix berechnet. Die Hauptdiagonale der reproduzierten Korrelationsmatrix ergibt eine neue Schätzung der Kommunalitäten.
  4. Die ersten drei Schritte werden wiederholt, bis sich die Schätzungen der Ladungen, Kommunalitäten und Varianzen der Residuen stabilisiert haben.

Bei der Hauptachsenmethode werden also erst die Kommunalitäten und Varianzen der Residuen geschätzt und danach die Eigenwertzerlegung durchgeführt. In der Hauptkomponentenanalyse wird erst die Eigenwertzerlegung durchgeführt und danach werden die Kommunalitäten und Varianzen der Residuen geschätzt. Für die Interpretation bedeutet das, dass bei der Hauptkomponentenanalyse die gesamte Varianz einer Messvariablen vollständig durch die Komponenten erklärt werden kann, während bei der Hauptachsenmethode ein Anteil der Varianz einer Messvariablen existiert, der nicht durch die Faktoren erklärt werden kann.

Ein Nachteil der Hauptachsenmethode ist, dass im Laufe des Iterationsprozesses die Varianz der Residuen negativ oder größer als die Varianz der Messvariablen werden kann. Das Verfahren wird dann ohne Ergebnis abgebrochen.[2]

Maximum-Likelihood-Schätzung[edit]

Die Parameterschätzung steht auf einer sicheren Grundlage, wenn man die Γ, die \zeta=\mbox{Var}(\epsilon) und die (in den vorigen Abschnitten nicht mitnotierten) μ so bestimmt, dass sie die Likelihood L(x;\mu,\Gamma, \zeta) der beobachteten Realisationen von x maximieren.

Allerdings muss man bei diesem Schätzverfahren Annahmen über die Wahrscheinlichkeitsverteilung der manifesten Variablen x treffen, in der Regel also eine Normalverteilung annehmen.

Bestimmung der Faktorenzahl[edit]

Bei der Extraktion entstehen je nach Option und Verfahren sehr viele Faktoren. Nur wenige von ihnen erklären genug Varianz, um ihre weitere Verwendung rechtfertigen zu können. Die Auswahl der Faktoren dient in erster Linie der Gewinnung von aussagekräftigen, gut interpretierbaren Ergebnissen und ist damit nur eingeschränkt objektivierbar. Anhaltspunkte können folgende Kriterien liefern:

Bei der Faktorenanalyse sollen nur diejenigen Faktoren extrahiert werden, die einen bedeutenden Teil der Varianz erklären und daher einen hohen Eigenwert besitzen. Deshalb werden mit Hilfe des Kaiser- Kriteriums alle Faktoren extrahiert, die einen Eigenwert von über 1 besitzen. Das Kaiser- Kriterium basiert auf der Annahme, dass ein Faktor, dessen Varianzerklärungsanteil über alle Variablen kleiner als 1 ist, weniger Varianz erklärt als eine einzelne Variable, da die Varianz einer standardisierten Variable 1 beträgt.

Beim Scree-Tests werden die Eigenwerte der Faktoren in abfallender Reihenfolge sortiert und anschließend in einem Scree-Plot graphisch dargestellt. Alle Faktoren über bzw. links vom „Ellbogen“ bzw. Knick werden extrahiert.

Screeplot.PNG

In diesem Besipiel würden mit dem Kaiser- Kriterium 3 Faktoren extrahiert werden, mit dem Scree- Test dagegen nur 2.

Grundsätzlich sollten mehrere Kriterien herangezogen werden. Insbesondere im Zweifelsfall bietet es sich an, mehrere Faktorenzahlen durchzurechnen und im Hinblick auf Ladungen und Interpretierbarkeit zu überprüfen.

Gibt die der Untersuchung zugrundeliegende Theorie eine bestimmte Faktorenanzahl vor, kann diese auch in der Faktorenanalyse verwendet werden. Auch kann seitens des Untersuchenden mehr oder minder willkürlich festgelegt werden, welcher Anteil der Gesamtvarianz erklärt werden soll, die hierfür erforderliche Faktorenzahl leitet sich dann daraus ab. Jedoch ist auch bei einer theorie- oder varianzgeleiten Festlegung die Faktorenzahl anhand der genannten Kriterien auf Plausibilität zu prüfen.

Faktorrotation[edit]

Template:Hauptartikel

Die Rotation soll die Faktoren inhaltlich besser interpretierbar machen. Die Faktorenladungen werden so verändert, dass einige Faktorenladungen besonders groß und andere wiederrum besonders klein werden, ohne die Signifikanz der Analyse zu verändern. Zur Verfügung stehen verschiedene Verfahren, darunter:

  • orthogonale, d.h. die rotierten Faktoren sind wieder unkorreliert,
    • Varimax
    • Quartimax
    • Equamax
  • und schiefwinklige, d.h. die rotierten Faktoren sind korreliert,
    • Oblimin
    • Promax

Diese Verfahren nähern sich der Rotationslösung iterativ an und erfordern meist zwischen 10 und 40 Iterationsrechnungen. Grundlage für die Berechnung ist eine Korrelationsmatrix.

Bestimmung der Faktorenladungen und Faktorenwerte[edit]

Mit Hilfe der rotierten Komponentenmatrix kann anschließend bestimmt werden, welche Variablen auf welchen Faktoren laden. Ladungen über 0,5 gelten hierbei als signifikant.

Rotierte Komponentenmatrix.PNG

Das oben gezeigte Beispiel enthält eine mit dem Statistik- Programm SPSS erstellte rotierte Komponentenmatrix. Probanden wurden gefragt, welche Merkmale sie mit dem iPhone assoziieren. Antwortmöglichkeiten reichten auf einer Likert- Skala von stimme gar nicht zu bis stimme total zu.

Ab einem Wert von 0,5 kann davon gesrochen werden, dass die Variable auf der jeweiligen Komponente lädt. Die Abbildung zeigt, wie mit Hilfe der Faktorenanalyse die Items Design, Innovativeness (Innovationsgrad), Practical (praktische Anwedungen), Easy to use (einfache Handhabung), too big (zu groß) und Affordable (finanziell erschwinglich) zu drei Faktoren (in diesem Fall 1, 2 und 3 genannt) zusammengefasst werden können.

Es ist jedoch nicht nur wichtig, die Variablen auf eine geringere Anzahl von Faktoren zu reduzieren, sondern auch zu erfahren, welche Werte die Objekte hinsichtlich der extrahierten Faktoren annehmen. Hierfür werden die Faktorenwerte bestimmt, die bestimmt sind durch:


 Z = {P * A' + \tilde U}


Eine graphische Darstellung (Mapping) eignet sich um zum Beispiel die Positionierung von Produkten in einem zweidimensionalen Wahrnehmungsraum darzustellen.

Faktorwerte werden dabei immer relativ, d.h. als Abweichungen vom auf Null normierten Mittelwert dargestellt.

Das "Gewicht" eines Faktors wird daraus bestimmt, wie viele Messvariablen mit ihm korrelieren, wie hoch sie "auf diesem Faktor laden". Quantifiziert wird dies durch die Summe der Ladungsquadrate. (Dies stimmt im orthogonalen Fall mit den Eigenwerten der Ladungsmatrix überein). Hierbei kann man die Faktoren nach der Höhe der Ladungsquadratsumme (LQS) sortieren.

Abschließend müssen die aus der Faktorenanalyse gewonnenen Faktoren interpretiert werden. Die Faktoren, auf denen mehrere verschiedene Variablen oder Merkmale laden, müssen benannt und durch inhaltliche Überlegungen plausibel gemacht werden.

Konfirmatorische Faktorenanalyse[edit]

Nachdem nun Hypothesen erstellt wurden, welche Variablen auf welchen Faktoren laden, können diese mit Hilfe der konfirmatorischen Faktorenanalyse anschließend überprüft und verifiziert werden. Die konfirmatorische Faktorenanalyse wird mit Hilfe von Strukturgleichungsmodellen durchgeführt. Hierfür stehen unterschiedliche Programme zur Verfügung, unter anderem die Computerprogramme LISREL und PLS.

Faktoren- versus Hauptkomponentenanalyse[edit]

Die Faktorenanalyse und die Hauptkomponentenanalyse besitzen eine Reihe von Gemeinsamkeiten:

  • Beide Verfahren dienen der Dimensionsreduktion.
  • Beide Verfahren sind lineare Modelle zwischen den Komponenten/Faktoren und Variablen.
  • Beide Verfahren können sowohl auf eine Kovarianz- als auch auf eine Korrelationsmatrix angewendet werden.
  • Beide Verfahren ergeben oft ähnliche Resultate (wenn bei der Faktorenanalyse keine Rotation angewandt wird).

Jedoch gibt es auch eine Reihe von Unterschieden:

  • Die Hauptkomponentenanalyse beginnt damit, dass sie einen niedrigdimensionalen linearen Unterraum sucht, der die Daten am besten beschreibt. Da der Unterraum linear ist, kann er durch ein lineares Modell beschrieben werden. Sie ist daher ein deskriptiv-exploratives Verfahren. Die Faktorenanalyse legt ein lineares Modell zugrunde und versucht die beobachtete Kovarianz- oder Korrelationsmatrix zu approximieren. Sie ist daher ein modellbasiertes Verfahren.
  • In der Hauptkomponentenanalyse gibt es eine klare Rangfolge der Vektoren, gegeben durch die absteigenden Eigenwerte der Kovarianz- oder Korrelationsmatrix. In der Faktorenanalyse wird zunächst die Dimension des Faktorraums festgelegt und alle Vektoren stehen gleichberechtigt nebeneinander.
  • In der Hauptkomponentenanalyse wird ein p-dimensionaler Zufallsvektor x durch eine Linearkombination von Zufallsvektoren z_k dargestellt, die so gewählt werden, dass der erste Summand einen möglichst großen Anteil der Varianz von x erklärt, der zweite Summand möglichst viel von der verbleibenden Varianz, und so weiter. Wenn man diese Summe nach q Gliedern abbricht, erhält man als Darstellung von x
x_i=\sum_{k=1}^q G_{ik} z_k + e_i
mit dem Restterm
e_i=\sum_{k=q+1}^p G'_{ik} z_k.
Auf den ersten Blick sieht x wie das lineare Modell der Faktorenanalyse aus. Jedoch sind die Komponenten von e miteinander korreliert, da sie von denselben z_k abhängen. Da dies die Voraussetzung der Faktorenanalyse verletzt, erhält man aus einer Hauptkomponentenanalyse kein korrektes Faktorenmodell.
  • Man modelliert nur die Varianzen, nicht aber die Kovarianzen der x.[3] Die totale Varianz, das Optimalitätskriterium der Hauptkomponentenanalyse, lässt sich schreiben als der aufsummierte Abstand zwischen den Beobachtungen und dem Mittelwert der Beobachtungen. Die genaue Anordnung der Beobachtungen im hochdimensionalen Raum, deren linearer Teil mit der Kovarianz- oder Korrelationmatrix beschrieben wird, spielt jedoch keine Rolle.
  • Die Hauptkomponentenanalyse geht davon aus, dass die gesamte Varianz einer Messvariablen vollständig durch die Komponenten erklärt werden kann
  • Daher werden bei der Hauptkomponentenanalyse die Kommunalitäten gleich 1 gesetzt.
  • Die Faktorenanalyse auf der anderen Seite geht davon aus, dass die Gesamtvarianz nicht komplett durch die extrahierten Faktoren erklärt werden kann. Nur die Varianz, die jede einzelne Variable mit den anderen Variablen teilt, ist für die Analyse vorhanden.
  • Daher werden bei der Faktorenanalyse die Kommunalitäten kleiner 1 gesetzt.
  • Die Hauptkomponentenanalyse dient hauptsächlich der Datenreduktion.
  • Die Faktorenanalyse analysiert zusätzlich kausale Zusammenhänge.

Siehe auch[edit]

Literatur[edit]

  • Revenstorf, Dirk: Lehrbuch der Faktorenanalyse Kohlhammer, Stuttgart (1976)
  • Überla, Karl:Faktorenanalyse , Springer Verlag, Berlin (1968)
  • Mulaik, S.:The foundations of factor analysis McGraw-Hill, New York, (1972)
  • Backhaus et. al: Multivariate Analysemethoden. 11. Auflage, Springer Verlag, Heidelberg (2005). S. 259-336
  • Krzanowski, WJ: Principles of Multivariate Analysis. A User’s Perspective (rev. ed.). New York: Oxford University Press (2000).
  • Steiger, JH: Factor indeterminacy in the 1930's and the 1970's. Some interesting parallels. Psychometrika 44, 157–167 (1979).

Weblinks[edit]

Einzelnachweise[edit]

  1. Markus Wirtz und Christof Nachtigall: Desriptive Statistik. 3. Auflage, Juventa Verlag, Weinheim 2004, S. 199 f.
  2. SPSS (2007), SPSS 16.0 Algorithms, SPSS Inc., Chicago, Illinois, S. 280.
  3. Krzanowski, W.J. (2000). Principles of multivariate analysis: a user's perspective, S. 482

Kategorie:Latentes Variablenmodell

bg:Факторен анализ cs:Faktorová analýza da:Faktoranalyse en:Factor analysis es:Análisis factorial fi:Faktorianalyysi fr:Analyse factorielle hu:Faktoranalízis it:Analisi fattoriale ja:因子分析 lv:Faktoru analīze nl:Factoranalyse pl:Analiza czynnikowa pt:Análise fatorial ru:Факторный анализ sr:Факторска анализа su:Analisis faktor uk:Факторний аналіз