Faktorenanalyse für kategorielle Daten

From Teachwiki
Jump to: navigation, search

Faktorenanalyse für kategorielle Daten[edit]

Einleitung[edit]

Das allgemeine Ziel der explorativen Faktorenanalyse ist das Aufdecken von Beziehungen zwischen den beobachteten Variablen, das Festlegen von latenten Konstrukten, die diese Zusammenhänge beschreiben und die Interpretation dieser Konstrukte. Bei der explorativen Faktorenanalyse ist die Anzahl der zu extrahierenden Faktoren nicht bekannt. Die extrahierten Faktoren dienen der Modellformulierung, dessen Struktur mittels konfirmatorischer Faktorenanalyse hypothetisch geprüft wird.

An dieser Stelle wird die Faktorenanalyse für kategorielle Daten erläutert. Die latenten Variablen haben metrisches Skalenniveau. Sind die beobachteten Variablen kategoriell, spricht man von latent trait analysis. Gegenüber dem explorativen Faktorenmodell für stetige Variablen müssen einige Besonderheiten beachtet werden. Kategorielle Variablen mit mehr als zwei Ausprägungen werden als polytomous categorical variables bezeichnet. Die manifesten Variablen oder Items sind kategorielle Variablen, die nach Stärke der Ausprägung geordnet sind.

Für die Analyse ordinalskalierter Variablen mit Hilfe der Faktorenanalyse gibt es verschiedene Ansätze

  1. Ein Ansatz, geordnete ordinalskalierte Daten auszuwerten, ist, die kategoriellen Variablen zu binären Variablen zusammenzufassen und darauf eine Faktorenanalyse für binäre Daten anzuwenden. Jedoch ist diese Vorgehensweise mit einem hohen Informationsverlust verbunden.
  2. Beim Items Response Function Ansatz wird ein multinomiales Logit Modell verwendet. Dieser Ansatz ist jedoch nur für das einfaktorielle Modell in kommerzieller Software implementiert.
  3. Ein weiterer Ansatz zur Lösung der latent trait models ist der modellbasierte Ansatz der underlying variable. Er wird in Kapitel 3 genauer erläutert.


Die Ansätze haben zum Ziel, zu untersuchen, ob zwischen den beobachtbaren Variablen Zusammenhänge existieren, ob sich diese Beziehungen in einer kleinen Anzahl von latenten Variablen zusammenfassen lassen und für jedes Objekt und jede latente Variable einen Score auf Basis der Antworten zu bestimmen.

Einführung des Beispiels[edit]

Haltung gegenüber Wissenschaft und Technik

An dieser Stelle wird ein Beispiel eingeführt, dessen Daten in den folgenden Kapiteln Grundlage der Berechnungen bilden. Die Daten stammen aus einer Umfrage, die Eurobarometer 1992 in Großbritannien zur Haltung gegenüber Naturwissenschaft und Technik durchgeführt hat. Die Ergebnisse wurden von Karlheinz und Melich 1992 auf der entsprechenden Webseite veröffentlicht. Die Beispiele in dieser Arbeit beziehen sich auf die folgenden vier Aussagen.

  1. Wissenschaft und Technik machen unser Leben einfacher und komfortabler (Komfort).
  2. Die Anwendung von Wissenschaft und neuer Technologie macht Arbeit interessanter (Arbeit).
  3. Dank der Wissenschaft und Technologie werden den zukünftigen Generationen mehr Möglichkeiten geboten (Zukunft).
  4. Der Nutzen der Wissenschaft ist größer als jeder andere Effekt (Nutzen).

Den Teilnehmern der Umfrage standen die folgenden vier Antwortmöglichkeiten zur Verfügung

  • Ich stimme nicht zu.
  • Mit Einschränkungen stimme ich nicht zu.
  • Ich stimme teilweise zu.
  • Ich stimme zu.

Nachdem Beobachtungen, die fehlende Werte enthielten ausgeschlossen wurden, bleiben noch 392 Beobachtungen in der Analyse.

Underlying Variable Ansatz[edit]

Theoretische Vorgehensweise[edit]

Der Ansatz der underlying variable ist ein modellbasierter Ansatz der Faktorenanalyse für Variablen x_i mit mehr als zwei geordneten Kategorien m_i. Gegeben ist die Datenmatrix X mit den Beobachtungen x_1,\ldots,x_p.

Es wird angenommen, dass jede kategorielle Variable x_i eine Realisation einer unvollständig beobachtbaren stetigen Variablen x_i^* ist, die standardnormalverteilt sei. Die Verbindung zwischen den x_i und den x_i^* erfolgt über

x_i=s wenn \tau_{i(s-1)}<x_i^*\leq \tau_{i(s)} (s=1,2,...,m_i)

Die \tau_i sind Schwellenwerte und \tau_{i(0)} und \tau_{i(m_i)} sind -\infty bzw. \infty. Für eine Variable x_i mit m_i Kategorien gibt es also m_i-1 Schwellenwerte

\tau_{i(1)},\tau_{i(2)},\ldots,\tau_{i(m_i-1)}.

Analog zum klassischen Faktorenmodell wird das Modell der underlying variable auf Basis der x_i^* formuliert

x_i^*=\alpha^*_{i1}y_1+\alpha^*_{i2}y_2+\ldots+\alpha^*_{iq}y_q+e_i (i=1,2,\ldots,p)

wobei die \alpha^*_{ij} die Faktorladungen sind, die y_i sind die latenten Variablen und die e_i sind die Residuen. Die x^*_i sind nur teilweise durch die beobachteten x_i bekannt.

Die Parameter dieses Modells werden in drei Schritten geschätzt.

  1. Die Schwellenwerte \tau_i werden von den univariaten Randverteilungen der beobachteten Variablen geschätzt.
  2. Anschließend werden die Korrelationen zwischen den Variablen x_i^* bestimmt.
  3. Als letztes werden die Faktorladungen des Modells aus den Korrelationen durch gewichtete kleinste Quadrate geschätzt.

Die Schätzung der Parameter erfolgt unter der Voraussetzung, dass die latenten Konstrukte unabhängig voneinander und standardnormalverteilt sind, die Residuen sollen unabhängig und normalverteilt mit dem Mittelwert 0 und der Varianz \sigma_i^2 sein und die underlying variables x_1^*,...,x_p^* seien multivariat normalverteilt mit den Mittelwerten 0, der Einheitsmatrix als Varianzen und der Korrelationsmatrix P.

Als Zusammenhangsmaß für die manifesten Variablen wird sowohl die Pearson Korrelation als auch die polychorische Korrelation zwischen den einzelnen Variablen berechnet. Der Korrelationskoeffizient von Bravais-Pearson zwischen zwei Variablen X_i und X_j wurde für metrisch skalierte Variablen entwickelt und berechnet sich nach der Formel

r_{ij}=\frac{Cov(X_i,X_j)}{Var(X_i)Var(X_j)}.

Als Zusammenhangsmaß für ordinalskalierte Variablen wird zum Vergleich die polychorische Korrelationsmatrix bestimmt. Unter der Annahme, dass die underlying variables x^*_i standardnormalverteilt sind, lässt sich die Wahrscheinlichkeit, dass x^*_i unterhalb des Schwellenwertes \tau_i liegt, mit Hilfe der Normalverteilungsfunktion an der Stelle \tau_i bestimmen

\textrm{P}(x^*_i\leq \tau_i)=\int_{-\infty}^{\tau_i}\frac{1}{\sqrt{2\pi}}\textrm{exp}(-\frac{1}{2}x_i^*)dx_i^*=\phi(\tau_i).

Die Korrelation zwischen den beiden Variablen x_i^* und x_j^* ist das Integral der bivariaten Normalverteilung und wird als polychorische Korrelation bezeichnet. Die Schwellenwerte \tau_i werden aus der Inversen der Normalverteilung \phi^{-1} geschätzt. Die Polychorischen Korrelationen und die Schwellenwerte können mit Hilfe der Maximum-Likelihood-Methode auf zwei Arten geschätzt werden.

  1. Mit der two-step Maximum-Likelihood-Methode werden zunächst die Schwellenwerte geschätzt. Diese werden verwendet, um die polychorischen Korrelationen zu schätzen.
  2. Bei der gewöhnlichen Maximum-Likelihood-Methode werden die Schwellenwerte und die polychorischen Korrelationen gleichzeitig geschätzt.

Die Unterschiede in den geschätzten Ergebnissen zwischen den beiden Methoden sind sehr gering. Aufgrund der schnelleren Rechenzeit wird die two-step Methode der gewöhnlichen Maximum-Likelihood-Methode meist vorgezogen.

Der Nachteil des Ansatzes der underlying variable ist, dass das Modell nicht alle Antwortmuster und damit nur eine begrenzte Informationsmenge berücksichtigt. Dieser Ansatz hat jedoch den Vorteil, dass er in kommerzieller Software wie LISREL, EQS und Mplus implementiert ist und sogar für eine große Anzahl manifester kategorischer Variablen und viele Faktoren akzeptable Ergebnisse liefert.

Anwendung auf das Beispiel[edit]

Der Ansatz der underlying variable wird auf das in Kapitel 2 eingeführte Beispiel angewendet. Es wird ein einfaktorielles Modell auf Basis der vier Items Komfort, Arbeit, Zukunft und Nutzen formuliert. In Tabelle 1 werden jeweils die Pearson Korrelationen und die Polychorischen Korrelationen der Items gegenübergestellt.

Pearson Korrelationen Polychorische Korrelationen
Komfort Arbeit Zukunft Nutzen Komfort Arbeit Zukunft Nutzen
Komfort 1.00 1.00
Arbeit 0.15 1.00 0.20 1.00
Zukunft 0.28 0.40 1.00 0.35 0.48 1.00
Nutzen 0.33 0.17 0.31 1.00 0.41 0.21 0.38 1.00

Tabelle 1: Pearson Korrelationen und Polychorische Korrelationen

Beide Methoden liefern ähnliche Ergebnisse: Die Korrelationen zwischen den einzelnen Items sind alle <0.5, womit die Zusammenhänge nicht sehr groß sind. Jedoch zeigt der direkte Vergleich der Korrelationsmatrizen, dass die Bravais-Pearson-Korrelationen den polychorischen Korrelationen in allen Fällen unterlegen sind.

Die Faktorladungen der underlying variables \hat{\alpha}_{i1}^* werden für das einfaktorielle Modell zunächst mit Hilfe der Maximum-Likelihood-Methode (in Tabelle 2 unter ML) und anschließend mit der Methode der gewichteten kleinsten Quadrate (in Tabelle 2 unter WLS) geschätzt und in Tabelle 2 ausgegeben. Die Faktorladungen sind die Korrelationen zwischen der normalverteilten latenten Variable und den normalverteilten underlying variables.

ML WLS
\hat{\alpha}_{i1}^* \hat{\alpha}_{i1}^*
Komfort 0.48 0.57
Arbeit 0.55 0.56
Zukunft 0.79 0.78
Nutzen 0.51 0.58

Tabelle 2: Faktorladungen der ML und WLS Methode

Die geschätzten Faktorladungen beider Methoden unterscheiden sich bis auf die Variable Komfort nicht. Die Werte sind alle positiv und relativ groß. Folglich liegt eine starke Korrelation zwischen den Items und der latenten Variable vor. Man erhält das Ergebnis, dass ein gemeinsamer Faktor mit dem größten Einfluss bei der Variable Zukunft vorliegt.

Anpassung des Modells[edit]

Die Güte der Anpassung der Daten an das gegebene Modell wird entweder über Anpassungstests oder über die paarweisen Verteilungen von jeweils zwei Variablen beurteilt.

Für viele Variablen mit mehr als zwei Kategorien sind die Anpassungstests jedoch ungeeignet. Die Anzahl der möglichen Antwortmuster für eine Variable mit m_i Kategorien ist (m_1 \times m_2  \times \ldots \times m_i). Mit zunehmender Kategorienanzahl steigt die Zahl der möglichen Antwortmuster rapide und trotz eines großen Stichprobenumfanges werden die Häufigkeiten in den einzelnen Zellen der Kontingenztabelle sehr klein (<5). Bei schwach besetzten Zellen sollten globale Tests nicht verwendet werden.

Besser geeignet zur Beurteilung der Güte der Anpassung der Daten ist das Untersuchen der marginalen Verteilungen.

Anpassung bivariater Verteilungen[edit]

Die paarweisen Verteilungen werden die über die Kontingenztabelle zwischen zwei Variablen festgelegt. Für jedes Paar manifester Variablen wird die Summe S der \chi^2-verteilten Residuen über alle Kategorienpaare bestimmt. Große Werte von S suggerieren, dass die Daten nicht gut durch das Modell beschrieben werden. Es gibt zwei Faustregeln, die helfen, die Summen S zu beurteilen.

  1. In einer Kontingenztabelle der Größe (m_i\times m_j) indiziert ein S>4\times m_i\times m_j eine schlechte Anpassung der Daten. Jöreskog und Moustaki (2001) argumentieren, dass ein \chi^2-verteiltes Residuum, welches einen Wert größer als 4 annimmt, ein Nachweis für eine schlechte Anpassung der Daten innerhalb einer Zelle ist. Also sei ein Wert, der größer als (4\times m_i\times m_j) ist, ein Zeichen für eine schlechte Anpassung der Daten innerhalb der (m_i\times m_j) Tabelle.
  2. Bei der zweiten Faustregel werden die Zellwahrscheinlichkeiten der (m_i\times m_j) Tabelle geschätzt. Wenn das Modell die wahren Zellhäufigkeiten spezifizieren würde, sollte S annähernd \chi^2-verteilt sein mit den Freiheitsgraden (m_i-1) \times (m_j-1). Wenn der Wert S>99\%-Quantil der \chi^2-Verteilung mit (m_i-1) \times (m_j-1) Freiheitsgraden, werden die Daten nicht gut durch das Modell beschrieben.

Diese beiden Regeln gelten als Richtlinien, die Anpassung der Daten an das gegebene Modell zu beurteilen. In der Praxis kann ein Modell verwendet werden, dessen Residuensummen diese Faustregeln nur teilweise erfüllt und somit nicht alle Beziehungen zwischen den Items erklärt.

Anwendung auf das Beispiel[edit]

Mit Hilfe der marginalen Verteilungen wird die Anpassung der Daten des in Kapitel 2 vorgestellten Beispiels an das einfaktorielle Modell untersucht.

Tabelle 3 liefert die jeweilige Summe der \chi^2-verteilten Residuen für die Paare der Items für jedes Kategorienpaar. Nach den oben genannten Faustregeln zur Anpassung der Daten sind die Daten nur teilweise an das einfaktorielle Modell angepasst, weil alle Werte der Tabelle 4 kleiner sind als (4\times 4 \times 4)=64 aber nur die Hälfte der Werte ist kleiner als 21.67 (99\% der \chi^2-Verteilung mit 9 Freiheitsgraden).

Kategorien Arbeit Zukunft Nutzen
Komfort 25.54 11.98 27.23
Arbeit 9.21 23.27
Zukunft 17.41

Tabelle 3: Summen der \chi^2-verteilten Residuen

Den Wert 25.54 der Tabelle 3 erhält man durch addieren der Werte der Tabelle 4. Für alle Kategorien der beiden Variablen Komfort und Arbeit des Beispieldatensatzes werden die \chi^2-verteilten Residuen berechnet und in Tabelle 4 ausgegeben. Analog werden die Summen für die anderen Variablen bestimmt.

Kategorien 1 2 3 4
1 0.87 1.79 0.44 11.50
2 2.43 0.01 0.14 2.09
3 0.02 0.04 0.45 2.39
4 0.66 0.26 1.51 0.94

Tabelle 4: \chi^2-Residuen der Variablen Komfort und Arbeit

Werte größer als 4 indizieren eine schlechte Anpassung der Daten. Bis auf den Wert 11.50 aus Tabelle 4 gibt es für die anderen Variablen noch drei weitere \chi^2-verteilte Residuen, die größer als 4 sind. Diese sind für den Beispieldatensatz in Tabelle 5 aufgelistet.

Items Kategorien (O-E)^2/E
(1,2) (1,4) 11.50
(1,3) (2,4) 6.80
(1,4) (1,1) 16.46
(2,4) (1,4) 13.23

Tabelle 5: \chi^2-Residuen mit Werten >4

Sowohl die \chi^2-verteilten Residuen als auch deren Summen zeigen, dass das einfaktorielle Modell die Daten nicht sehr gut beschreibt.


Zusammenfassung[edit]

Der Ansatz der underlying variable ist sowohl für eine große Anzahl manifester Variablen als auch für viele Faktoren in kommerzieller Software implementiert. Hat man eine geeignete Faktorenanzahl extrahiert, lässt sich mit Hilfe der marginalen Verteilungen untersuchen, ob das verwendete Modell die Daten gut beschreibt oder ob ein anderes Modell vorgezogen werden sollte.

Auf den vorgestellten Beispieldatensatz wurde an dieser Stelle ein einfaktorielles Modell beschrieben, an welches die Daten nicht gut angepasst sind. Folglich sollte untersucht werden, ob ein mehrfaktorielles Modell die Daten besser beschreibt und dem einfaktoriellen Modell vorzuziehen wäre.

Literatur

  1. Bartholomew, D. J.; Steele, F.; Moustaki, L.; Galbraith, J. I. (2002): The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman\&Hall/CRC
  2. Rönz, B.: Skript Generalisierte Lineare Modelle, 2001
  3. Juras, J.; Pasaric, Z. (2006): Application of tetrachoric and polychoric correlation coefficients to forecast verification, Geozifika, Volume 23, No. 1, 59-82