Korrespondenzanalyse

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Dieser Artikel wurde in der deutschsprachigen Wikipedia erstellt und in das teachwiki importiert und bearbeitet. Hierbei wurden Änderungen am Artikel von unterschiedlichen Autoren gemacht. Die Versionsgeschichte und Autorenschaft dazu ist im entsprechenden Artikel der deutschsprachigen Wikipedia zu finden.

Die Korrespondenzanalyse abgekürzt CA (correspondence analysis) ist ein Verfahren der multivariaten Statistik, mit dem die Beziehungen der Variablen einer Kontingenztafel graphisch repräsentiert werden. Die Spalten- und Reihenprofile einer Matrix werden dabei durch Punkte in einem Raum repräsentiert, dessen Koordinatenachsen durch die jeweiligen Merkmale gebildet werden. Mit Hilfe der Korrespondenzanalyse können sowohl einfache als auch zusammengesetzte Kontingenztabellen analysiert werden. Die Häufigkeiten stellen qualitative Merkmale da. Diese kategorialen Variablen können nominal oder ordinal skaliert sein. Ordinale Variablen werden dabei wie nominale behandelt, wodurch ein gewisser Informationsverlust in Kauf genommen werden muss.

Bei der Kanonischen Korrespondenzanalyse (CCA) handelt es sich um eine Erweiterung der CA durch Ter Braak. Dabei sind die abgeleiteten Ordinationsachsen Linearkombinationen der Umweltvariablen, welches über ein multiples lineares Regressionsmodell erzeugt wird.[1]

Struktur-entdeckende Verfahren[edit]

Die Korrespondenzanalyse ist ein strukturen- entdeckendes Verfahren. Dadurch sind Ähnlichkeiten zur Faktorenanalyse und zur Multidimensionalen Skalierung (MDS) erkennbar. Allgemein lässt sich sagen, dass die Faktorenanalyse vorwiegend für metrische Daten, die Multidimensionale Skalierung für ordinale Daten und die Korrespondenzanalyse überwiegend für nominale Daten verwendet wird. Alle drei Analysen erfüllen explorative Funktionen.

Durch ihre Ähnlichkeiten zur Faktorenanalyse wird die Korrespondenzanalyse auch als „Hauptkomponentenanalyse mit kategorialen Daten“ bezeichnet. Wichtig ist dabei jedoch zu beachten, dass die Ergebnisse recht unterschiedlich sind, aufgrund der sich unterscheidenden angewendeten Methodik. Ein Unterschied zur Faktorenanalyse ist zum Beispiel, dass Zeilen und Spalten gleich behandelt werden. Dies bedeutet somit, dass sich ein Ergebnis nicht ändern würde, wenn man die Zeilen und Spalten austauschen würden.

Die Korrespondenzanalyse hat ebenfalls Ähnlichkeit mit dem MDS- Verfahren. In beiden Verfahren werden Ähnlichkeiten beziehungsweise Unähnlichkeiten zwischen Objekten in einem mehrdimensionalen Raum dargestellt. Je näher zwei Objekte in einem Koordinatensystem beieinander stehen, desto ähnlicher sind sich diese. Der Unterschied zur MDS besteht hierbei jedoch darin, dass die Einschätzung nicht über eine direkte Gegenüberstellung von Objekten erfolgt. Die einzelnen Objekte werden hier anhand unterschiedlicher vorgegebener Attribute beurteilt, was zu einer Beurteilung von Ähnlichkeiten führt. Ein weiterer Unterschied zwischen MDS und Korrespondenzanalyse ist die graphische Darstellung. In der Korrespondenzanalyse werden nicht nur die Objekte und ihre Beziehungen zueinander dargestellt, sondern auch die Attribute, welches eine umfassendere Interpretation zulässt.

Anwendungsgebiete[edit]

Die Korrespondenzanalyse gewinnt immer mehr an Bedeutung in der Praxis. Dies ist vorallem darin begründet, dass qualitative Merkmale häufig leichter zu erheben sind als quantitative. Die Korrespondenzanalyse wurde in der Empirischen Sozialforschung maßgeblich durch Pierre Bourdieus Studie "Die feinen Unterschiede" populär gemacht. Einen weiteren wichtigen Einfluss hatten der Analytiker und Linguist Jean- Pierre Benzécri sowie die Bücher von Greenacre, der ein Schüler Benzécris war.

Auch in der Marktforschung ist die Korrespondenzanalyse verbreitet.Hier sind die Bücher von Hoffmann/ Franke (1986) und Backhaus/ Meyer (1986) von großer Bedeutung. In der Marktforschung wird die Korrespondenzanalyse vorwiegend für Imageanalysen genutzt. Aber auch für Marktsegmentierungen ist dies möglich, sofern man die Segmente in Nominaldaten/- charakteristika aufspalten kann.

In der Archäologie kann sie zur Ordnung von Tabellen dienen, die die Fundkombination von Typen in geschlossenen Funden erfassen. Nach einer solchen Ordnung - auch Seriation genannt - weisen die Typen und Fundkomplexe häufig eine zeitliche Abfolge auf. In Bereichen der Linguistik wird die Korrespondenzanalyse genutzt, um das gemeinsame Vorkommen von bestimmten Vokalen und Konsonanten zu bestimmen. Auch in der Wahlforschung findet dieses Verfahren Anwendung. In diesem Bereich kann mit Hilfe der Korrespondenzanalyse untersucht werden, wie häufig verschiedene Parteien von unterschiedlichen Berufsgruppen gewählt werden.

Vorgehensweise[edit]

Die Korrespondenzanalyse erfolgt in drei Schritten, wobei die Kontingenztabelle vorbereitend erstellt wird. Die Kontingenztabelle sollte mit Hilfe von Zeilen- und Spaltenprofilen zunächst ausgewertet werden. Die Profile erhält man, indem man die Häufigkeiten durch ihre Summe dividiert.

1. Schritt

Im ersten Schritt werden die Daten standardisiert. Zunächst werden die beobachteten relativen Häufigkeiten bestimmt pij:


p_{ij}={{n_{ij}}\over{n}} , mit n= \sum\limits_i \sum\limits_j n_{ij}


Desweiteren braucht man die erwarteten relativen Häufigkeiten, bestimmt aus den Randhäufigkeiten (marginalen Häufigkeiten):


\hat {e}_{ij}= {{(n_{i.} * n_{.j})}\over{n}}


Die Differenz zwischen der beobachteten relativen Häufigkeit und der erwarteten relativen Häufigkeit gibt an, wie viel Informationen in den Daten enthalten sind. Je geringer diese Abweichung ist, desto geringer ist auch der Informationsgehalt. Der geringe Informationsgehalt würde dazu führen, dass keine Visualisierung der Zeilen und Spalten möglich wäre, da die Datenpunkte zu einem Klumpen zusammenfallen würden.

Die Differenz zwischen der beobachteten und erwarteten relativen Häufigkeit wird genutzt um die Daten zu standardisieren, indem man die Differenz durch die Wurzel der erwarteten relativen Häufigkeiten teilt.


z_{ij}={{(p_{ij}-\hat{e}_{ij})}\over \sqrt{{\hat {e}_{ij}}}}


Wie bereits zuvor erwähnt ist der Informationsgehalt der Daten sehr wichtig für die Korrespondenzanalyse. Ein Maß zur Bestimmung dieses Informationsgehaltes und somit der Streuung der beobachteten Werte um die erwarteten Werte, ist die Chi- Quadrat- Statistik, die sich wie folgt berechnen lässt:


\chi^2= n * \sum\limits_{i,j} {{(p_{ij}-\hat{e}_{ij})^2}\over{\hat{e}_{ij}}} = n* \sum\limits_i \sum\limits_j z_{ij}^2


Nachteilig für die Nutzung dieses Maßes ist die Abhängigkeit der Statistik von der Höhe der Stichprobengröße. Dividiert man Chi- Quadrat durch die Fallzahl n, so erhält man die totale Inertia T. Der Wertebereiche beträgt dabei 1≤ T ≤ Min {I,J}-1.

2. Schritt

Im zweiten Schritt der Korrespondenzanalyse müssen nun die Dimensionen extrahiert werden. In diesem Schritt soll versucht werden die Zeilen und Spalten in möglichst geringem Korrespondenzraum darzustellen, wobei so wenig Information wie möglich verloren gehen sollte.

Um die Dimension sowie die Koordinaten der Zeilen- und Spaltenelemente zu erhalten, wird eine Singulärwertzerlegung vorgenommen. Dieses kann mit Hilfe der Matrixschreibweise dargestellt werden:


Z = U * S * V^\prime


mit
Z = (zij) einer (I x J) Matrix der standardisierten Daten
U = (uik) einer (I x K) Matrix der Zeilenelemente
S = (skk) einer (K x K) Diagonalmatrix mit den Singularwerten
V = (vjk) einer (J x K) Matrix der Spaltenelemente


K ist die maximale Dimension des Korrespondenzraumes, die also der maximalen Inertia der Kontingenzanalyse entspricht. Die quadrierten Singulärwerte sk sind Eigenwerte, die angeben wie viel Informationen in den Dimensionen repräsentiert werden. Die Summe der Eigenwerte ergibt die Inertia:


T = \sum\limits_k s_k^2


Dividiert man die quadrierten Singulärwerte durch die Inertia erhält man den Eigenwertanteil. Bei zwei extrahierten Dimensionen, die orthogonal aufeinander stehen, erhält man durch die Singulärwertzerlegung die erste Dimension mit einem maximalen Anteil an Informationen. Von der verbleibenden Streuung bzw. dem verbleibenden Informationsgehalt wird wieder der maximale Anteil durch die zweite Dimension repräsentiert. Die Eigenwertanteile aller extrahierten Dimensionen ergeben in der Summe 1.

3.Schritt

Im dritten und letzten Schritt der Korrespondenzanalyse müssen die Koordinaten schließlich normalisiert werden. Die Koordinaten werden aus den Matrizen der Spalten und Zeilenelemente gewonnen. Die Matrizen U und V müssen jedoch zuvor normalisiert werden. Hierfür findet klassischerweise eine sogenannte symmetrische Normalisierung. Daneben gibt es auch noch weitere Formen wie die Prinzipal- Normalisierung oder die asymmetrischen Formen Zeilen-Prinzipal- und Spalten-Prinzipal-Normalisierung. Jeder Singulärwert wird als Gewichtung für die Dimensionen genutzt. Desweiteren werden Zeilen und Spalten mit den marginalen relativen Häufigkeiten gewichtet. Die Zeilenpunkte (engl. row points) und Spaltenpunkte (engl. column points) werden wie folgt bestimmt:


  • Zeilenpunkte: r_{ik} = {{u_{ik} * \sqrt{s_k}}\over \sqrt{p_{i.}}}


  • Spaltenpunkte: c_{jk} = {{v_{jk} * \sqrt{s_k}}\over \sqrt{p_{.j}}}


Nach der rechnerischen Analyse folgt schließlich noch die Interpretation. Im Koordinatenursprung der graphischen Darstellung liegen alle Durchschnittsprofile, d.h. je weiter ein Profil vom Koordinatenursprung entfernt liegt, desto stärker unterscheidet es sich vom Durchschnittsprofil. Desweiteren lässt sich bei der graphischen Darstellung in der Korrespondenzanalyse erkennen, wie ähnlich oder unähnlich verschiedene Objekte wahrgenommen werden. Je näher zwei Objekte beieinander liegen, desto ähnlicher werden diese wahrgenommen. Zudem werden die Merkmale selbst im Koordinatensystem dargestellt. Die Distanz zwischen einem Merkmal und einem Objekt birgt eine große Gefahr von Missinterpretationen, da hier in der Praxis fälschlicherweise oft die gleiche Interpretation angeführt wird wie bei den Distanzen zwischen einzelnen Objekten. Um dieses Problem der möglichen Missinterpretation zu umgehen, sollten asymmetrische Normalisierungsverfahren angewandt werden.

Beispiel[edit]

An einem kurzen Beispiel sollen hier noch einmal die Schritte der Korrespondenzanalyse verdeutlicht werden. Zunächst ist die Häufgikeitstabelle, die nicht repräsentative Daten enthält dargestellt. Die Zahlen in der Klammer geben die relative Häufigkeit an, während die Zahlen vor der Klammer die absoluten Häufigkeiten angeben.

Absolute Häufigkeit (relative Häufigkeit)
Objekte Merkmal1 Merkmal2 Merkmal3 Zeilensummen
ObjektA 8 (0,17) 7 (0,15) 2 (0,04) 17 (0,35)
ObjektB 3 (0,06) 3 (0,06) 5 (0,10) 11 (0,23)
ObjektC 5 (0,10) 6 (0,13) 9 (0,19) 20 (0,42)
Spaltensummen 16 (0,33) 16 (0,33) 16 (0,33) 48 (1,00)


Hier ist es wichtig zu erwähnen, dass die Spaltensummen nicht übereinstimmen müssen. Es können unterschiedliche Spaltensummen auftreten, wenn zum Beispiel Mehrfachantworten zugelassen werden oder es Antwortenverweigerungen gibt.

Im zweiten Schritt werden die erwarteten Häufigkeiten in einer Tabelle zusammengefasst. Dabei wird zum Beispiel für das Element ê11, also das Element ObjektA-Merkmal1, folgende Berechnung vorgenommen:


\hat {e}_{11}= 5,67 = {{17 (Zeilensumme^{ObjektA}) * 16 (Spaltensumme^{Merkmal1})} \over {48 (Fallzahl)}}


Erwartete Häufigkeit
Objekte Merkmal1 Merkmal2 Merkmal3 Zeilensummen
ObjektA 5,67 5,67 5,67 17
ObjektB 3,67 3,67 3,67 11
ObjektC 6,67 6,67 6,67 20
Spaltensummen 16 16 16 48


In der nachfolgenden Tabelle der Chi-Quadrat-Werte kann man nochmal sehen, dass je höher die beobachteten Häufigkeiten von den erwarteten Häufigkeiten abweichen, desto größer ist der Chi-Quadrat-Wert. Der Chi-Quadrat-Wert χ112, also wieder für ObjektA-Merkmal1, berechnet sich wie folgt:


 \chi_{11}^2 = 0,96 = {{(8 (beobachtete H.) - 5,67 (erwartete H.))^2} \over { 5,67 (erwartete H.)}}


Chi-Quadrat-Abweichungen
Objekte Merkmal1 Merkmal2 Merkmal3 Zeilensummen
ObjektA 0,96 0,31 2,38 3,64
ObjektB 0,12 0,12 0,48 0,73
ObjektC 0,42 0,07 0,81 1,30
Spaltensummen 1,5 0,5 3,67 5,67


Zuletzt sollen hier noch tabellarisch die standardisierten Werte aufgeführt werden. Für dieses Beispiel werden die standardisierten Werte mit Hilfe der Zeilen- und Spaltensummen berechnet. Im Theorieteil wurde eine Berechnung mit Hilfe der beobachteten und erwarteten Werte angeführt. Diese ist mit der für das Beispiel verwendeten Formel äquivalent. Die standardisierten Werte lassen sich also auch wie folgt berechnen:


z_{ij} ={{ n_{ij}} \over {\sqrt{n_{i.}* n_{.j}}}} - {{\sqrt {n_{i.}* n_{.j}}} \over {n}}


Dies bedeutet für das Element z11


Failed to parse (lexing error): 0,14 = {{8 (beobachtete H.)´}\over {\sqrt{17 (Zeilensumme^{ObjektA})*16 (Spaltensumme^{Merkmal1})}}} - {{ \sqrt{(17*16)}} \over {48 (Fallzahl)}}


Standardisierte Werte
Objekte Merkmal1 Merkmal2 Merkmal3
ObjektA 0,14 0,08 -0,22
ObjektB -0,05 -0,05 0,10
ObjektC -0,09 -0,04 0,13


In dem hier vorliegenden Beispiel werden 2 Dimensionen extrahiert, was der maximalen Inertia entspricht. Wie bereits im Theorieteil erwähnt sind die maximalen Dimensionen Kmax={I,J}-1. Die Dimensionen haben Singulärwerte von s1=0,343 und s2=0,024. Die quadradierten Singulärwerte sind damit s12=11,76 und s22= 0,000576. Somit erhalten wir einen Eigenwertanteil für die erste Dimension von 99,9%, das heißt also, dass die erste Dimension fast vollständig die Streuung in den Daten aufnimmt. Die zweite Dimension nimmt somit nur noch den sehr kleinen "Rest" von 0,1% auf.

In dem hier präsentierten Beispiel kann man auch grafisch sehen, dass sich die Objekte, in der Grafik mit 1 (ObjektA), 2 (ObjektB) und 3 (ObjektC), hauptsächlich paralell zur x-Achse, das heißt der ersten Dimension, anordnen, jedoch die Abstände von dieser Achse in etwa gleich sind.


Korrespondenzanalyse Diagramm.PNG


Desweiteren kann man in obiger Grafik sehen, dass sich die Objekte B (2) und C (3) ähnlicher sind als die Objekte A (1) und B (2) bzw. Objekte A (1) und C (3). Zudem kann man sehen, dass sich die Objekte relativ stark von den Durchschnittsprofilen unterscheiden.

Aufgrund der komplexen Berechnung der Singulärwerte und Zeilenelemente (Objekte) sowie Spaltenelemente (Merkmale) wird für dieses Beispiel der SPSS Ausdruck genutzt, um die Anschaulichkeit durch die Grafik zu ermöglichen. Die Korrespondenzanalyse kann mit Hilfe verschiedenster Software, wie zum Beispiel SPSS und Excel durchgeführt werden.

Vorteile[edit]

  • Ein großer Vorteil besonders gegenüber der Faktorenanalyse besteht darin, dass hier kein bestimmtes Skalenniveau erforderlich ist und somit in der Praxis eine hohe Anwendungsbreite findet.
  • Weiterhin gibt es keine bestimmten Verteilungsannahmen.
  • Gegenüber der Faktorenanalyse hat die Korrespondenzanalyse zudem den Vorteil, dass sie sowohl Objekt- als auch Merkmalsraum gleichzeitig abbilden kann.
  • Für die Analyse spielt es keine Rolle, welche Elemente in den Zeilen und welche in den Spalten präsentiert werden. Eine Vorraussetzung ist lediglich, dass die Daten nicht negativ sind.
  • Ebenfalls für die Korrespondenzanalyse spricht, dass mit Hilfe dieses Tools qualitative Daten quantifiziert werden können.

Nachteile[edit]

  • Problematisch bei der Korrespondenzanalyse ist die Schwierigkeit der Interpretierbarkeit, wodurch auch die Verbreitung dieser Analyse in der Praxis noch eher weniger gegeben ist. Durch die Schwierigkeit ist auch die Gefahr von Fehlinterpretation größer als bei vergleichbaren Verfahren, wie zum Beispiel der Faktorenanalyse.
  • Zudem existiert eine Vielfalt von Variationen der Korrespondenzanalyse.

Einzelnachweise[edit]

  1. Template:Cite book

Literatur[edit]

  • J. Blasius: Korrespondenzanalyse. München 2001.
  • J. Blasius: Korrespondenzanalyse – Ein multivariates Verfahren zur Analyse qualitativer Daten. Historical Social Research 1987. Bd. 12. Nr. 2/3.172-189
  • P.Ihm: Korrespondenzanalyse und Seriation. Arch. Inf. 6. 1983. 8-21
  • M. J. Greenacre: Theory and application of correspondence analysis. London 1984
  • J. Müller/ A. Zimmermann (Hrsg.): Archäologie und Korrespondenzanalyse: Beispiele, Fragen, Perspektiven. Internat. Arch. 23. Espelkamp 1997.
  • K.Backhaus, B.Erichson, R.Weiber: Fortgeschrittene Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. Berlin Heidelberg 2011. 296-315
  • K.Backhaus, B.Erichson, R.Weiber, W.Plinke: Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. Berlin Heidelberg 2011. 549-557
  • A.Herrmann, C.Homburg, M.Klarmann: Handbuch Marktforschung. Wiesbaden 2008. 405-438


Weblinks[edit]

Kategorie:Multivariate Statistik

ca:Anàlisi de correspondències en:Correspondence analysis es:Análisis de correspondencias eu:Korrespondentzien analisi fr:Analyse factorielle des correspondances no:Korrespondanseanalyse pl:Analiza odpowiedniości