Vergleich der Korrelationen schiefer und gewölbter metrisch und ordinalskalierter Daten

From Teachwiki
Jump to: navigation, search

Einführung

Korrelationen zwischen Variablen geben Aufschluss darüber, ob und wie Variablen im Zusammenhang miteinander stehen. Sie bilden den Ausgangspunkt für viele Analysen, da von den Korrelationen abhängen kann, wie gut die Schätzungen eines Modells sind.

Frau Pari-Schatz hat in ihrer Masterabeit bereits die Korrelationen kategorisierter Daten mit vorgebebenen Korrelationen verglichen. Dafür hat sie zunächst bivariate standardnormalverteilte Variablen simuliert. Die Korrelationen zwischen den marginalen Verteilungen wurden als Vergleichswert festgelegt. Die metrischen Daten hat sie anschließend in zwei bis zehn gleich große und symmetrisch zu Null liegende Kategorien eingeteilt, wobei die Quantile der Standardnormalverteilung als Klassengrenzen dienten. Von diesen ordinalskalierten Daten wurden die Korrelationen berechnet und mit den wahren festgelegten Korrelationen der metrisch skalierten Daten verglichen.

Das Ergebnis war, dass die ordinalen Daten die wahren Korrelationen unterschätzen und dass mit zunehmender Kategorienanzahl sich die Ergebnisse der ordinalen Daten an die der metrischen Daten annähern.

Um die gleiche Simulation noch einmal für schiefe Daten durchzuführen, hat sie bivariate chi-quadrat-verteilte Daten simuliert, diese ebenfalls in gleich große Klassen eingeteilt und die Polychorischen Korrelationen verglichen. Mit zunehmender Kategorienanzahl wurde die Abweichung von der Normalverteilung sichtbar. Der Anteil an der wahren Korrelation nimmt ab.

Die Ergebnisse dieser Arbeit führten uns zu der Überlegung, ob es einen Zusammenhang zwischen den Korrelationen metrisch skalierter Daten mit unterschiedlicher Schiefe und den Korrelationen kategorisierter Daten unterschiedlicher Schiefe gibt. Weiterhin bleibt die Wölbung als Einflussfaktor.

Ziel dieser Arbeit ist es, Daten mit verschiedener Schiefe und unterschiedlicher Wölbung zu simulieren, diese Daten in Kategorien einzuteilen und die Korrelationen der metrischen mit denen der kategorisierten Daten zu vergleichen.

Simulation der Daten

Vorgehensweise nach Devroye

Von der Verteilung, die wir simulieren wollen, kennen wir lediglich die ersten Momente. Die Bestimmung der Verteilungsfunktion erfolgt nach Devroye (1991). Die Dichte f einer Verteilung hat die folgende allgemeine Form

f(x)=\sum_{j=0}^{\infty} a_j\varphi_j(x)

wobei \varphi_j eine feste Funktionenfamilie ist, unabhängig von f mit j\geq 0 und die a_j sind Koeffizienten. Die Berechnung der a_j basiert auf den Legendre Polynomen, als Bestimmung eines Polynoms durch die gegebenen Momente \mu_j

a_j=\frac{2j+1}{2}\sum^{j/2}_{k=0}(-1)^k2^{-j}{j\choose k}{2j-2k\choose j}\mu_{j-2k}

Die \varphi_j werden aus der folgenden Rekursionsformel bestimmt

(j+1)\varphi_{j+1}(x)-(2j+1)x\varphi_j(x)+j\varphi_{j-1}(x)=0

mit \varphi_0=1 und \varphi_1=x.

Umsetzung in R

Die Simulation der Daten, Kategorisierung und Berechnung der Korrelationen erfolgte mit Hilfe der Software R. Dabei haben wir die ersten Momente mit \mu_0=0, \mu_1=0 und \mu_2=1 festgelegt.

Simulieren von Daten mit unterschiedlicher Schiefe

Zunächst simulieren wir Daten mit unterschiedlicher Schiefe. Das dritte Moment der Verteilung \mu_3 nimmt ganzzahlige Werte im Intervall [5;-1] an. Mit Hilfe der gegebenen Momente können wir die a_j mit j=0,\ldots,3 bestimmen.

a_0 =\frac{1}{2}\mu_0
a_1 =\frac{3}{2}\mu_1
a_2 =\frac{15}{4}\mu_2-\frac{1}{2}\mu_0
a_3 =\frac{35}{4}\mu_3-\frac{21}{4}\mu_1

Im Intervall [0;1] simulieren wir 400 gleichverteilte Zufallsvariablen X, die zur Berechnung der \varphi_j verwendet werden. Für die \varphi_j mit j=0,\ldots,3 ergeben sich die folgenden Polynome

\varphi_0 =1
\varphi_1 =x
\varphi_2 =\frac{3}{2}x^2-\frac{1}{2}
\varphi_3 =\frac{15}{6}x^3-\frac{3}{2}x.

Zur Berechnung der Dichtefunktion werden die a_j und \varphi_j in die Formel für die Dichte eingesetzt und ergeben die folgende Formel

f(x)=a_0\varphi_0+a_1\varphi_1+a_2\varphi_2+a_3\varphi_3.

Abbildung 1: Verteilungsfunktion

Das Resultat (siehe Abbildung 1) sind metrische Daten mit einer Verteilungsfunktion, die eine vorgegebene Schiefe aufweist. Diese Daten werden nun in 2 bis 8 gleich große Kategorien eingeteilt. Die Quantile, die als Klassengrenzen dienen, werden geschätzt. So ergibt sich für 2 Kategorien das Quantil q_{0.5} als Grenze. Alle metrischen Werte, die \leq q_{0.5} sind, werden mit 1 kodiert und Werte, die >q_{0.5} sind, werden mit 2 kodiert. Analog erfolgt die Einteilung in Klassen für die anderen Kategorien.

Von den metrischen Daten werden die Korrelationskoeffizienten berechnet und von den kategorisierten Daten werden die polychorischen Korrelationen berechnet.

Der Vorgang der Simulation der metrischen Daten, die Einteilung in Klassen und das Berechnen der Korrelationen wird 1000 mal wiederholt. Die Ergebnisse der Korrelationen der metrischen Daten werden mit denen der kategorisierten Daten verglichen.

Simulieren von Daten mit unterschiedlicher Wölbung

Das Simulieren von Daten mit unterschiedlicher Wölbung erfolgt analog zu Simulation schiefer Daten. Die Schiefe belassen wir bei \mu_3=0 und das vierte Moment nimmt ganzzahlige Werte im Intervall [5;-1] an. Das ergibt für den Koeffizienten a_4

a_4=\frac{315}{16}\mu_4-\frac{135}{8}\mu_2+\frac{27}{16}\mu_0

und das Polynom \varphi_4

\varphi_4=\frac{35}{8}x^4-\frac{15}{4}x^2+\frac{3}{8}.

Die Dichtefunktion ist nun erweitert auf

f(x)=a_0\varphi_0+a_1\varphi_1+a_2\varphi_2+a_3\varphi_3+a_4\varphi_4.

Die resultierenden Daten mit verschiedener Wölbung werden analog über die geschätzten Quantile in 2 bis 8 Kategorien eingeteilt.

Ergebnisse

Ergebnisse schiefer Daten

Um die Korrelationen der metrischen Daten mit denen der ordinalskalierten Daten zu vergleichen haben wir jeweils das Verhältnis zwischen beiden Werten gebildet. Dabei erwarten wir, einen Verhältniswert von 1, wenn beide Korrelationen annähernd gleich groß sind. Wenn das Verhältnis <1, dann wird die Korrelation der metrischen Daten unterschätzt, d.h., die Korrelation der metrischen Daten ist größer als die der kategorisierten Daten. Wenn der Verhältniswert >1, dann wird die Korrelation der metrischen Daten überschätzt.

In Abbildung 2 werden die verschiedenen Kategorien miteinander verglichen. Dabei sind auf der x-Achse die unterschiedlichen Schiefewerte und auf der y-Achse die Verhältnisse aus den Korrelationen abgetragen.

Abbildung 2: Verhältnis der Korrelationen

Im Verlauf der Korrelationsverhältnisse sind keine einheitlichen Tendenzen zu erkennen, weder für die verschiedenen Schiefen noch für die unterschiedlichen Kategorien. Die Korrelationsverhältnisse komprimieren viele Informationen in einer Grafik. Da keine Tendenzen erkennbar sind, macht es keinen Sinn, die Daten näher zu untersuchen.

Ergebnisse gewölbter Daten

Analog zu den schiefen Daten haben wir für die Korrelationen der gewölbten Daten das Verhältnis aus der Korrelation metrisch skalierter Daten und der Korrelation kategorisierter Daten gebildet und in Abbildung 3 für die verschiedenen Wölbungen und unterschiedlichen Kategorien dargestellt.

Abbildung 3: Verhältnis der Korrelationen

Auch bei den gewölbten Daten liegen keine einheitlichen Tendenzen im Verlauf der Korrelationsverhältnisse vor.

Zusammenfassung

Diese Arbeit hat nicht die Ergebnisse hervorgebracht, die wir erwartet haben. Das kann einerseits am theoretischen Ansatz liegen, da dieser Ansatz eventuell nicht geeignet ist für das Untersuchen von verschiedenen Korrelationen. Andererseits können unter Umständen die in R verwendeten Methoden zum Schätzen der Quantile und Berechnen der Korrelationen nicht korrekt verwendet worden sein.

Um dieser Arbeit einen korrekten wissenschaftlichen Hintergrund zu verleihen, müssten verschiedene theoretische Ansätze zur Simulation schiefer und gewölbter Daten angewendet und miteinander verglichen werden.

Diese Arbeit sollte nicht als Quelle für weitere wissenschaftliche Arbeiten dienen.

Literatur

Kommentare

  • Vorgehensweise nach Devroye: Warum nicht gleich einen Link, sondern erst Literaturliste ?
  • Wurden die Klassen alle symmetrisch gebildet, also bei 8 Klassen haben alle Klassen 12,5% der Gesamtmasse enthalten ?
  • Wie kann bei fünf Klassen für das Verhältnis der Korrelationen Null herauskommen ?
  • Wo ist das R Programm ? Sie hätten hier die Möglichkeit gehabt ihr Programm einzubetten!
  • Warum machen Sie sich am Ende so klein ? Das Ergebnis ist so wie ich es erwartet habe.