Ähnlichkeits- und Distanzmaße

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Einleitung[edit]

Diese Hausarbeit behandelt im Rahmen des Seminars "Angewandte Multivariate Statistik" die Ähnlichkeits- und Distanzmaße. Ähnlichkeits- und Distanzmaße, auch Proximitätsmaße genannt, drücken die Ähnlichkeit bzw. Unähnlichkeit zweier Objekte zahlenmäßig aus. Besitzen diese Objekte mehr als zwei Merkmale, so sind diese multivariat. Ähnlichkeits- und Distanzmaße bilden die Grundlage einer Vielzahl weiterer multivariater Verfahren (Cluster-Analyse, Multidimensionale Skalierung) und sind auch in der Praxis unerlässlich (Texterkennung, Bilderkennung, numerische Taxonomie etc.); die Wahl des Maßes kann große Auswirkungen auf das Ergebnis dieser Verfahren haben. Umso wichtiger ist es, die Unterschiede diverser Maße zu kontrastieren, um ihre Vor- und Nachteile aufzuzeigen und die Wahl eines angemessenen Maßes für ein gegebenes Problem zu ermöglichen. Diese Hausarbeit geht auf die gängigsten Ähnlichkeits- und Distanzmaße ein und veranschaulicht diese durch Anwendung an den korrigierten Boston Housing Datensatz\footnote{Da der Datensatz im Rahmen der VL Statistik II bereits bearbeitet wurde, wird auf eine weitergehende Beschreibung verzichtet.}. Die Rechnungen werden in Matlab durchgeführt, wobei der Code im Anhang dieser Hausarbeit zu finden ist.




Grundlagen
Die Ausgangssituation bei der Konstruktion eines Ähnlichkeits- und Distanzmaßes ist die multivariate Datenmatrix X mit n Objekten und p Merkmalen folgender Form:

X = \begin{bmatrix}
x_{11} & \cdots & x_{1p} \\
\vdots & \ddots & \vdots \\
x_{n1} & \cdots & x_{np} 
\end{bmatrix}

Mittels der Ähnlichkeits- und Distanzmaße wird die n \times p Datenmatrix in eine n \times n Ähnlichkeits- bzw. Distanzmatrix umgewandelt.

D = \begin{bmatrix}
d_{11} & \cdots & d_{1n} \\
\vdots & \ddots & \vdots \\
d_{n1} & \cdots & d_{nn} 
\end{bmatrix}
bzw. S = \begin{bmatrix}
s_{11} & \cdots & s_{1n} \\
\vdots & \ddots & \vdots \\
s_{n1} & \cdots & s_{nn} 
\end{bmatrix}

d_{ij} gibt nun die Distanz, s_{ij} analog die Ähnlichkeit, zwischen dem i-ten und j-ten Objekt zahlenmäßig wieder. Die Distanz bei d_{ij} ist höher, je größer der Wert ist. Für die Ähnlichkeit gilt das gegenteilige: Je größer s_{ij} ist, desto ähnlicher sind sich beide Objekte.

Für beide Maße gelten in der Regel folgende Eigenschaften:
1. s_{ij} = s_{ji}. Die Distanz von Objekt i zu Objekt j ist gleich der Distanz von Objekt j zu i. Dies impliziert die Symmetrie der Ähnlichkeits- bzw. Distanzmatrix.
2. s_{ij} \geq 0. Nicht-Negativität, das heißt es gibt nur positive Distanzen.
3. s_{ij} \leq s_{ii}. Wenn j \neq i ist, dann muss Ähnlichkeit zu i kleiner sein als im Falle der Identität.
4. s_{ii} = 1. Die Ähnlichkeit eines Objektes zu sich selbst ist die Identität und somit die größte Ähnlichkeit.
5. 0 \leq s_{ij} \leq 1. Normiert auf [0;1]. Dies ermöglicht z.B. die Vergleichbarkeit zweier Ähnlichkeitsmatrizen.

Für das Distanzmaß gilt analoges. Aufgrund der Relation s_{ij}=1-d_{ij} gilt aber d_{ii}=0. Zusätzlich besitzen metrische Distanzmaße die geometrische Eigenschaft, dass ihre Distanzen die Dreiecksungleichung erfüllen:

d_{jk} \leq d_{ji} + d_{ik}, i,j,k \in S

Verbal bedeutet dies, dass die Distanz von Objekt j zu k nur höchstens so groß sein kann wie die Summe der Distanz von Punkt j zu i und i zu k.

Nach Backhaus (2006) lassen sich Ähnlichkeits- und Distanzmaße grob folgendermaßen systematisieren. Zum einen gibt es Maße für \textbf{quantitative} Merkmale, die sich dann in euklidische (inkl. verwandte) und in korrelationsähnliche unterteilen. Die Maße für die qualitativen Merkmale lassen sich in binäre Merkmale und nominalskalierte Merkmale einteilen. Oft besitzt eine Datenmatrix jedoch sowohl quantitative als auch qualitative Merkmale. In diesem Fall kann durch ein Gewichtungsverfahren ein gemischtes Maß konstruiert werden. Diese Fälle werden im weiteren Verlauf diskutiert.

Quantitative Merkmale[edit]

Ein grundlegendes Distanzmaß ist die \textbf{euklidische Distanz}. Im zweidimensionalen Raum lässt sich das Maß geometrisch und intuitiv veranschaulichen: Sie ist die kürzeste Distanz, die "`Luftlinie"', zweier Objekte. Seien x_{i} = \bigl( \begin{smallmatrix} x_{i1} \\ x_{i2} \end{smallmatrix} \bigr) und x_{j} = \bigl( \begin{smallmatrix} x_{j1} \\ x_{j2} \end{smallmatrix} \bigr) zwei Punkte aus dem \mathbb{R}^{2}. Durch den Satz des Pythagoras ist die euklidische Distanz zwischen den beiden Punkten im zweidimensionalen Raum gegeben durch $$d_{ij}=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2}.$$

Dieses Distanzmaß lässt sich nun auf den korrigierten Boston Housing Datensatz anwenden, der auch die Koordinaten (LON und LAT) der Erhebungsgebiete (TRACT) enthält. In diesem Fall lässt sich die Distanz der einzelnen Objekte - hier sind es Erhebungsgebiete - durch das euklidische Maß wiedergeben \footnote{Um genau zu sein ist diese Berechnung aufgrund der ellipsoiden Form der Erde nicht zulässig und müsste zum Beispiel mittels der \textbf{Haversine-Formel} approximiert werden. Da der Datensatz nur die Georeferenz einer Stadt wiedergibt und das euklidische Distanzmaß im zweidimensionalen Raum lediglich praktisch veranschaulicht werden soll, wird von der Korrektur von Höhenmessungen abgesehen. Interessierte werden auf einschlägige Literatur aus dem Feld der Geodäsie verwiesen.}. Als Beispiel berechnen wir die Distanz vom Erhebungsgebiet 2011 zu 2033:

\begin{table} \centering \begin{tabular}{c | c | c | c } \hline \hline INDEX & TRACT & LON & LAT \\ \hline 1 & 2011 & -70.955 & 42.255 \\ ... & ... & ... & ... \\ 6 & 2033 & -70.917 & 42.304 \\ \hline \hline \end{tabular} \caption{Auszug aus dem korrigierten Boston Housing Datensatz} \end{table}

\begin{equation*} \begin{split} d_{16} &= \sqrt{(-70.955--70.917)^2+(42.255-42.304)^2} \\ &=0.062. \end{split} \end{equation*}


Das euklidische Distanzmaß lässt sich vom \mathbb{R}^2 auf \mathbb{R}^p verallgemeinern.

Die euklidische

Distanz zwischen zwei Objekten x_{i} und x_{j} im p-dimensionalen Raum ist definiert als \begin{equation} \begin{split} d_{ij} &= \sqrt{\sum_{k=1}^p(x_{ik}-x_{jk})^2} \\ & \text{bzw. in vektorieller Form} \\ d_{ij} &= \sqrt{(x_{i}-x_{j})'(x_{i}-x_{j})} \end{split} \end{equation}

Hier nochmal die intuitive Darstellung. Über das Streudiagramm wurde in diesem Fall die Karte von Boston gelegt. Da wir uns im zweidimensionalen Raum befinden, können wir die "`Luftlinie"' zwischen zwei Erhebungsgebieten (als Punkt dargestellt) mittels des euklidischen Distanzmaßes wiedergeben. Die Anwendung des Satz des Pythagoras wird ebenfalls angedeutet.

\begin{figure} \begin{center} \infig{1.3}{Grafiken/Scatterplot_Georeferenz} \caption[]{Anwendung des euklidischen Distanzmaßes auf den korrigierten Boston Housing Datensatz.} \end{center} \end{figure}

Es wird ersichtlich, dass alle vom Ursprung equidistanten Punkte mit Abstand c die Bedingung c^2=\sum_{k=1}^{p}x_{k}^{2} \footnote{c = \sqrt{\sum_{k=1}^p(x_{ik}-0)^2} \Leftrightarrow 	c^2 = \sum_{k=1}^{p}x_{ik}^2}

erfüllen. Dies bedeutet, dass alle Merkmale x_{k} gleichermaßen einen Beitrag zum Distanzwert leisten.


\textbf{Eigenschaften} \\ Die euklidische Distanz besitzt folgende Eigenschaften \begin{itemize} \item[1.] Metrische Maßzahl (nur bei unquadrierter Version), da die Dreiecksunglechung erfüllt wird. \item[2.] Translationsinvariant und invariant bzgl. orthogonaler Transformationen (Drehungen und Spiegelungen): Die Distanz ändert sich nicht bei Abbildungen der Art x \rightarrow C x_{k}+a, wobei a \in \mathbb{R}^{p} ein beliebiger, fester Vektor ist und C eine orthogonale p \times p Matrix (Bock (1974)). \item[3.] \textbf{Nicht} skaleninvariant \item[4.] Distanz zweier Objekte ist unabhängig von der gesamten Objektmenge \end{itemize}

Diese vier Punkte sind Eigenschaften, die bei der Wahl des Distanzmaßes berücksichtigt werden sollten.

\textbf{Standardisierte euklidische Distanz} \\ Im vorhergehenden Beispiel besaßen die Merkmale Längen- und Breitengrade dasselbe Skalenniveau. In vielen Fällen besitzen die Merkmale aber verschiedene Skalenniveaus und Streuungen, sodass die euklidische Distanz ein verzerrtes Ergebnis liefern würde.

Betrachten wir die Merkmale RM (durchschnittliche Zimmerzahl pro Haushalt) und CMEDV (korrigierter Medianwert der Häuser in 1000 USD). RM besitzt mit \sigma = 0.7026 eine weit geringere Standardabweichung als CMEDV mit \sigma = 9.182. Da beim euklidischen Maß die Merkmalsdifferenzen (x_{ik}-x_{jk})^2 gleichwertig gewichtet werden, die Standardabweichung \sigma aber für RM kleiner ist, wird der Einfluss dieses Merkmals bei der Berechnung der Distanz d_{ij} eher klein sein. Besäßen beide Merkmale das gleiche Skalenniveau, so hätte der Unterschied von einem Zimmer dasselbe Gewicht wie der Unterschied von 1000 USD. Da dies jedoch nicht der Fall ist, muss eine Skalierung vorgenommen werden, bevor die euklidische Distanz berechnet wird.

Dazu dividiert man das jeweilige Merkmal durch ihre Standardabweichung und bestimmt dann die Distanz auf Basis des standardisierten Merkmals. Somit ist die Standardabweichung bei allen Merkmalen vor Berechnung der euklidischen Distanz \sigma=1. \\


Die \textbf{standardisierte euklidische Distanz} zwischen zwei Objekten x_{i} und x_{j} im p-dimensionalen Raum ist definiert als \begin{equation} \begin{split} d_{ij} &= \sqrt{\sum_{k=1}^p \frac{(x_{ik}-x_{jk})^2}{s_{k}^2}} \\ & \text{bzw. in vektorieller Form} \\ d_{ij} &= \sqrt{(x_{i}-x_{j})'\hat{\Sigma}(x_{i}-x_{j})} \\ & \text{mit } \hat{\Sigma}=\text{ diag }({s}_{1}^{2}, \cdots, s_{p}^{2}) \end{split} \end{equation}

Durch die Standardisierung erfüllen alle vom Ursprung equidistanten Punkte nun die Bedingung \sum_{k=1}^{p} {{x_{k}^2}/{s_{k}}}^2=c^2 \footnote{c=\sqrt{\sum_{k=1}^{p}(({x_{k}-0})/s_{k})^2} \Rightarrow c^2=\sum_{k=1}^{p}({x_{k}}/s_{k})^2}. Merkmale mit großer Standardabweichung werden folglich heruntergewichtet, während Merkmale kleiner Standardabweichung (\sigma < 1) stärker gewichtet werden. \\

Durch die Standardisierung ist der vierte Punkt der Eigenschaften der euklidischen Distanz (Unabhängigkeit von der gesamten Objektmenge) nicht mehr gegeben, da die Berechnung der Standardabweichung \sigma den Mittelwert aus der gesamten Objektmenge verwendet.

In folgender Tabelle sind die acht ähnlichsten Erhebungsgebiete (hinsichtlich CMEDV und RM) aufgelistet. In der linken Tabelle wurden die Distanzen mit der euklidischen Distanz berechnet. In der rechten Tabelle wurden die Daten vor Berechnung standardisiert, um den verschiedenen Skalenniveaus gerecht zu werden. Aus der Tabelle wird ersichtlich, dass die Werte d_{ij} zum einen verschieden sind. Zum anderen wird aber auch deutlich, dass die Rangordnung ab der 5. Position nicht mehr gleich ist und die Wahl des Maßes somit direkte Auswirkungen auf das Ergebnis hat.

\begin{table} \hspace{0.033\textwidth} \begin{minipage}{0.4\textwidth} \centering \begin{tabular}{r | r | r| r}

\hline \hline rg. & $d_{ij}$ & $i$ & $j$ \\ \hline 1 & 0.001 & 211 & 72 \\ 2 & 0.001 & 220 & 133 \\ 3 & 0.005 & 12 & 10 \\ 4 & 0.006 & 322 & 319 \\ 5 & 0.006 & 284 & 167 \\ 6 & 0.008 & 121 & 68 \\ 7 & 0.008 & 333 & 313 \\ 8 & 0.009 & 256 & 70 \\ \hline \hline \end{tabular} \caption{\textnormal{Berechnung mittels euklidischer Distanz}} \end{minipage} \hspace{0.033\textwidth} \begin{minipage}{0.4\textwidth} \centering \begin{tabular}{r |r| r| r}

\hline \hline rg. & $d_{ij}$ & $i$ & $j$ \\ \hline 1 & 0.0014233 & 211 & 72 \\ 2 & 0.0014233 & 220 & 133 \\ 3 & 0.0071163 & 12 & 10 \\ 4 & 0.0085395 & 322 & 319 \\ 5 & 0.0085395 & 284 & 167 \\ 6 & 0.010983 & 312 & 88 \\ 7 & 0.010983 & 334 & 289 \\ 8 & 0.011257 & 51 & 22 \\ \hline \hline \end{tabular} \caption{\textnormal{Berechnung mittels std. euklidischer Distanz}} \end{minipage} \end{table}


\textbf{Die Verallgemeinerung: Die Mahalanobis-Distanz} \\ Die euklidische Distanz als "`Luftlinienmaß"' ist zwar intuitiv und einfach zu kalkulieren. Das vorherige Beispiel verdeutlichte aber auch ihre Grenzen. Zwar kann durch eine erweiterte Version die Skaleninvarianz durch Standardisierung sichergestellt werden. Korrelationen aber werden nicht angemessen berücksichtigt. Ein Beispiel soll die Problematik nun verdeutlichen: Es wird ein Datensatz mit p=3 Merkmalen angenommen. Das zweite Merkmal ist eine lineare Transformation des ersten Merkmals, sie korrelieren folglich perfekt (in der Form x_{i2}=a+bx_{i1}). Obwohl nun das zweite Merkmal aufgrund der Korrelation keine zusätzliche Information liefert, erhält es bei der Berechnung mittels der euklidischen Distanz denselben Gewichtungsfaktor wie das erste Merkmal\footnote{Da folgendes gilt: c=\sum_{k=1}^{p}x_{ik}^2}. Dadurch fällt das dritte Merkmal, das im Gegensatz zum zweiten Merkmal neue Informationen erhält, bei der Berechnung verhältnismäßig weniger ins Gewicht.

Die Mahalanobis-Distanz berücksichtigt bei der Berechnung die Kovarianz der Merkmale untereinander und gewichtet entsprechend, sodass sowohl die Korrelation der Merkmale untereinander als auch die verschiedenen Skalenniveaus eliminiert werden. Sie kann als Verallgemeinerung der beiden zuvor dargestellten Fälle gesehen werden.


Die Mahalanobis-Distanz zwischen zwei Punkten im p-dimensionalen Raum ist definiert als:

\begin{equation} \begin{split} d_{ij} &= \sqrt{(x_{i}-x_{j})'\hat{\Sigma}^{-1}(x_{i}-x_{j})} \\ & \text{mit } \hat{\Sigma}=\frac{1}{n} \sum_{k=1}^{n}(x_{k}-\bar{x})(x_{k}-\bar{x})' \end{split} \end{equation}

\hat{\Sigma} ist hierbei die empirische Kovarianzmatrix. Ist \hat{\Sigma} eine Einheitsmatrix, so handelt es sich um die euklidische Distanz. Ist \hat{\Sigma}=\text{ diag }(s_{1}^{2}, \cdots, s_{p}^{2}), so handelt es sich um die standardisierte euklidische Distanz. Die zwei vorher genannten Maße sind also als Spezialfälle zu sehen. \\

Vom Ursprung equidistante Punkte erfüllen nun die Bedingung c^2=x'\Sigma^{-1}x. Bei der gewöhnlichen euklidischen Distanz ließ sich die Bedingung geometrisch als Spheroid mit dem Ursprung als Mittelpunkt interpretieren. Bei der standardisierten euklidischen Distanz handelte es sich um ein Ellipsoid mit dem Ursprung als Mittelpunkt und den Koordinatenachsen als Hauptachsen. Bei der Mahalanobis-Distanz handelt es sich um die allgemeine Gleichung für ein Ellipsoid mit dem Ursprung als Mittelpunkt. Die Hauptachsen können nun die Korrelation wiedergeben und somit rotiert sein. \\

Bei der Berechnung der Mahalanobis-Distanz wird diese positive Korrelation durch eine Transformation (Rotation) beseitigt, sodass die Hauptachsen wieder den Koordinatenachsen entsprechen. Anschließend wird standardisiert, sodass die Streuung in jeder Dimension gleich ist. Zum Schluss kann wieder die gewöhnliche euklidische Distanz angewandt werden. In der folgenden Tabelle wurde das obige Beispiel CMEDV und RM mittels der Mahalanobis-Distanz berechnet. Die Unterschiede in der Rangordnung ergeben sich aus der positiven Korrelation (r=0.6963), auch in der obigen Abbildung ersichtlich. Im Vergleich zur gewöhnlichen euklidischen Distanz besitzt die Mahalanobis-Distanz weitergehende Invarianzeigenschaften\footnote{Für mathematische Details vergl. Bock (1974), S. 40-43}. In der Praxis wird die Mahalanobis-Distanz oft auch zur Erfassung von Ausreißern verwendet\footnote{Siehe dazu Kockelkorn (2000)}.

\begin{table} \hspace{0.033\textwidth} \begin{minipage}{0.4\textwidth} \centering \begin{tabular}{r | r | r| r}

\hline \hline rg. & $d_{ij}$ & $i$ & $j$ \\ \hline 1 & 0.0014233 & 211 & 72 \\ 2 & 0.0014233 & 220 & 133 \\ 3 & 0.0071163 & 12 & 10 \\ 4 & 0.0085395 & 322 & 319 \\ 5 & 0.0085395 & 284 & 167 \\ 6 & 0.010983 & 312 & 88 \\ 7 & 0.010983 & 334 & 289 \\ 8 & 0.011257 & 51 & 22 \\ \hline \hline \end{tabular} \caption{\textnormal{Berechnung mittels euklidischer Distanz}} \end{minipage} \hspace{0.033\textwidth} \begin{minipage}{0.4\textwidth} \centering \begin{tabular}{r |r| r| r}

\hline \hline rg. & $d_{ij}$ & $i$ & $j$ \\ \hline 1 & 0.0019829 & 211 & 72 \\ 2 & 0.0019829 & 220 & 133 \\ 3 & 0.0099147 & 12 & 10 \\ 4 & 0.01091 & 503 & 52 \\ 5 & 0.010972 & 271 & 38 \\ 6 & 0.011205 & 322 & 133 \\ 7 & 0.011205 & 352 & 1 \\ 8 & 0.011384 & 37 & 16 \\ \hline \hline \end{tabular} \caption{\textnormal{Berechnung mittels std. euklidischer Distanz}} \end{minipage} \end{table}

\textbf{Weitere verwandte Distanzen: Die L_{r}-Distanzen} \\ Eine Verallgemeinerung des euklidischen Abstands in folgender Form ist die L_{r}-Distanz oder Minkowski-Metrik. Alle L_{r}-Distanzen erfüllen die Dreiecksungleichung und sind somit metrisch. Die Wahl des r entscheidet darüber, wie Differenzen gewichtet werden. Bei r \geq 2 fallen große Differenzen stärker ins Gewicht.

\begin{equation} \begin{split} d_{ij}^{(r)} &= [ \sum_{k=1}^{p} |x_{ik}-x_{jk}|^{r} ]^{\frac{1}{r}} \\ & \text{wobei $r \geq 1$} \end{split} \end{equation}

Die euklidische Distanz ist ein Spezialfall der Minkowski-Metrik, der durch L_{2} wiedergegeben werden kann. Zwei weitere häufig verwendete Fälle sind r=1 und r=\infty. \\

L_{1} wird auch die \textbf{City-Block Metrik} bezeichnet. Anders als bei der euklidischen Distanz, bei der größere Unterschiede geringer gewichtet werden, werden bei der City-Block Metrik alle Differenzen gleichwertig gewichtet. Eine besondere Version der L_{1} Metrik ist hier der Dissimilaritätsindex (oder auch \textbf{I}ndex of \textbf{D}issimilarity) aus der Demographie nach Duncan (1955): \\ \begin{equation} \begin{split} d_{ij}^{ID}=\frac{1}{2} \sum_{k=1}^{p} |\frac{x_{ik}}{\sum_{l=1}^{n}x_{il}}-\frac{x_{jk}}{\sum_{l=1}^{n}x_{jl}}| \end{split} \end{equation} Der Dissimilaritätsindex gibt wieder, wie gleichmäßig sich zwei Gruppen i und j aus insgesamt n Gruppen über die p geographischen Erhebungsgebiete verteilen. x_{ik} ist dabei die absolute Zahl der Menschen aus der Gruppe i im Erhebungsgebiet k. Der Boston Housing Datensatz enthält mit B zwar die Angabe, wie groß der Anteil der schwarzen Bevölkerung im jeweiligen Erhebungsgebiet ist. Leider fehlen aber die Information über die absolute Bevölkerungszahl je Erhebungsgebiet, somit lässt sich die Dissimilarität hier nicht messen.

L_{\infty} wird die Chebychev-Distanz genannt. Sie gibt die größte absolute Distanz zwischen zwei Werten wieder. \begin{equation} \begin{split} d_{ij}^{\infty}= \text{lim}_{k \Rightarrow \infty} [\sum_{k=1}^{p}|x_{ik}-x_{jk}|^{k}]^{\frac{1}{k}} = \text{max} |x_{ik}-x_{jk}| \end{split} \end{equation}

\textbf{Korrelationskoeffizient als Ähnlichkeitsmaß} \\ Ein Korrelationsmaß r spiegelt die Beziehung zweier Werte wider. r bewegt sich zwischen -1 und 1, wobei 1 perfekte positive Korrelation und -1 perfekte negative Korrelation anzeigt. Ein bekanntes Korrelationskoeffizient ist der Pearson'sche Korrelationskoeffizient. Korrelationskoeffizienten können als Ähnlichkeitsmaß eingesetzt werden, wenn lediglich eine Relation zwischen zwei Objekten festgestellt werden soll. Ein solches Maß kann also Größen- und Niveauunterschiede nicht feststellen sondern nur das Profil.

Bei der Überlegung, ob statt eines euklidischen oder verwandten Distanzmaßes ein korrelationsähnlicher verwendet werden soll, muss folglich immer die Fragestellung einbezogen werden. Will man zum Beispiel ähnliche Aktien mit selber Entwicklungstendenz - unabhängig vom Niveau - ermitteln, so käme ein korrelationsähnliches Maß in Frage.

Da das Pearson'sche Korrelationsmaß zwischen -1 und 1 normiert ist, muss eine Transformation vorgenommen werden, um den Eigenschaften eines Distanzmaßes (0 \leq d \leq 1) zu genügen:

\begin{equation} \begin{split} d_{ij} &= (1-r_{ij})/2 \\ d_{ij}&= \Bigg(1-\frac{\sum_{k=1}^{p}(x_{ik}-\bar{x_{i\cdot}})(x_{jk}-\bar{x_{j\cdot}})}{\sqrt{\sum_{k=1}^{p}(x_{ik}-x_{i\cdot})^{2}\sum_{k=1}^{p}(x_{jk}-x_{j\cdot})^{2}}} \Bigg) \Big / 2 \end{split} \end{equation}