Ausreißer

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Dieser Artikel wurde in der deutschsprachigen Wikipedia erstellt und in das teachwiki importiert und bearbeitet. Hierbei wurden Änderungen am Artikel von unterschiedlichen Autoren gemacht. Die Versionsgeschichte und Autorenschaft dazu ist im entsprechenden Artikel der deutschsprachigen Wikipedia zu finden.

In der Statistik spricht man von einem Ausreißer, wenn ein Beobachtungswert nicht in eine erhobene Messreihe passt, also den Erwartungen widerspricht. Die Erwartung wird meistens als Streuungsbereich um den Erwartungswert herum definiert, in dem sich die meisten aller Messwerte nach der Messung befinden.

Ein Ausreißer Messwert
Darstellung eines Ausreißers im Boxplot

Dabei bedient man sich jeweils bestimmter, subjektiver Definitionen und Annahmen (z. B. Quantilsabstand Q75 – Q25), um untypische Werte, die außerhalb dieses Bereichs liegen, als Ausreißer zu identifizieren. Solche untypischen Werte können durch Erfassungs-, Eingabe- oder Rechenfehler entstanden sein, es kann sich jedoch auch um korrekte aber für die Verteilung der Grundgesamtheit unwahrscheinliche Werte handeln (Rönz 2001).

Unerkannte Ausreißer können zu schwerwiegenden Verzerrungen der Ergebnisse statistischer Methoden und ihrer Interpretation führen (Rönz 2001). Beispielweise können einfache statistische Maßzahlen wie der arithmetische Mittelwert oder die Standardabweichung durch einen einzigen stark abweichenden Wert verzerrt werden. Deshalb sollte man sich vor einer Datenanalyse mit der Identifikation von Ausreißern beschäftigen und daraufhin festlegen, wie mit ihnen umgegangen werden soll. Die Frage nach Ausreißern stellt sich nur bei metrisch skalierten Variablen. Insbesondere wird die Ausreißerproblematik von der robusten Statistik aufgegriffen.

Unterschiede zu Extremwerten

Als Extremwerte bezeichnet man den kleinsten und größten Wert einer Messreihe. Folglich gibt es in jeder Messreihe Extremwerte. Diese sind allerdings nur dann potentielle Ausreißer, wenn sie mit der übrigen Messreihe unvereinbar erscheinen.

Ein beliebter Ansatz ist es, den Boxplot zu nutzen, um Ausreißer zu identifizieren. Dieser stellt Beobachtungswerte außerhalb des Whiskers als Ausreißer dar. Wenn der Whisker als das 1,5-fache des Interquartilsabstandes (1,5×IQR) definiert wird, so liegen für die Normalerteilung knapp 0,7 % der Masse der Verteilung außerhalb der Whiskers. Bereits ab einem Stichprobenumfang von n>143 \ würde man daher (im Mittel) mindestens eine Beobachtung außerhalb der Whiskers erwarten (oder auch k \ Beobachtungen außerhalb der Whiskers bei n>143.3362*k \ ). Diese Werte sind also nicht untypisch, sondern werden in diesem Falle erwartet. Daher ist es sinnvoller, zunächst von Extremwerten statt von Ausreißern zu sprechen. Häufig werden deshalb Werte, die zwischen 1,5×IQR und 3×IQR liegen, als „milde“ Ausreißer bezeichnet und Werte, die über 3×IQR liegen, als „extreme“ Ausreißer. Diese werden im Boxplot unterschiedlich gekennzeichnet.

Identifikation von Ausreißern

Explorative, graphische Methoden sind das einfachste und anschaulichste Instrument für die Darstellung und Identifikation von Ausreißern (Buttler). Die gängigsten Methoden der univariaten, eindimensionalen Dantenanalyse dafür sind das Histogramm, der Boxplot und der Stem-and-leaf Plot, im bivariaten Fall bietet sich der Scatterplot an. Diese Methoden veranschaulichen Ausreißer und liefern einen ersten Überblick über die Verteilung der Beobachtungswerte.

Beispiel

Die folgende Tabelle zeigt fiktive Klimadaten für Berlin an fünfzehn aufeinanderfolgenden Tagen.

Darstellung der Beispieldaten im Boxplot
Darstellung der Beispieldaten im Histogramm
Tag 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Temperatur 10C° 12C° 10C° 13C° 12C° 13C° 9C° 12C° 11C° 18C° 10C° 12C° 11C° 10C° 11C°

Werden die Daten graphisch dargestellt, so fällt auf, dass der Wert für den 10. Tag von den übrigen stark abweicht. Der Boxplot und das Histogramm auf der rechten Seite veranschaulichen dies. Es besteht also der Verdacht, dass es sich bei diesem Wert um einen Ausreißer handelt. Hierfür kann es verschiedene Gründe geben. Das Messgerät könnte beispielsweise an diesem Tag an veränderter Position aufgestellt worden sein und mehr Sonneneinstrahlung erhalten haben. Ebenso sind Übertragungsfehler bei der Dateneingabe möglich. Es kann sich jedoch auch um einen korrekten Wert handeln, wenn an diesem Tag ungewöhnlich hohe Temperaturen herrschten.

Wenn der Wert in der weiteren Analyse beibehalten wird, so vergrößert er das arithmetische Mittel und die Standardabweichung. Wird dieser Wert in die Berechnung einbezogen, so sind das arithmetische Mittel und die Standardabweichung  \mu=11,60 \ bzw.  \sigma=2,13 \ . Wird der Werst nicht berücksichtigt, so nehmen arithmetisches Mittel und Standardabweichung kleinere Werte an:  \mu=11,14 ; \sigma=1,23 \ .

Ein Ausreißertest würde nun die statistische Wahrscheinlichkeit prüfen, dass es sich bei dem Wert um einen Ausreißer handelt.

Ausreißertests

Wenn bei der graphischen Exploration mindestens ein Beobachtungswert identifiziert wird, der unerwartet stark von den übrigen Werten abweicht, wird in der Regel mittels eines Ausreißertests statistisch geprüft, ob, bzw. mit welcher Wahrscheinlichkeit, es sich dabei tatsächlich um einen Ausreißer handelt. Ausreißertests werden außerdem genutzt, um routinemäßig die Zuverlässigkeit von Daten zu kontrollieren oder rechtzeitig gewarnt zu werden, falls Probleme bei der Datengewinnung auftreten. Alle Ausreißertests setzen voraus, dass das Merkmal in der Grundgesamtheit normalverteilt ist.

siehe Hauptartikel: Ausreißertests

Umgang mit Ausreißern

In jedem Fall muss entschieden werden, wie mit vorhandenen Ausreißern innerhalb eines zu untersuchenden Datensatzes umzugehen ist.

Die eleganteste Art mit Ausreißern umzugehen, ist die Verwendung robuster Methoden, deren Ergebnisse nicht oder nur marginal durch Ausreißer beeinflusst werden. Der Median ist beispielsweise ein robusterer Mittelwert, als das arithmetische Mittel, da er in der Regel nicht von Ausreißern beeinflusst wird. Diese robusten Verfahren führen allerdings meist zu einem Informationsverlust.

Zwei Arten von Ausreißern sollten unterschieden werden:

  • Handelt es sich bei Ausreißern um Mess- Erhebungs- oder Rechenfehler, so sollte der betreffende Wert in der weiteren Datenanalyse ausgeschlossen, korrigiert oder durch eine Näherung ersetzt werden, um Verzerrungen zu vermeiden.
  • Handelt es sich um einen seltenen, jedoch korrekten Wert, so muss dessen Einfluss auf weitere statistische Kennzahlen (Mittelwert, Streuung etc.) berücksichtigt werden. Eine Doppelrechnung, d.h. einmal mit und einmal ohne den betreffenden Wert, lässt erkennen, inwieweit die Resultate durch Ausreißer beeinflusst werden. In diesem Falle ist auch die Verwendung robuster Methoden zu prüfen.

Eine weitere Methode mit Ausreißern umzugehen, ist das "Trimmen" der Daten. Hierbei werden eine feste Anzahl größter und kleinster Werte der Stichprobe "abgeschnitten" und bei weiteren Berechnungen nicht berücksichtigt. Dadurch verringert sich die Anzahl der Ausprägungen in der Stichprobe. Alternativ dazu kann eine "Winsorisierung" (nach C.P. Winsor) der Daten vorgenommen werden. Hierbei werden eine feste Anzahl größter und kleinster Werte durch die nächstgelegenen Werte in der Stichprobe ersetzt. Dieses Verfahren hat den Vorteil, dass der Stichprobenumfang unverändert bleibt (Sachs, 2003).


Beispiel für den fehlerhaften Umgang mit Ausreißern: Das Ozonloch über der Antarktis wurde einige Jahre zwar bereits gemessen, die Messwerte aber als offensichtlich falsch gemessen bewertet und in ihrer Tragweite nicht erkannt (Ludwig, 2001).

Multivariate Ausreißer

Ausreißer rechts unten im Scatterplot und Boxplots für jede einzelne Variable

In mehreren Dimensionen wird die Identifikation von Ausreißern komplizierter. In der Grafik rechts kann der Ausreißer in der rechten unteren Ecke nicht durch Inspektion jeder einzelnen Variablen erkannt werden. Er ist beispielsweise in den Boxplots nicht sichtbar. Trotzdem wird er eine lineare Regression deutlich beeinflussen. Bei zwei, bzw. drei Variablen sind Ausreißer noch im Scatterplot sichtbar, haben die Daten jedoch mehrere Variablen, wird für die Darstellung von Ausreißern eine neue Methode benötigt.

Andrews Plot

Andrews Plot, Screenshot der Data Mining Umgebung YALE

D.F.Andrews (1972) schlug deshalb vor, jede multivariate Beobachtung (x_{i1}, x_{i2}, ..., x_{ip}) \ durch eine Kurve ( Andrews Plot) zu repräsentieren. Jede Beobachtung (Fall)  i \ wird also durch mehrere Variablen beschrieben, wobei  p \ die Anzahl der Variablen bezeichnet:

f_i(t) = \frac{x_{i1}}{\sqrt{2}}+x_{i2}\sin(t)+x_{i3}\cos(t)+x_{i4}\sin(2t)+x_{i5}\cos(2t)+...

Damit wird jede multivariate Beobachtung auf eine zweidimensionale Kurve im Intervall [-\pi;\pi] \ abgebildet. Aufgrund der Sinus- und Kosinusterme wiederholt sich die Funktion f_i(t) \ außerhalb des Intervalls [-\pi;\pi] \ .

Für jeweils zwei Beobachtungen i \ und j \ gilt:

\underbrace{\int_{-\pi}^{\pi} \left(f_i(t)-f_j(t)\right)^2 dt}_{(1)} = \underbrace{\pi \sum_{k=1}^p (x_{ik}-x_{jk})^2}_{(2)}

Die Formel  (1) \ links neben dem Gleichheitszeichen entspricht (zumindest approximativ) der Fläche zwischen den beiden Kurven und die Formel  (2) \ rechts ist (zumindest approximativ) der multivariate euklidische Abstand zwischen den beiden Datenpunkten. Ist also der Abstand zwischen zwei Datenpunkten klein, dann muss auch die Fläche zwischen den Kurven klein sein, d.h. die Kurven f_i(t) \ und f_j(t) \ müssen nahe beieinander verlaufen. Ist jedoch der Abstand zwischen zwei Datenpunkten groß, muss auch die Fläche zwischen den Kurven groß sein, d.h. die Kurven f_i(t) \ und f_j(t) \ müssen sehr unterschiedlich verlaufen. Beobachtungen mit ähnlichen Werten über die  p \ Variablen werden ähnliche Kurven haben. Ein multivariater Ausreißer würde als Kurve sichtbar, die sich von allen anderen Kurven in ihrem Verlauf deutlich unterscheidet. Weicht eine Gruppe von Beobachtungen von der Masse ab, so sind mehrere Kurven verschieden.

Andrews Kurven haben zwei Nachteile:

  • Wenn der Ausreißer in genau einer Variablen sichtbar ist, nimmt der Mensch die unterschiedlichen Kurven um so besser wahr, je weiter vorne diese Variable auftaucht. Am besten sollte sie die Variable x_{\bullet1} sein. D.h. es bietet sich an, die Variablen zu sortieren, z.B. x_{\bullet1} wird die Variable mit der größten Varianz, oder man nimmt die erste Hauptkomponente.
  • Wenn man viele Beobachtungen hat, müssen viele Kurven gezeichnet werden, sodass der Verlauf einer einzelnen Kurve nicht mehr sichtbar ist.

Beispiel

Andrews Plot der Beispielrechnung

In einem Datensatz werden die neuen Bundesländer durch die Variablen  x_{i1} \  = Fläche ,  x_{i2} \  = Einwohner,  x_{i3} \  = Arbeitslose und  x_{i4} \  = Wahlbeteiligung beschrieben. (Beispiel aus Rönz 2001, S. 34/35)

Die Berechnung für die Kurve  f_{B}(t) \ des Landes Brandenburg an der Stelle  t=-3,1 \ sieht dann beispielsweise wie folgt aus: f_{B}(t=-3,1) = \frac{29,1}{\sqrt{2}}+2641\sin(-3,1)+10,3\cos(-3,1)+67,1\sin(2*-3,1) \

Im nebenstehenden Andrews Plot ist zu erkennen, dass die blaue Kurve für Sachsen deutlich verschieden von den übrigen Kurven ist. Dieses Land ist deshalb zumindest ein auffälliges Element, bei dem der Verdacht auf einen multivariaten Ausreißer besteht. (Beispiel aus Rönz 2001, S. 34/35)

Stahel-Donoho Outlyingness

Stahel (1981) und Donoho (1982) haben die sog. Outlyingness definiert, um eine Maßzahl zu erhalten, die angibt wie weit ein Beobachtungswert von der Masse der Daten entfernt liegt. Durch die Berechnung aller möglichen Linearkombinationen \alpha_1 x_{i1}+\alpha_2 x_{i2}+ ... + \alpha_p x_{ip} = \alpha^Tx_i \ , d.h. die Projektion des Datenpunktes auf den Vektor \alpha \ , mit \sum_{k=1}^p \alpha_i^2=1 \ ergibt sich die Outlyingness:

out(x_i) = \sup_{\alpha} \left(out(x_i, \alpha)\right) = \sup_{\alpha} \left(\frac{\alpha^Tx_i-median(\alpha^Tx)}{mad(\alpha^Tx)}\right)

mit median(\alpha^Tx) \ der Median der projizierten Punkte, als robustes Lagemaß, und mad(\alpha^Tx) \ die mittlere absolute Abweichung der projizierten Punkte, als robustes Streuungsmaß. out(x_i, \alpha) \ ist dabei eine Standardisierung.

In der Praxis wird die Outlyingness berechnet, in dem für mehrere hundert oder tausend zufällig ausgewählte Projektionsrichtungen \alpha \ das Maximum out(x_i, \alpha) \ genommen wird.

Quellen

Einzelnachweise

  • Andrews, D. (1972). Plots of high-dimensional data, Biometrics 28: 125-136.
  • Buttler G.: Ein einfaches Verfahren zur Identifikation von Ausreißern bei multivariaten Daten, Friedrich-Alexander-Universität Erlangen-Nürnberg.
  • Rönz B.(2001): Computergestützte Statistik I, vorlesungsbegleitendes Skript.
  • Sachs, L. (2003): Angewandte Statistik. Anwendung statistischer Methoden, Springer-Verlag.
  • Stahel., W.A. (1981): Robuste Schätzungen: infinitesimale Optimalität und Schätzungen von Kovarianzmatrizen. PhD thesis, ETH Zürich.
  • Donoho., D.L. (1982). Breakdown properties of multivariate location estimators. Qualifying paper, Harvard University, Boston.
  • Ludwig K.H.(2007): Eine kurze Geschichte des Klimas: Von der Entstehung der Erde bis heute (2. Auflage), Beck Verlag, S. 149.

Siehe auch

Template:Wiktionary Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen und Grammatik

Weblinks

Kategorie:Statistik


ar:قيمة شاذة en:Outlier es:Valor atípico eu:Muturreko datu fr:Donnée aberrante he:חריג חשוד טעות it:Outlier nl:Uitbijter pl:Obserwacja odstająca