Explorative Datenanalyse

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Dieser Artikel wurde in der deutschsprachigen Wikipedia erstellt und in das teachwiki importiert und bearbeitet. Hierbei wurden Änderungen am Artikel von unterschiedlichen Autoren gemacht. Die Versionsgeschichte und Autorenschaft dazu ist im entsprechenden Artikel der deutschsprachigen Wikipedia zu finden.

Die explorative Datenanalyse (EDA), oder manchmal auch als explorative Statistiko der hypothesengenerierende Statistik bezeichnet, ist ein Teilgebiet der Statistik. Die explorative Datenanalyseist eine genaue Inspektion der Daten, um sich einen ersten Überblick zu verschaffen.Die grundlegende Fragestellung lautet: „Was ist an einer Verteilung eines Merkmals bemerkenswert oder ungewöhnlich?“. Dafür untersucht und begutachtet sie Daten mit deskriptiven Verfahren und induktiven Testmethoden, um Hypothesen, für die weitere Untersuchung, zu bilden.[1]

Entstehung und Anwendungsgebiete[edit]

Die Benennungexplorative Datenanalysewurde von John W. Tukey 1977 in seinem Werk „Exploratory Data Analysis“eingeführt. Tukey legte dar, dass ein zu großer Schwerpunkt in der Statistik auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird. Deshalb schlug er vor, Daten dazu zu verwenden, um mögliche Hypothesen zu erhalten, welche anschließend getestet werden. Mittlerweile ist die EDA sogar zu einer eigenständigen Form der Datenanalyse geworden. Denn das Suchen (die Exploration) gehört neben dem Beschreiben (die Deskription) und dem Schließen (die Induktion) nun zu den Grundaufgaben in der Statistik.[2]

Viele EDA-Techniken werden im Data-Mining eingesetzt. Außerdem werden sie häufig in Statistik-Veranstaltungen als Einführung in das statistische Denken gelehrt.Denn die explorative Datenanalyse findet ein immer größeres Anwendungsfeld in vielen Bereichen der Wissenschaft (z.B. in der Mathematik, den Naturwissenschaften, den Ingenieurswissenschaften und in den Sozial- und Wirtschaftswissenschaften).


Ziele[edit]

Ziele der explorativen Statistik sind insbesondere:

  • einen ersten Überblick über die vorliegenden Daten zu erhalten, sowie nach bestimmten Auffälligkeiten (z.B. Ausreißer) und Regelmäßigkeiten in der Verteilung eines Merkmals oder mehrerer Merkmale zu suchen, die auf mögliche Datenstrukturen und Zusammenhänge hinweisen könnten;
  • die Daten daraufhin zu testen, ob sie die Voraussetzungen erfüllen, die in weiteren statistischen Untersuchungen an sie gestellt werden (z.B. Normalverteilung oder gleiche Varianz) und somit die Annahmen (Hypothesen) über die Ursache und den Grund der beobachteten Daten zu bilden;
  • Annahmen einzuschätzen worauf statistische Inferenz basieren kann;
  • Die Auswahl von passenden statistischen Werkzeugen und Techniken zu unterstützen;
  • eine Basis für die weitere Daten-Sammlung durch Umfragen oder Design von Experimenten bereitzustellen.

Vorgehensweise[edit]

Feste Vorgaben bezüglich der Tests oder Untersuchungen, die im Rahmen einer explorativen Datenanalyse durchgeführt werden sollen, gibt es nicht. Dies ist im Wesentlichen von den vorliegenden Daten und dem weiteren Verwendungszweck dieser Daten abhängig. Grob kann die Prozedur der explorativen Datenanalyse wie folgt unterteilt werden:

  • Grafische Darstellung der Wertverteilung; z.B. mit Hilfe von Verteilungsdiagrammen wie dem Histogramm oder dem Stem-and-Leaf-Plot;
  • Lage der Werte beschreiben: Hier können auf der einen Seite Maßzahlen (z.B. Extremwerte, Median oder Quartile) berechnet werden und auf der anderen Seite grafische Verfahren, wie z.B. Boxplots erstellt werden;
  • Test auf Normalverteilung, z.B. mit grafischen Verfahren wie dem Q-Q-Plot und statistischen Tests wie dem Kolmogorov-Smirnov Test oder dem Shapiro-Wilk Test;
  • Test auf Gleichheit der Varianz: Levene-Test und grafische Verfahren wie die Streuung gegen den Median plotten.[3]

Verfahren[edit]

Eine Vielzahl von statistischen Methoden bietet sich zur explorativen Datenanalyse an.

Grundlegende graphische Methoden, welche in der explorativen Statistik verwendet werden, sind:

  • Boxplot: Diagramm, das zur grafischen Darstellung der Verteilung statistischer Daten dient
  • Histogramm: Darstellung der Häufigkeitsverteilung metrisch skalierter Merkmale
  • QQ-Plot: die Quantile zweier statistischer Variablen gegeneinander abgetragen werden, um ihre Verteilungen zu vergleichen
  • Scatterplot: stellt die gemeinsame Verteilung der Werte von zwei Variablen dar, indem die entsprechenden Werte der Variablen gegeneinander abgetragen werden
  • Mosaikplot:Visualisierung von Datensätzen mit zwei oder mehreren qualitativen Variablen (Merkmalen)
  • MultiVari Chart: ermöglicht einen Überblick über die Streuung zu erhalten
  • Run Chart:grafische Darstellung der Einzelwerte eines quantitativen Merkmales im Zeitverlauf
  • Pareto Chart: ein Säulendiagramm, in dem die einzelnen Werte der Größe nach geordnet wiedergegeben werden
  • Stamm-Blatt-Diagramm: Diagramm zur Darstellung von Häufigkeitsverteilungen

Grundlegende quantitative Methoden sind:

  • Median polish:Prozess des abwechselnden Findens, Hinzufügens und Abziehens von verschiedenen Medianen. [4]
  • Letter values(deutsch: Buchstabenwert): mit ihrer Hilfe kann man Lage und Streuung der Daten abschätzen [5]
  • Rootogram:ist dem Histogramm ähnlich und daher dient der Darstelllung der Häufigkeitsverteilungen. Der Unterschied besteht darin, dass die Höhe der Balken der Wurzel der Zählungen entspricht und nicht der Zählung selber[6]
  • Resistant line
  • Resistant smooth


Spezielle Verfahren:

  • Grand Tour (Statistik): ein Verfahren zur explorativen Analyse hochdimensionaler multivariater Daten
  • Projection Pursuit:(wörtlich Nachverfolgung der Projektion) ist ein statistisches Verfahren, eine Menge hochdimensionaler Daten so zu vereinfachen, dass möglichst "interessante" Strukturen darin aufgedeckt werden.

Abgrenzung zur deskriptiven Statistik[edit]

Häufig werden die Begriffe deskriptive Statistik und explorative Datenanalyse synonym verwendet. Der Unterschied dieser beiden Teilgebiete der Statistik lässt sich jedoch schon inder Fragestellung erkennen: Die deskriptive Statistik fragt: Wie kann man eine Verteilung eines Merkmals beschreiben? Wohingegen die Fragestellung der explorativen Datenanalyse lautet:Was ist an einer Verteilung eines Merkmals bemerkenswert oder ungewöhnlich?[7]

Die explorative Datenanalyse ist eine methodische Zwischenform der anderen beiden Teile der Statistik, der deskriptiven und der induktiven Statistik. Sie bedient sich deskriptiver Verfahren und induktiver Testmethoden. Ein Teil des Methodenspektrums der explorativen Datenanalyse beruht also auf der deskriptiven Statistik, sie ist jedoch nicht mit dieser gleichzusetzen.

Software[edit]

  • GeoDa - Kostenlose, userfreundliche graphische Oberfläche zur Anwendung verschiedener Methoden der explorativen Datenanalyse
  • GGobi - Kostenlose interaktive multivariate Visualisierungs Software mit Verknüpfung zu R.
  • LiveGraph - Open Source Framework für Daten-Visualisierung und Explorative Datenanalyse (beinhaltet einen Echtzeit Graph-Plotter).
  • MANET - Kostenlose Mac interaktive EDA Software.
  • Mondrian - Kostenlose interaktive Software für EDA.
  • Orange - Kostenlose Komponenten-Basierte Software für eine interaktive EDA.
  • PS-Explore
  • Visalix - Kostenlose interaktive Web-Anwendung für Daten-Visualisierung und Explorative Datenanalyse.

Einzelnachweise[edit]

  1. Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik (2. Auflage). Springer-Verlag, Berlin 1994, ISBN 9783540583943
  2. http://www.imb-uni-augsburg.de/medienp-dagogik/imbprojekt/explorative-datenanalyse-interaktiv-lernen
  3. Felix Brosius: SPSS 16. Das mitp-Standardwerk. Mitp Bonn 2008
  4. Tukey, J W (1977) Exploratory Data Analysis ISBN 0201076160
  5. Manfred Precht, Roland Kraft, Martin Bachmaier: Angewandte Statistik 1. Oldenbourg 2005.
  6. Friedrich Leisch: EXPLORING THE STRUCTURE OF MIXTURE MODEL COMPONENTS. Physica-Verlag/Springer 2004.
  7. Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik (2. Auflage). Springer-Verlag, Berlin 1994, ISBN 9783540583943


Literatur[edit]

  • Hoaglin, D C; Mosteller, F & Tukey, J W (Eds) (1985) Exploring Data Tables, Trends and Shapes ISBN 0471097764
  • Hoaglin, D C; Mosteller, F & Tukey, J W (Eds) (1983) Understanding Robust and Exploratory Data Analysis ISBN 0471097772
  • Tukey, J W (1977) Exploratory Data Analysis ISBN 0201076160
  • Velleman, P F & Hoaglin, D C (1981) Applications, Basics and Computing of Exploratory Data Analysis ISBN 087150409X
  • Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik (2. Auflage). Springer-Verlag, Berlin 1994, ISBN 9783540583943
  • Siegfried Heiler, Paul Michels: Deskriptive und explorative Datenanalyse. Oldenbourg, München 1994, ISBN

3-486-22786-6

  • Uwe W. Gehring; Cornelia Weins: Grundkurs Statistik für Politologen und Soziologen. VS Verlag 2009.
  • Uwe Wagschal: Statistik für Politkwissenschaftler. Oldenbourg München 1999.
  • Internet-Lexikon der Methoden der empirischen Sozialforschung (ILMES): http://www.lrz.de/~wlm/ilm_e2.htm
  • Manfred Precht, Roland Kraft, Martin Bachmaier: Angewandte Statistik 1. Oldenbourg 2005.
  • Friedrich Leisch: EXPLORING THE STRUCTURE OF MIXTURE MODEL COMPONENTS. Physica-Verlag/Springer 2004.


Kategorie:Deskriptive Statistik

cs:Explorační analýza dat en:Exploratory data analysis es:Análisis exploratorio de datos eu:Datuen azterketa esploratzaile ko:탐색적 자료 분석 pt:Análise exploratória de dados uk:Розвідувальний аналіз