Scatterplot

Aus StatWiki
Wechseln zu: Navigation, Suche

Siehe auch: Sunflower Plot

Das Streuungsdiagramm oder der Scatterplot ist eine graphische Darstellung der Beobachtungswerte zweier metrisch skalierter Variablen X und Y in einem kartesischen Koordinatensystem. Jedes Paar von Beobachtungswerten (x_i, y_i) erscheint als Punkt in der Variablenebene.

Es ist die am häufigsten benutzte Darstellung zur Visualisierung der Art und Stärke von Zusammenhängen von zwei Variablen, der Identifikation von Extremwerten (Ausreißern) und von Clustern.

Ein Problem ergibt sich, wenn sehr viele Beobachtungen in einem Scatterplot dargestellt werden. Es kommt dann zum Overplotting, d.h. es werden soviele Datenpunkte geplottet, dass man nur noch eine kompakte schwarze Masse sieht und keine Struktur. Eine Lösung sind sogenannte Sunflower Plots.

Für nominale Variablen ist das Streuungsdiagramm ungeeignet. Bei ordinalen und metrisch diskreten Daten kann es passieren, dass in einem Scatterplot nur sehr wenige Datenpunkte geplottet werden. Hier hilft Jittering, d.h. man addiert einen kleinen zufälligen Wert zu Koordinaten in x- und y-Richtung (siehe unten).

Die folgenden Beispiele zeigen

  • die Old Faithful Geyser Daten. Von Interesse war hier eine Vorhersage zu machen, wann der Old Faithful Geyser in Yellowstone Nationalpark das nächste Mal ausbricht, damit die Touristen wieder rechtzeitig an Ort und Stelle sind um den Ausbruch zu sehen.
  • die Car Damage Daten. Aus den gemeldeten Schadensfällen einer Autoversicherung wurden zwei klassierte Variablen ausgewählt: Alter des Versicherten (1=17-20, 2=21-24, 3=25-29, 4=30-34, 5=35-39, 6=40-49, 7=50-59, 8=60 oder mehr Jahre) und Alter des Wagens (1=0-3, 2=4-7, 3=8-9, 4=10 oder mehr Jahre). Jittering hilft hier einen Überblick über die Struktur der Daten zu bekommen; in diesem Fall scheinen die Schadensfälle ziemlich gleichmässig über alle Klassenkombinationen verteilt zu sein.