Boxplot

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Dieser Artikel wurde in der deutschsprachigen Wikipedia erstellt und in das teachwiki importiert und bearbeitet. Hierbei wurden Änderungen am Artikel von unterschiedlichen Autoren gemacht. Die Versionsgeschichte und Autorenschaft dazu ist im entsprechenden Artikel der deutschsprachigen Wikipedia zu finden.
Ein vertikaler Boxplot über einem Zahlenstrahl dargestellt

Der Boxplot (auch Box-Whisker-Plot oder deutsch Kastengrafik, Kastendiagramm, Schachtelzeichnung) ) ist ein Diagramm, das zur grafischen Darstellung der Verteilung statistischer Daten verwendet wird. Es fasst dabei verschiedene robuste Streuungs- und Lagemaße in einer Darstellung zusammen. Ein Boxplot soll schnell einen Eindruck darüber vermitteln, in welchem Bereich die Daten liegen und wie sie sich innerhalb dieses Bereiches verteilen. Deshalb werden alle Werte der sogenannten Fünf-Punkte-Zusammenfassung, also der Median, das erste und dritte Quartil (oft auch als 25 % und 75 % Quartil bezeichnet) sowie die beiden Extremwerte (Minimum und Maximum) dargestellt. Auch Ausreißer ("outliers") und Extremwerte ("extremes") können in einem Boxplot eigens ausgewiesen werden. Boxplots können sowohl vertikal oder senkrecht dargestellt werden.

Aufbau

Ein Boxplot besteht immer aus einem Rechteck, genannt Box, und zwei Linien, die dieses Rechteck verlängern. Diese Linien werden als „Whisker“ oder seltener als „Fühler“, „Antennen“, „Barthaare“ oder „Zäune“ bezeichnet und werden durch einen Strich abgeschlossen.

Box

Die Box entspricht dem Bereich, in dem die mittleren 50 % der Daten liegen. Sie wird also durch das obere und das untere Quartil begrenzt und die Länge der Box entspricht dem Interquartilsabstand (Template:EnS, IQR, IQR = x 0,75 – x 0,25). Dieser ist ein Maß der Streuung der Daten, welches durch die Differenz des oberen und unteren Quartils bestimmt wird. Des Weiteren wird der Median als durchgehender Strich in der Box eingezeichnet. Dieser Strich teilt das gesamte Diagramm in zwei Hälften, in denen jeweils 50 % der Daten liegen. Befindet sich der Median nicht im Zentrum des Kastens, dann sind die beobachteten Werte asymmetrisch verteilt. Durch seine Lage innerhalb der Box bekommt man also einen Eindruck von der Schiefe der den Daten zugrunde liegenden Verteilung vermittelt. IIst der Median dem unteren Rand (dem linken Rand der Box) des Kastens näher als dem oberen, dann sind die Daten rechtsschief. Ist der Median dem oberen Rand (dem rechten Rand) näher als dem unteren, ist das Gegenteil der Fall und die Verteilung ist linksschief.

Whisker

Box-Plot mit Whiskern der Länge 1,5×IQR
Box-Plot derselben Daten mit Whiskern vom Minimum bis zum Maximum der Daten
Durch die Whisker werden die außerhalb der Box liegenden Werte dargestellt. Im Gegensatz zur Definition der Box ist die genaue Definition der Whisker nicht einheitlich.
  • Eine mögliche Definition, die von John W. Tukey stammt, besteht darin, die Länge der Whisker auf maximal das 1,5-fache des Interquartilsabstands (1,5×IQR) zu beschränken. Dabei endet der Whisker jedoch nicht genau nach dieser Länge, sondern bei dem Wert aus den Daten, der noch innerhalb dieser Grenze liegt. Die Länge der Whisker wird also durch die Datenwerte und nicht allein durch den Interquartilsabstand bestimmt. Dies ist auch der Grund, warum die Whisker nicht auf beiden Seiten gleich lang sein müssen. Gibt es keine Werte außerhalb der Grenze von 1,5×IQR, wird die Länge des Whiskers durch den maximalen und minimalen Wert festgelegt.
  • In einer anderen Variante erfolgt die Berechnung des unteren Whisker als 2,5-%-Quantil und die Berechnung des oberen als 97,5-%-Quantil. Innerhalb der Whiskergrenzen liegen somit 95 % aller beobachteten Werte. In dieser Darstellung gibt es also (je nach Quantilsdefinition) ab einem bestimmten Stichprobenumfang immer einzeln dargestellte Punkte, die man nicht automatisch als Ausreißer interpretieren sollte.

Ausreißer

Gibt es Werte die außerhalb der Grenze von 1,5×IQR liegen, werden diese außerhalb der Whisker separat in das Diagramm eingetragen. Diese Werte können dann als ausreißerverdächtig behandelt werden oder werden direkt als Ausreißer bezeichnet.

Häufig werden Ausreißer, die zwischen 1,5×IQR und 3×IQR liegen, als „milde“ Ausreißer bezeichnet und Werte, die über 3×IQR liegen, als „extreme“ Ausreißer. Diese werden dann auch meist unterschiedlich im Diagramm gekennzeichnet - milde Ausreißer meist als Kreise und extreme Ausreißer meist als Sterne.

Eine weitere mögliche Definition ist diese, dass die Whisker bis zum größten bzw. kleinsten Wert aus den Daten reichen. In dieser Darstellung sind dann keine Ausreißer mehr erkennbar, da die Box inklusive Whisker die gesamte Spannweite der Daten abdeckt.

In der zweiten oben beschriebenen Whisker-Definition gibt es also (je nach Quantilsdefinition) ab einem bestimmten Stichprobenumfang immer einzeln dargestellte Punkte, die man nicht automatisch als Ausreißer interpretieren sollte.

Abwandlungen

  • Eine Abwandlung besteht darin, das arithmetische Mittel in einen Boxplot mit einzutragen. Es wird dabei meist als Stern eingetragen. Da der Box-Plot ansonsten nur robuste Streuungs- und Lagemaße enthält, sollte das arithmetische Mittel als nicht-robustes Lagemaß eigentlich nicht in einen Box-Plot aufgenommen werden.
  • Proportionale Boxplots ermöglichen einen besseren Vergleich, wenn den Verteilungen verschiedene Anzahlen von Beobachtungen zu Grunde liegen. Man erhält einen proportionalen Boxplot, indem man die Breite der Box im Boxplot proportional zu √ni macht, ni ist dabei die Anzahl der Beobachtungen (i= 1, …, n).[1]
  • In gekerbten (im Engl.: notched) Boxplots werden auch Konfidenzintervalle für den Median aufgenommen. Sie stellen eine resistente (robuste) Vergleichsmethode von zwei oder mehreren Verteilungen dar. Gekerbte Boxplots können eine Antwort auf die Frage geben, ob die Lage von zwei Verteilungen verschieden ist oder ob sich dieser Unterschied mithilfe von Zufallsschwankungen erklären lässt. Einfache Boxplots können darauf keine Antwort geben, da sie stark von der Anzahl der Beobachtungen abhängen. Durch die Kerbenlänge (Schenkel eines gleichschenkligen Dreiecks) erhält man Informationen darüber, wie sehr der Median durch die Anzahl der Beobachtungen und durch die Streuung der Verteilung schwanken kann. Die Kerbenlänge lässt sich wie folgt berechnen:
                                       Kerbenintervall = Median ± 1,55*IQR/√n.

Überlappen sich die beiden Kerben zweier Boxen nicht, so unterscheiden sich die beiden Gruppen bzgl. des untersuchten Merkmals wesentlich voneinander.[2]

  • Der Mittelwert und seine Konfidenzintervalle können mithilfe einer Diamantenform in der Box dargestellt werden.[3]
  • Gekreuzte Boxplots (Rangefinder Box-plots): Bei diesen Boxplots werden, für jedes Merkmal getrennt, die univariaten Boxplots übereinander gelegt. Sie dienen dem Auffinden von bivariaten Fern- und Aussenpunkten.[4]


Zusammenfassung der Kennwerte

Der Vorteil eines Boxplots besteht darin, dass gewisse Kennwerte einer Verteilung direkt aus der graphischen Darstellung abgelesen werden können.

Kennwert Beschreibung Lage im Boxplot
Minimum Kleinster Datenwert des Datensatzes Ende eines Whiskers oder entferntester Ausreißer/Extremwert
Unteres Quartil Die kleinsten 25 % der Datenwerte sind kleiner oder gleich diesem Kennwert Beginn der Box
Zentralwert oder Median Die kleinsten 50 % der Datenwerte sind kleiner oder gleich diesem Kennwert Senkrechter Strich innerhalb der Box
Oberes Quartil Die kleinsten 75 % der Datenwerte sind kleiner oder gleich diesem Kennwert Ende der Box
Maximum Größter Datenwert des Datensatzes Ende eines Whiskers oder entferntester Ausreißer/Extremwert
Spannweite Gesamter Wertebereich des Datensatzes Länge des gesamten Boxplots (inklusive Ausreißer)
Interquartilsabstand Wertebereich in dem sich die mittleren 50 % der Daten befinden Ausdehnung der Box

Anwendung

Aufgrund des einfachen Aufbaus von Boxplots werden diese hauptsächlich verwendet, wenn man sich schnell einen Überblick über bestehende Daten verschaffen will. Dabei muss nicht bekannt sein, welcher Verteilung diese Daten unterliegen. Die Box gibt an, in welchem Bereich 50 % der Daten liegen und die Box inklusive Whisker gibt an, in welchem Bereich der Großteil der Daten liegt. An der Lage des Medians innerhalb dieser Box kann man erkennen, ob eine Verteilung symmetrisch oder schief ist. Weniger geeignet ist der Boxplot für bi- oder multimodale Verteilungen. Um solche Eigenschaften aufzudecken, empfiehlt sich die Verwendung von Histogrammen oder die grafische Umsetzung von Kerndichteschätzungen.

Boxplots mit Whiskern von maximal dem eineinhalbfachen Interquartilsabstand eignen sich auch, um eventuelle Ausreißer zu identifizieren oder liefern Hinweise darauf, ob die Daten einer bestimmten Verteilung unterliegen. Wenn der Boxplot stark unsymmetrisch ist, eine ungewöhnlich hohe Ausreißerzahl oder weit von der Box entfernte Ausreißer enthält, deutet das beispielsweise darauf hin, dass die Daten nicht normalverteilt sind.

Der wesentliche Vorteil des Boxplot besteht im raschen Vergleich der Verteilung in verschiedenen Untergruppen. Während ein Histogramm eine zweidimensionale Ausdehnung hat, ist ein Boxplot im Wesentlichen eindimensional, so dass sich leicht mehrere Datensätze nebeneinander (oder untereinander bei waagerechter Darstellung) auf derselben Skala darstellen und vergleichen lassen.

Beispiel

Beispiel für einen Boxplot

Dieses Beispiel beruht auf einer Messreihe mit den folgenden 20 Datenpunkten:

9, 6, 7, 7, 3, 9, 10, 1, 8, 7, 9, 9, 8, 10, 5, 10, 10, 9, 10 und 8

Ein Boxplot hilft dabei sehr schnell einen Überblick über diese Daten zu erhalten. So erkennt man direkt, dass der Median (durchgezogene Linie) genau bei 8,5 liegt und dass je 25 % der Daten unter 7 und über 9,5 liegen, denn dies sind genau die Abmessungen der Box, in der 50 % der Messwerte enthalten sind. Folglich ist auch der Interquartilsabstand, der der Länge der Box entspricht, genau 2,5.

Dieser Boxplot wurde mit Whiskern bis zu einer Länge des 1,5-fachen Interquartilsabstand erstellt. Diese sind also maximal 3,75 Maßeinheiten lang. Allerdings reichen Whisker stets nur bis zu einem Wert aus den Daten, der sich noch innerhalb dieser 3,75 Einheiten befindet. Der obere Whisker verläuft also nur bis zu 10, da es keinen größeren Wert in den Daten gibt, und der untere Whisker nur bis 5, da der nächstkleinere Wert weiter als 3,75 vom Anfang der Box entfernt ist.

Die Werte von 1 und 3 werden im Boxplot als Ausreißer markiert, da sie sich nicht innerhalb der Box oder der Whisker befinden. Bei diesen Werten sollte untersucht werden, ob es sich tatsächlich um Ausreißer oder um Tippfehler oder anderweitig auffällige Werte handelt.

Da sich der Median innerhalb der Box leicht rechts befindet, kann außerdem auf eine Linksschiefe der zugrundeliegenden Verteilung der Messdaten geschlossen werden. Diese Verteilung wird außerdem vermutlich keine Normalverteilung sein, da der Boxplot unsymmetrisch ist und vergleichsweise viele Ausreißer enthält.

Vergleiche mit Boxplots

Boxplots sind insbesondere für den Vergleich der Verteilung von Werten in mehreren Gruppen geeignet. Möchte man mehrere Verteilungen oder aber mehrere überschneidungsfreie Untergruppen innerhalb einer einzigen Verteilung, beispielsweise Männer und Frauen, grafisch miteinander vergleichen, so ist es möglich, Box-Plots einander gegenüberzustellen.Die Abbildung zeigt wie so ein Vergleich mehrerer Boxplots aussehen kann.

Figure 1. Box plot of data from the Michelson–Morley experiment

Darüber hinaus sind auch Vergleiche über die sogenannten gruppierten Box-Plots möglich. Hier nimmt man die Aufteilung anhand mehr als nur eines Merkmals vor. Dadurch ergeben sich insgesamt verschiedene Gruppen, die in einem gruppierten Box-Plot dargestellt werden können.









Einzelnachweise

  1. Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik. Springer-Lehrbuch 1994.
  2. Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik. Springer-Lehrbuch 1994.
  3. http://www.netmba.com/statistics/plot/box/
  4. Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik. Springer-Lehrbuch 1994.

Literatur

  • Josef Bleymüller, Günther Gehlert, Herbert Güllicher: Statistik für Wirtschaftswissenschaftler. Vahlen 2008.
  • Falk et al.: Foundations of statistical analyses and applications with SAS. Birkhäuser, 2002.
  • Uwe W. Gehring; Cornelia Weins: Grundkurs Statistik für Politologen und Soziologen. VS Verlag 2009.
  • Volker Müller-Benedict: Grundkurs Statistik in den Sozialwissenschaften. VS Verlag 2006.
  • John W. Tukey: Exploratory data analysis. Addison-Wesley 1977, ISBN 0-201-07616-0.
  • Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik. Springer-Lehrbuch 1994.
  • Rönz, B.: Skript Computergestützte Statistik I, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät, Institut für Statistik und Ökonometrie.2001.
  • Uwe Wagschal: Statistik für Politkwissenschaftler. Oldenbourg München 1999.
  • Internet-Lexikon der Methoden der empirischen Sozialforschung (ILMES): http://www.lrz.de/~wlm/ilm_b5.htm
  • http://www.netmba.com/statistics/plot/box/


Weblinks

Template:Wikibooks

Kategorie:Deskriptive Statistik Kategorie:Diagramm Kategorie:Technische Zeichnung

en:Box plot es:Diagrama de caja eu:Kaxa-eta-beso diagrama fr:Boîte à moustaches it:Box-plot ja:箱ひげ図 nl:Boxplot pl:Wykres pudełkowy ro:Boxplot ru:Ящик с усами sv:Lådagram tr:Kutu grafiği zh:箱形圖