Shapiro-Wilk-Test

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Dieser Artikel wurde in der deutschsprachigen Wikipedia erstellt und in das teachwiki importiert und bearbeitet. Hierbei wurden Änderungen am Artikel von unterschiedlichen Autoren gemacht. Die Versionsgeschichte und Autorenschaft dazu ist im entsprechenden Artikel der deutschsprachigen Wikipedia zu finden.

Der Shapiro-Wilk-Test (nach S. Shapiro und M. Wilk) ist ein statistischer Test zur Überprüfung der Hypothese, dass eine univariate Stichprobe aus einer normalverteilten Grundgesamtheit stammt. Eine Weiterentwicklung des Tests, der sogenannte Royston's H-Test, ermöglicht die Überprüfung mehrdimensionaler Stichproben auf multivariate Normalverteilung.

Die vergleichsweise hohe Teststärke des Shapiro-Wilk-Tests in zahlreichen Situationen, insbesondere bei kleineren Stichproben, erklärt seine Beliebtheit als Vortest: um sicherzustellen, dass die Daten die Normalitätsannahme weiterführender statistischer Verfahren nicht verletzen. So ist er oder seine Abwandlungen (wie der Ryan-Joiner-Test) in zahlreichen Statistik-Softwarepaketen vertreten.

Konzept[edit]

Man verfüge über n unabhängige Beobachtungen einer metrisch skalierten Zufallsvariable X, wobei der Stichprobenumfang n zwischen 3 und 5000 liegen sollte:

x_{(1)},\ x_{\left(2\right)},\dots ,\ x_{(n)}

Überprüft werden soll, ob die Zufallsvariable X eine Normalverteilung befolgt. Oder alternativ ausgedrückt: Ob eine Normalverteilung der Grundgesamtheit vorliegt. Die zweiseitig formulierten Hypothesen:

Nullhypothese Alternativhypothese
\!\,H_0: F_X(x) = \Phi (x) H_1: F_X(x) \neq \Phi (x)
Die Grundgesamtheit ist normalverteilt. Die Grundgesamtheit ist nicht normalverteilt.

Zur Überprüfung der Nullhypothese fasst das Shapiro-Wilk-Testverfahren die graphischen Informationen in einer Kennzahl zusammen, die einer Analyse mittels Normalwahrscheinlichkeitsplot entspringen würden. Diese Kennzahl, die Teststatistik W, drückt das Verhältnis zweier Varianz-Schätzer zueinander aus.
W={{b^2}\over {(n-1)s^2}}

Der Ausdruck im Zähler der Teststatistik schätzt die Varianz einer Stichprobe, die aus einer normalverteilten Grundgesamtheit stammt. Die Teststatistik vergleicht dann diese unter der Nullhypothese „erwartete“ Varianz mit der tatsächlichen Varianz der Stichprobe, deren Schätzer im Nenner der Teststatistik zu finden ist. Das Verfahren stützt sich also auf eine Varianzanalyse (ANOVA) der Stichprobe. Die Teststatistik W kann auch als ein Korrelationskoeffizient interpretiert werden, ähnlich dem Bestimmtheitsmaß. Je näher die Teststatistik an 1 liegt, desto weniger Abweichungen zeigt die tatsächliche Varianz von der hypothetischen Varianz unter Annahme von Normalverteilung.

Sollte die Nullhypothese zutreffen, die Grundgesamtheit der Stichprobe also in der Tat normalverteilt sein, müssten beide Varianz-Schätzer unabhängig voneinander zu etwa demselben Ergebnis kommen. Je geringer folglich die geschätzten Varianzen voneinander abweichen, desto wahrscheinlicher ist es, dass die Grundgesamtheit der Stichprobe in Wirklichkeit normalverteilt ist.

Die Testentscheidung wird schließlich aufgrund kritischer Werte (oder aufgrund des p-Wertes) getroffen. Diese werden ermittelt, indem die Verteilung der Teststatistik unter der Nullhypothese simuliert wird. Die ersten Tabellen mit auserwählten Perzentilen der Nullverteilung wurden in Shapiro und Wilk (1965) veröffentlicht. Man beachte jedoch, dass sie sich auf die ursprüngliche Fassung des Tests (3 < n < 50) beziehen. Die Modifikation des Tests, die für die Untersuchung von Stichproben mit bis zu 5000 Beobachtungen geeignet ist, und die entsprechenden kritischen Werte sind in der 1997 erschienenen Publikation von Rahman und Govindarajulu zu finden.[1]

Die Varianzschätzer[edit]

  • Der Schätzer für die Stichprobenvarianz im Nenner der Teststatistik ist die korrigierte Stichprobenvarianz s^2.

s^2=\frac{1}{n-1}\sum\limits_{i=1}^n\left(x_i-\overline x\right)^2

  • Die erwartete Varianz einer Stichprobe, die aus einer normalverteilten Grundgesamtheit stammt, wird mittels der verallgemeinerten Methode der kleinsten Quadrate geschätzt. Dieses gewöhnliche lineare Modell stellt die geordneten Beobachtungen der Stichprobe den entsprechenden Ordnungsstatistiken einer Standardnormalverteilung gegenüber. Der Schätzer b^2 für die erwartete Varianz ist damit die quadrierte Steigung der Regressionsgeraden im QQ-Plot. Die Regressionsgleichung lautet:

x_i = \mu + \sigma m_i + \varepsilon_i

wobei

- x_i die Ordnungsstatistiken aus der Stichprobe sind

- \mu der Schnittpunkt mit der y-Achse und der Schätzer für den Mittelwert ist

- \sigma die Steigung der Regressionsgeraden beschreibt

- m_i die erwarteten Ordnungsstatistiken einer Standardnormalverteilung sind

- \varepsilon_i die Störgröße ist, die nichterfassbare Einflüsse darstellt

Testablauf[edit]

Der Test überprüft die Hypothese, dass eine Stichprobe aus einer normalverteilten Grundgesamtheit entnommen wurde.

I. Erstellung der Ordnungsstatistiken[edit]

Alle Beobachtungen der Stichprobe x_{(1)},\ x_{\left(2\right)},\dots,\ x_{(n)} werden nach aufsteigender Größe sortiert x_{(1)}\le x_{(2)}\le \cdots\le x_{(n)} und jedem Wert wird ein Rangplatz zugeordnet. So erhält man die Ordnungsstatistiken der Stichprobe X_{(1)}, X_{(2)}, \ldots, X_{(n)} mit den Werten x_{(1)}, x_{(2)}, \ldots, x_{(n)}. Dabei ist X_{(i)} als die i-te geordnete Statistik definiert.

II. Berechnung der Schätzer b^2 und s^2 sowie der Teststatistik W[edit]

  • b wird berechnet als die Summe aus k Zahlenpaaren der Ordnungsstatistiken \left(x_{\left(n\right)}-x_{\left(i\right)}\right), jeweils multipliziert mit einer entsprechenden Gewichtung a_{(i)} . Wenn die Anzahl der Beobachtungen in der Stichprobe gerade ist, ist k = n/2, bei ungerader Anzahl ist k = (n-1)/2. Somit gilt:
b=a_{(1)}\left(x_{\left(n\right)}-x_{\left(1\right)}\right)+a_{(2)}\left(x_{\left(n-1\right)}-x_{\left(2\right)}\right)\ + \cdots

Die Koeffizienten a_{(i)} sind gegeben durch

a_{(i)}={[(m^{\top }V^{-1}V^{-1}m)}^{-\ {{1}\over {2}}}]\ m^{\top }V^{-1}

mit m_{(i)} stellvertretend für die erwarteten Ordnungsstatistiken einer Normalverteilung

m_{(i)}={(m_{(1)},\dots ,\ m_{(n)})}^{\top } wobei m_{(i)}={\Phi }^{-1}\left({{i-{{3}\over {8}}}\over {n+{{1}\over {4}}}}\right) mit {\Phi }\left(x_{(i)}\right)=\ {{1}\over {\sigma \sqrt{2\pi }}}e^{-\ {{{\left(x_{(i)}-\mu \right)}^2}\over {2{\sigma }^2}}}

und der Kovarianzmatrix V der erwarteten Ordnungsstatistiken

V=
\begin{pmatrix} 
\operatorname{Cov}(m_1,m_1) & \cdots & \operatorname{Cov}(m_1,m_n) \\
\vdots & \ddots & \vdots \\
\operatorname{Cov}(m_n,m_1) & \cdots& \operatorname{Cov}(m_n,m_n)
\end{pmatrix}

Die Koeffizienten a_{(1)},\ \dots \ a_{(n)} sind auch häufig für die ersten 50 Zahlenpaare in Tabellen vieler Statistikbücher zu finden.

  • Die Varianz s^2 sowie der Mittelwert \overline{x} der Stichprobe werden berechnet durch
s^2={{\sum^n_{i=1}{{(x_i-\overline{x})}^2}}\over {n-1}} mit \overline{x}={{\sum^n_{i=1}{x_i}}\over {n}}
  • Der Wert der Teststatistik für die Stichprobe wird ermittelt:
W={{b^2}\over {(n-1)s^2}}

III. Testentscheidung[edit]

Der unter II. ermittelte Wert der Teststatistik W wird mit dem kritischen Wert {W}_{kritisch} für den entsprechenden Stichprobenumfang n und ein festgelegtes Signifikanzniveau α (oft 5 %) verglichen. Falls der Wert der Teststatistik W größer ist als der kritische Wert, wird die Nullhypothese nicht abgelehnt. Die Daten sprechen in diesem Fall nicht gegen eine Normalverteilung der Grundgesamtheit. Gibt es jedoch statistisch signifikante Abweichungen, d.h. ist die Teststatistik W kleiner als der kritische Wert, so wird die Nullhypothese zu Gunsten der Alternativhypothese abgelehnt. Eine Normalverteilung der Grundgesamtheit wird aufgrund der Stichprobe ausgeschlossen.

Alternativ könnte die Auswertung über den p-Wert des Tests vorgenommen werden. Der p-Wert gibt beim Shapiro-Wilk-Test die Wahrscheinlichkeit an, die vorhandene Stichprobe aus einer normalverteilten Grundgesamtheit zu ziehen.(Also: je kleiner der p-Wert, desto kleiner die Wahrscheinlichkeit, dass die Stichprobe bei einer normalverteilten Grundgesamtheit vorkäme). Die Nullhypothese wird nicht abgelehnt, wenn der p-Wert größer ist als das festgelegte Signifikanzniveau α.

Zahlenbeispiel[edit]

I. Überprüft wird die Hypothese, dass folgende Stichprobe (n = 10) aus einer Normalverteilung stammt:

  • 200, 545, 290, 165, 190, 355, 185, 205, 175, 255

Die Beobachtungen werden der Größe nach geordnet:

  • 165, 175, 185, 190, 200, 205, 255, 290, 355, 545

II. Der Stichprobenumfang ist eine gerade Zahl, somit werden k = n/2 = 5 Zahlenpaare der Ordnungsstatistiken \left(x_{\left(n\right)}-x_{\left(i\right)}\right) gebildet. Die entsprechenden Gewichte a_{(i)} werden einer Tabelle entnommen.

  • b = 0,5739*(545-165) + 0,3291*(355-175) + 0,2141*(290-185) + 0,1224*(255-190) + 0,0399*(205-200)= 218,08 + 59,24 + 22,48 + 7,96 + 0,2 = 307, 96
  • s = 117,59

Demzufolge,

  • W={{{307,96}^2}\over {\left(10-1\right){117,59}^2}}=0,76

III. Der kritische Wert bei n = 10 und einem Signifikanzniveau von \alpha=5% beträgt {W}_{kritisch} = 0,842. Da {W < W}_{kritisch} (0,76 < 0,842), fällt W in den Ablehnungsbereich und die Nullhypothese wird abgelehnt. Folglich wird angenommen, dass die Stichprobe keiner normalverteilten Grundgesamtheit entstammt.

Eigenschaften des Shapiro-Wilk-Tests[edit]

  • Obwohl kein uniform optimaler Test gegen jedliche Art von Abnormalität zur Zeit bekannt ist, zeichnet sich der Shapiro-Wilk-Test nachweislich durch seine insgesamt hohe Teststärke aus. Diverse Monte-Carlo-Studien bestätigen seine Überlegenheit vor allem bei kleinem Stichprobenumfang (n < 50): Zum Beispiel zeigte das Shapiro-Wilk-Verfahren bei einer tatsächlichen Chi-Quadrat-Verteilung eine Teststärke von 54 % (Stichprobengröße: 20 Beobachtungen). Der D'Agostino-Test von 1972 wies dagegen eine Teststärke von 29 % auf. [2] So wird der Shapiro-Wilk-Test, neben dem Anderson-Darling-Test, stellenweise als Benchmark für andere Normalitätstests herangezogen.
  • Im Gegensatz zu manchen alternativen Verfahren (allgemeinen Anpassungstests wie dem Kolmogorow-Smirnow-Test oder dem Chi-Quadrat-Test, die die Stichprobe auf diverse hypothetische Verteilungen testen können) ist der Shapiro-Wilk-Test einzig auf die Untersuchung hinsichtlich Normalität konzipiert.
  • Der Test reagiert sehr sensibel auf Ausreißer, sowohl für einseitige als auch beidseitige Ausreißer. Ausreißer können das Verteilungsbild stark verzerren, so dass dadurch die Normalverteilungsannahme fälschlicherweise abgelehnt werden könnte.
  • Die Tatsache, dass gerade größere Untersuchungen durch Computerprogramme durchgeführt werden, kann unter Umständen zu Fehlentscheidungen des Tests führen: Da Daten aus der Standardnormalverteilung auf reellen Zahlen basieren, Computer jedoch mit gerundeten Werten rechnen, können sich Rundungsfehler schnell addieren, so dass Abweichungen zwischen theoretischen und empirischen Daten künstlich generiert werden, die, wenn sie groß genug sind, zur Ablehnung der Nullhypothese führen könnten.
  • Der Test ist relativ anfällig gegenüber Bindungen (Ties), d.h. wenn es viele identische Werte gibt, wird die Teststärke stark beeinträchtigt. Falls ursprünglich mit gerundeten Daten gearbeitet wurde, lässt sich die Teststärke mit der sogenannten Sheppard-Korrektur verbessern. Die Korrektur von Sheppard produziert ein angepasstes W, gegeben durch W_{angepasst}=W*\ {{\sum{{(x_{\left(i\right)}-\overline{x})}^2}}\over {\left\{\sum^{n>}_{i=1}{{(x_{\left(i\right)}-\overline{x})}^2-{{n-1}\over {12}}}\omega^2\right\}}}
mit \omega als Rundungsdifferenz.

Category:Navigationsleiste Normalverteilungstests

Einzelnachweise[edit]

  1. M. Mahibbur Rahman, Z. Govindarajulu: A modification of the test of Shapiro and Wilk for normality, Journal of Applied Statistics, Band 24-2, S. 219 - 236, 1997
  2. Edith Seier: Comparison of Tests for Univariate Normality, Department of Mathematics. East Tennessee State University, 2002

Literatur[edit]

  • Sam S. Shapiro, Martin Bradbury Wilk: An analysis of variance test for normality (for complete samples), Biometrika, 1965
  • D. G. Rees: Essential Statistics, Chapman & Hall, 2000
  • Berna Yazici, Senay Yolacan: A comparison of various tests of normality, Journal of Statistical Computation and Simulation, 77(2), 2007, pp. 175-183
  • Edith Seier: Comparison of Tests for Univariate Normality, Department of Mathematics. East Tennessee State University, 2002
  • Manfred Precht, Roland Kraft, Martin Bachmaier: Angewandte Statistik, Oldenbourg, 2005
  • J.R. Leslie, M.A. Stephens und Fotopoulos: Asymptotic Distribution of the Shapiro-Wilk W for Testing Normality, The Annals of Statistics, 1986
  • J.P. Royston: Shapiro-Wilk W Statistics, Encyclopedia of statistical sciences, Band 12

Weblinks[edit]

[[1]]

Kategorie:Nicht-Parametrischer Test