Das Auffinden von homogenen Facharztgruppen

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Einleitung[edit]

Das Ziel dieser Arbeit ist das Herausfinden von homogenen Facharztgruppen mittels statistischer Methoden. Homogen bezieht sich auf die Verteilung der Ausgaben in den jeweiligen Facharztgruppen. Werden im Schnitt (Mittelwert) gleich viel Euro pro Behandlungsfall in jeder Gruppe ausgegeben und haben die Ausgaben die gleiche Streuung (Varianz), dann sind die Gruppen homogen und besitzen somit die gleiche Verteilung.

Datensatz[edit]

Der Datensatz „Stichprobanden von Versicherten der gesetzlichen Krankenversicherung nach §268 SGB V 2002“ stammt von Campus-Dateien des Bundesamt für Statistik. Die gesetzlich Krankenversicherten in Deutschland (ca.90%) bilden die Grundgesamtheit. Die Kriterien für die Stichprobenversicherten sind:

  • Person hat am 11. eines beliebigen Monats eines beliebigen Jahres Geburtstag
  • Person wurde nicht als Auftragsfall (z.B. Sozialhilfe) geführt und
  • Person hatte in 2002 an mindestens einem Tag Krankenversicherungsschutz

Es wurde eine 3%-Zufallsstichprobe in Form einer Geburtstagsstichprobe gezogen. Unter der Beachtung der Stichprobenkriterien zählt die Stichprobe 2,3 Millionen Versicherte in Deutschland in 2002. Durch Anonymisierungsmaßnahmen wurde der Stichprobenumfang auf 11.419 gesetzlich Versicherte reduziert. Dieser Datensatz ist repräsentativ für die gesetzlich krankenversicherte Bevölkerung in Deutschland im Jahr 2002.

Der Datensatz basiert auf den Informationen (zwei separate Dateien) zu den Jahresdaten der Versicherten für das Berichtsjahr 2002 und ambulante Behandlungsfälle im Jahr 2002. Die erste Datei hat einen Stichprobenumfang von n=11.419 Versicherte und die zweite Datei von n=44.282 Behandlungsfälle. Für meine Analyse habe ich die Datei der ambulanten Behandlungsfälle verwendet. Somit bezieht sich der Stichprobenumfang auf die Behandlungsfälle und nicht auf die Anzahl der versicherten Personen. Insgesamt wurden 25 Facharztgruppen entworfen und mit einem Schlüssel von 1 bis 25 versehen. Jede versicherte Person gekennzeichnet durch eine Versichertennummer konnte mehr als ein Mal zum einen und demselben Arzt hingehen, z.B. im Jahr 2002 ging die Person mit der Versichertennummer 6 insgesamt fünf mal zum Arzt, davon einmal zur Radiologie(17) und vier mal zum allgemeinen Arzt(25). Bei fünf Arztgängen sind fünfmal Kosten angefallen. Obwohl die Diagnose des Allgemeinarztes gleich ist, sind viermal unterschiedliche Kosten angefallen. Meiner Meinung nach, kann man es so interpretieren, dass hier verschiedene Behandlungen (verschiedene Krems, Tabletten etc.) durchgeführt wurden, um eine und die gleiche Krankheit zu heilen. Die Person mit der Versichertennummer 10 ging im 3. Quartal zweimal zum allgemeinen Arzt und es wurden zweimal Kosten für verschiedene Diagnosen berechnet. Aus dem Datensatz geht hervor, dass je Arztgang, Kosten anfallen unabhängig davon in welchem Quartal die Person den Arzt aufsuchte und welche Diagnose dabei festgestellt wurde. Die Ausgaben, die pro Person anfallen sind unabhängig von den anderen Personen. Allerdings sind die Diagnosen der einen und derselben Person nicht zwangslaüfig unabhängig, es kann sein dass die eine Diagnose zu der anderen geführt hat, vor allem wenn der gleich Arzt mehrmals besucht wurde (zu jedem Behandlungsfall gehört eine Diagnose).

Je versicherte Person ein Datensaz

Voranalyse[edit]

Insgesamt wurden 25 Facharztgruppen entworfen und mit einem Schlüssel versehen. Da in einigen Facharztgruppen geringe Fallzählungen auftraten, wurde Laboratoriumsmedizin und Vorsorgemedizin zu einer Fachgruppe Sonstiges zusammengefasst. Daher sind im Datensatz 24 verschiedene Facharztgruppen vorhanden. Bevor ich mit der statistischen Analyse beginne, werde ich den Gruppenumfang reduzieren. Insgesamt habe ich 5 Facharztgruppen entfernt und 4 Aggregationen vorgenommen.

Eliminierung der Gruppen[edit]

Einige Facharztgruppen habe ich selbst herausgenommen, da sie nicht von Interesse waren und/oder geringe Beobachtungen aufwiesen und/oder die Funktion dieser Facharztgruppe aus dem Datensatz nicht ersichtlich war. Die Facharztgruppen Pathologie, Dialyseeinrichtungen und Sonstige sind nicht von Interesse und weisen auch sehr wenige Beobachtungen auf, 51 Behandlungsfälle in der Pathologie, 70 Behandlungsfälle in Dialyseeinrichtungen und 18 Fälle in Sonstige. Die Facharztgruppe Kliniken/Institute habe ich auch aus der Datenanalyse entfernt, obwohl dieser Gruppe über 500 Fälle aufweist. Ich habe diese Gruppe entfernt, weil die Funktion/Fachrichtung dieser Arztgruppe nicht klar ist, denn meiner Meinung nach kann in einer Klinik sowohl die innere Medizin als auch die Augenheilkunde praktiziert werden. Die Notfallmedizin ist auch in dem Datensatz nicht mehr vorhanden, da die Funktion dieser Facharztgruppe ebenfalls unklar ist. Durch das Entfernen der letzten beiden Gruppen werden möglicherweise Abhängigkeiten mit den anderen Facharztgruppen vermieden, z.B. Innere Medizin, Chirurgie.

Aggregation der Gruppen[edit]

Die Gruppe Physikalische und rehabilitative Medizin und Psychotherapie habe ich unter den Namen Psychotherapie und rehabilitative Medizin zusammengefasst. Dann wurde die Gruppe Lungenheilkunde in die Gruppe Inneren Medizin integriert und unter den Namen Innere Medizin im Datensatz aufgeführt. Die Gruppen Neurochirurgie, Mund-Kiefer-Chirurgie und Chirurgie sind mit dem Namen Chirurgie vertreten. Zuletzt habe ich die Gruppen Urologie und Gynäkologie zusammengefügt und mit dem Namen Geschlechtskunde versehen. Es bleiben 14 Facharztgruppen übrig. Diese 14 Gruppen sollen mittels statistischer Methoden auf Homogenität geprüft werden, bzw. Untergruppen finden, die untereinander homogen sind. Die statistische Analyse basiert auf den untransformierten Daten. Die Transformation wurde bewusst abgelehnt, um keine Interpretationsprobleme am Ende der Analyse zu erhalten.

Die folgende Grafik zeigt die Häufigkeiten in den jeweiligen ausgewählten Facharztgruppen auf.


Text1.jpg

Statistische Analyse[edit]

Zum Auffinden von homogenen Gruppen kann man die so genannten Post-Hoc-Tests anwenden. Diese werden normalerweise angewandt, wenn ANOVA zum Vergleich der Gruppenmittelwerte die Nullhypothese (Alle Mittelwerte sind gleich) ablehnt. Dabei reicht es aus, dass mindestens ein Mittelwert sich von den anderen Mittelwerten unterscheidet. Nach der Ablehnung der Nullhypothese möchte man wissen zwischen welchen Gruppen genau sich die Mittelwerte unterscheiden. Hierzu verwendet man die Post-Hoc-Tests z.B. Least Significance Difference (LSD-Test), Least Significance Difference [Bonferroni] (modifizierter LSD-Test), Tukey-Test, Student-Newman-Keuls-Test (SNK-Test), Duncan-Test, Scheffé-Test und Median-Test. Bestimmte Voraussetzungen für ANOVA als auch für die Post-Hoc-Tests müssen erfüllt werden. Die Vorraussetzungen sind:

  • Die Zielvariable hat metrisches Skalenniveau: Diese Vorraussetzung ist erfüllt, da die Zielvariable "Ausgaben in Euro" ein metrisches quasi-stetiges Skalenniveau aufweist.
  • Die Faktorvariable weise m verschiedene Stufen auf: Diese Voraussetzung ist ebenfalls erfüllt, da die Faktorvariable "Facharztgruppe" verschiedene Arztgruppen enthält.
  • Die Zufallsvariable  X_j , (j=1,...,m) ist in den jeweiligen Stichproben normalverteilt  X_j \sim (\mu_j, \sigma^2_j)  : Diese Vorraussetzung ist zu prüfen.
  • Die Varianzen in den einzelnen Stichproben sind gleich groß, wenn auch unbekannt  \sigma_1^2=...\sigma_m^2=\sigma^2  : Diese Annahme ist auch zu prüfen.
  • Es handelt sich um unabhängige einfache Zufallstichprobe  X_{j,1}, ..., X_{j,n_{j}} (j=1, ..., m) mit Stichprobenumfang  n_i (i=1, ..., j) : Diese Annahme ist teilweise erfüllt. Die Ausgaben zwischen den jeweiligen Arztgruppen sind unabhängig voneinander. Es kann zwar sein, dass eine Person erstmal beim Allgemeinarzt war und anschließend eine Überweisung zum einem Facharzt bekommt. Im Grunde genommen gehe ich davon aus, dass die Ausgaben zwischen den Arztgruppen unabhängig sind, da es auf die Diagnose und die dazugehörige Behandlung ankommt. Jedoch sind die Ausgaben innerhalb der Gruppen selbst nicht notwendigerweise unabhängig. Denn eine Person kann mehrmals zum einen und demselben Arzt z.B. Allgemeinarzt hingehen. Dieser Arzt kann entweder jedes Mal eine andere Diagnose oder immer die gleiche Diagnose feststellen. Falls der Arzt jedes Mal eine andere Diagnose ermittelt, können die Ausgaben innerhalb der Gruppe voneinander unabhängig sein, müssen aber nicht. Falls der Arzt immer die gleiche Diagnose postuliert, dann sind die Realisierungen der Zufallsvariable abhängig voneinander. Da es 44.282 Behandlungsfälle und 11.419 Versicherte gibt, geht jede Versicherte Person im Schnitt viermal pro Jahr (2002) zum Arzt. Die Person muss nicht zum einen und dem gleichen Arzt hingehen. Daher gehe ich davon aus, dass die Abhängigkeiten innerhalb der Stichprobe marginal sind und die Annahme einer einfachen unabhängigen Stichprobe mehr oder weniger erfüllt ist.

Generell müssen diese Annahme auch bei den Post-Hoc-Tests beachtet werden, d.h. wenn die Voraussetzung der Normalverteilung und/oder der Varianzhomogenität nicht erfüllt ist, dann können diese Post-Hoc-Tests nicht angewandt werden.

Weiter kann man den Median-Test und Kruskal-Wallis-Test anwenden, um die Homogenität zu prüfen.

Prüfung der Voraussetzungen[edit]

Test auf Normalverteilung[edit]

Anhand der explorativen Analyse, kann man an den Boxplots erkennen, dass die Ausgaben in den meisten Facharztgruppen weit von der Normalverteilung entfernt sind. Es gibt sehr viele Beobachtungen, die Außerhalb des 75%-Quantils liegen. Diese Beobachtungen gehören zum Datensatz und bestimmen somit die Verteilung. Sie können nicht als Ausreißer definiert werden und vom Datensatz entfernt werden. Falls die Daten normalverteilt sind, dann können Ausreißertests durchgeführt werden z.B. Grubbs-Test oder Grubbs-Beck-Test. Es gibt aber auch Fachgruppen, wo man die Normalverteilung vermuten könnte, diese sind: Anästhesei, Psychotherapie und rehabilitataive Medizin, sowie Nuklearmedizin.

BoxplotsMediane1.jpg

Der Kolmogorov-Smirnov-Test soll prüfen, ob in den Verdachtsgruppen auf Normalverteilung die Normalverteilung tatsächlich vorliegt. Eine der Annahmen für den Kolmogorov-Smirnov-Test ist, dass die Parameter der hypothetischen Verteilung vollständig bekannt sein müssen: Diese Annahme kann mit Hilfe der Lillefors-Korrektur erfüllt werden. Die unbekannten Parameter  \mu, \sigma^2 werden aus der Stichprobe geschätzt und diese Schätzwerte gehen dann in die Teststatistik ein. Die kritischen Werte werden aus der Lillefors Tabelle entnommen. Gleichzeitig wird auch die Teststatistik für Shapiro-Wilk-Test angezeigt. Dieser Test weist eine sehr hohe Teststärke auf und reagiert empfindlich auf Ausreißer und Bindungen (Lehnt nahezu immer die Nullhypothese ab). Der KS-Test lehnt bei allen Teilstichproben die Normalverteilungsannahme ab, außer bei Anästhesie. Die Ausgaben in Anästhesie sind auf 5% Signifikanzniveau normalverteilt. Der Shapiro-Wilk-Test lehnt die Normalverteilung in allen Teilstichproben ab, auch in der Anästhesie. KSAlle.jpg

Test auf Varianzhomogenität[edit]

Die Varianzhomogenität kann mit einem F-Test oder Levene-Test geprüft werden. Der F-Test kann nicht angewandt werden, da die Annahme der Normalverteilung nicht erfüllt ist und dieser empfindlich auf die Abweichungen von der Normalverteilung reagiert. Der Levene-Test dagegen braucht die Normalverteilungsannahme nicht und kann auch bei mehr als zwei Stichproben angewandt werden. Der Levene-Test liefert vier Teststatistiken, die auf verschiedenen Mittelwerten basieren, d.h. um die Teststatistik auszurechnen werden verschieden Mittelwerte einbezogen. Bei dieser Analyse wird hauptsächlich auf die Levene-Statistik basierend auf dem Median angeschaut. Leveneall.jpg

Median-Test[edit]

Der Median-Test ist ein nicht-parametrischer Test, wo die Annahme der Normalverteilung und der Varianzhomogenität nicht erfüllt sein müssen. Der Mediantest berechnet erstmal den Median aller relevanten Gruppen (hier 28,23 Euro), dann wird jede Beobachtung mit dem Gesamtmedian verglichen. Falls die Beobachtung kleiner als 28,23 ist, dann wird ihr der Wert 0 zugewiesen, falls die Beobachtung größer oder gleich 28,23 ist, dann wird ihr der Wert 1 zugewiesen. Anschließend wird ein Chi-Quadrat-Unabhängigkeitstest durchgeführt, um die Nullhypothese zu prüfen (es wird gezählt wie viel Mediane unterhalb und oberhalb des Gesamtmedians liegen).

 H_0: Alle Mediane sind gleich

 H_1: Mindestens ein Median ist verschieden,  \mu_i \neq \mu_j

Die Nullhypothese wird abgelehnt, da die Chi-Quadrat-Pearson-Statistik höchst signifikant ist. Nur die Chi-Quadrat Pearson Statistik ist relevant für die Testentscheidung. Unter dem Chi-Quadrat-Test-Output-Fenster kann man sehen, dass die Voraussetzungen für einen Chi-Quadrat-Test erfüllt sind. Allerdings sagt der Median nichts darüber aus, welche Mediane genau sich voneinander unterscheiden.

Da in den einzelnen Facharztgruppen die Abweichung zum Mittelwert sehr groß sind (vor allem die Abweichungen nach oben/höhere Beträge), was anhand der Boxplots oben zu sehen ist, ist der Median-Test zur Prüfung auf die Gleichheit der Mittelwerte (hier Mediane) gut geeignet, obwohl dieser in der Literatur eine eher negative Empfehlung hat und als veraltet gilt.

Wird die Nullhypothese angenommen, dann heißt es, dass die einzelnen Mediane mit dem Gesamtmedian übereinstimmen und dass in jeder Gruppe 50% der Beobachtungen oberhalb bzw. unterhalb des Medians liegen würden. Wenn man sich das gruppierte Balkendiagramm (rechts) anschaut, dann könnte man vermuten, dass Chirurgie, Hals-Nasen-Ohren-Heilkunde und Allgemeinmedizin eine homogene Gruppe basierend auf dem Median bilden.

MedianGesamt.jpg

Kruskal-Wallis-Test/Mann-Whitney-U-Test[edit]

Der Mann-Whitney-U-Test, kurz U-Test vergleicht ob sich die Verteilung der einen Stichprobe von der Verteilung der anderen Stichprobe sich um ein Verschieben nach links oder rechts unterscheidet, d.h. G(x) = F(x-a). Indirekt kann man daraus schließen, dass die beiden Stichproben auf Mittelwertgleichheit getestet werden. Die Nullhypothese und die Alternativhypothese lauten :  H_0: a=0 ~ vs. ~ H_1: a \neq 0. Wenn die Nullhypothese abgelehnt wird, dann liegen (deutliche) Unterschiede im Lageparameter. Der Kruskal-Wallis-Test kann dagegen mehr als zwei Stichproben/Gruppen auf Mittelwertgleichheit testen. Der Kruskal-Wallis-Test ist sozusagen eine Verallgemeinerung des U-Tests. Beide Tests zählen zu den nicht-parametrischen Tests und setzen ein ordinales Skalenniveau der Variable voraus, da die Teststatistik auf den Rangplätzen der einzelnen Realisierungen beruht. In SPSS wurden die diese Tests für unabhängige Stichproben durchgeführt.

Der Kruskal-Wallis-Test liefert:

KWGesamt.jpg

Der Kruskal-Wallis-Test lehnt ebenfalls die Mittelwertgleichheit auf 5% Signifikanzniveau ab.

Post-Hoc-Tests[edit]

Tests basierend auf der studentisierten Variationsbreite[edit]

Tukey Test, Student-Newman-Keuls-Test und Duncan Test dienen dem paarweisen Vergleich der Mittelwerte und dem Auffinden vom homogenen Gruppen. Die kritischen Werte werden aus der Verteilung der studentisierten Variationsbreite entnommen. Für diese Tests gelten die Annahmen, die auch für die ANOVA gelten. Außerdem können diese Tests nur im balancierten Fall angewandt werden (gleicher Stichprobenumfang zwischen den Arztgruppen), es sei denn eine Stichprobenkorrektur wird vorgenommen. Diese Tests können zum Auffinden von homogenen Gruppen nicht angewandt werden, da die Ausgaben in den jeweiligen Arztgruppen nicht normalverteilt sind und die Varianzen dieser Gruppen auch nicht homogen sind, siehe unter Prüfung der Voraussetzungen.

LSD-Test und Bonferroni-Korrektur[edit]

Der LSD-Test dient zum paarweisen Mittelwertevergleich. Dabei können ebenfalls homogene Gruppen gefunden werden. Die Bonferroni-Korrektur ist eine modifizierte Version des LSD-Tests, dabei wird das Signifikanzniveau an die gesamte Vergleichsserie angepasst. Das Signifikanzniveau des einzelnen Vergleichs kann kontrolliert werden, aber nicht der Vergleich einer Serie von Mittelwerten. Das Signifikanzniveau einer Serie ist größer als des einzelnen Tests. Die kritischen Werte werden aus der t-Verteilung genommen. Für den LSD-Test muss die Vorraussetzung der Varianzhomogenität erfüllt sein. Laut dem zentralen Grenzwertsatz sind die Daten in der Stichprobe mit Umfang n größer 30 approximativ normalverteilt. Da eine Voraussetzung bezüglich der Varianzhomogenität nicht erfüllt ist, kann der LSD-Test nicht durchgeführt werden. Dieser Test kann auch im unbalancierten Fall angewandt werden.

Scheffé-Test[edit]

Der Scheffé-Test dient ebenfalls zum Auffinden von homogenen Gruppen durch paarweisen Mittelwertevergleich. Generell gelten auch hier die Voraussetzungen der ANOVA. Dieser Test ist robust gegen die Verletzungen der Annahmen wie die Annahme der Normalverteilung und der Varianzhomogenität und kann auch im unbalancierten Fall angewandt werden. Auf Grund dieser robusten Eigenschaft, kann der Scheffé-Test für das Auffinden der homogenen Facharztgruppen eingesetzt werden.


Homogene Gruppen nach Scheffé-Test[edit]

 H_0: \Lambda=0 vs. H_1: \Lambda \neq 0, wobei  \Lambda = c_1\mu_1+...+c_j\mu_j+...+ c_m\mu_m= \sum_{j=1}^m c_j=0. Die Testentscheidung basiert auf den linearen Kontrasten, die dazu dienen die Gruppenmittelwerte auf Gleichheit zu testen. Die kritischen Werte werden aus der F-Verteilung entnommen und dann wird der Konfidenzintervall gebildet. Schließt der Konfidenzintervall den Wert Null ein, wird die Nullhypothese auf die Gleichheit der Mittelwertgruppen nicht abgelehnt.

Der Scheffé-Test liefert 7 homogene Gruppen. Die Gruppen 1 und 2, 2 und 3, 3 und 4 weisen starke Überlappungen auf, es sind auch Überlappungen zwischen der Gruppe 1 und 3 und 2 und 4 zu sehen. Überlappung bedeutet, dass ein Mittelwert zu zwei oder sogar mehr Gruppen gehört. Die Gruppe 5 und 7 sind wenig interessant, da in diese Gruppen jeweils ein Mittelwert fällt. In der Gruppe 6 liegen zwei Mittelwerte, einer von Nuklearmedizin mit rund 116 Euro und einer von Anästhesie mit rund 127 Euro pro Behandlungsfall.

Sch1.jpg

Scheffé-Prozedur2[edit]

Die Gruppen 1, 2, 3 und 4 werden wieder zusammengeworfen und der Scheffé-Test wird noch Mal durchgeführt. Jetzt ist ein Umfang von 10 Facharztgruppen vorhanden, der noch mal in homogene Gruppen aufgeteilt wird.


Sch2.jpg

Nun wurden die restlichen 10 Gruppen in 5 weitere homogene Gruppen unterteilt. Es gibt keine Überlappungen mehr, da jeder Mittelwert eindeutig zu einer Gruppe gehört. Die Gruppen, die mehrere Mittelwerte aufweisen sind von weiterem Interesse. Zusammen mit der ersten Scheffé-Prozedur werden vier homogene Gruppen rausgepickt und auf Homogenität untersucht. Die vier Gruppen sind:

  • Augenheilkunde und Geschlechtskunde
  • Kinderheilkunde, Hals-Nasen-Ohrenheilkunde und Allgemeinmedizin
  • Orthopädie, Chirurgie und Innere Medizin und
  • Nuklearmedizin und Anästhesie

Gruppe1: Augenheilkunde und Geschlechtskunde[edit]

Die Gruppe1 wird auf die Varianzhomogenität mit Levene-Test und auf Mittelwertgleichheit mit Mann-Whitney-U-Test geprüft, um zu sehen dass die Scheffé-Untergruppen tatsächlich homogen sind. Es wird auch der Median-Test durchgeführt. Der Median-Test ist in SPSS implementiert und kann direkt durchgeführt werden. Der Levene-Test sagt aus, dass basierend auf dem Median die Varianzhomogenität nicht erfüllt ist. Auch der Median-Test lehnt die Gleichheit der Mediane ab. Der Levene-Test basierend auf dem Mittelwert bestätigt dagegen die Varianzhomogenität. Der Kruskal-Wallis-Test bestätigt auch die Mittelwertgleichheit. Fließen in die Teststatistik jeweils die einfachen Mittelwerte ein, gilt die Gruppe1 als homogen. Gruppe1Tests.jpg

Beim Median-Test können die Beobachtungen, die genau dem Gruppenmedian entsprechen entweder in die Kategorie kleiner als der Gruppenmedian oder größer als der Gruppenmedian eingeordnet werden, sofern dieses keinen Einfluss auf die Testentscheidung hat.

Zur bildlichen Darstellung der homogenen Gruppen, wird ein Fehlerbalken-Diagramm erstellt (95%iges Konfidentintervall für den Mittelwert). Das Fehlerbalken-Diagramm dient zur Beurteilung der Mittelwertunterschiede. Wenn sich die Konfidenzintervalle der beiden Gruppen nicht überlappen, dann besteht ein signifikanter Unterschied in den Mittelwerten je Behandlungsfall in der jeweiligen Gruppe. In der Gruppe1 kann man deutlich erkennen, dass sich die Konfidenzintervalle der Gruppe Augenheilkunde und der Gruppe Geschlechtsheilkunde überlappen und das Diagramm für eine Mittelwertgleichheit zwischen diesen beiden Gruppen spricht. Insgesamt kann man schlussfolgern, dass die Gruppe1 mehr oder weniger homogen ist. Zu notieren ist, dass sie Streuung in der Gruppe Augenheilkunde größer ist als in der Gruppe Geschlechtsheilkunde, was für die Levene-Statistik basierend auf dem Median spricht.

Das Fehlerbalken-Diagramm der Gruppe1:

Fgruppe11.jpg

Gruppe2: Kinderheilkunde, Hals-Nasen-Ohren-Heilkunde und Allgemeinmedizin[edit]

Die Gruppe2 wird auch wie die Gruppe1 auf die Homogenität getestet. Der Levene-Test lehnt die Varianzhomogenität basierend auf dem Mittelwert und auf dem Median ab. Der Kruskal-Wallis-Test und der Median Test lehnen die Mittelwertgleichheit ab. Statistisch gesehen ist diese Gruppe nicht homogen.

Gruppe2.jpg

Das Fehlerbalken-Diagramm der Gruppe2:

Fgruppe21.jpg

Aus diesem Diagramm kann man deutlich erkennen, dass die Konfidenzintervalle der drei Gruppen sich überschneiden und daher für die Mittelwertgleichheit sprechen. Dies ist ein Widerspruch zu Kruskal-Wallis-Test und Median-Test. Es ist nicht ganz klar ob die Gruppe2 homogen ist oder nicht.

Gruppe3: Orthopädie, Chirurgie und Innere Medizin[edit]

Die Testergebnisse der Gruppe3 sind:

Gruppe3.jpg

Die Varianzhomogenität und Mittewertgleichheit werden strikt abgelehnt. Statistisch ist diese Gruppe nicht homogen.

Das Fehlerbalken-Diagramm der Gruppe3:

Fgruppe31.jpg

Man kann erkennen, dass sich die Konfidenzintervalle der Gruppe Chirurgie und Innere Medizin stark überlappen, weniger stark überlappt sich der Konfidenzintervall der Gruppe Chirurgie mit der Gruppe Orthopädie. Daher spricht das Diagramm stark für eine Gleichheit der Mittelwerte zwischen Chirurgie und Innere Medizin. Zwischen Innere Medizin und Orthopädie kann keine Mittelwertgleichheit bestehen. Das Fehlerbalken-Diagramm bestätigt die Nicht-Annahme der Nullhypothese durch Kruskal-Wallis-Test und Median-Test. Als Ergebnis kann man sagen, dass die Gruppe3 nicht homogen ist.

Gruppe4: Nuklearmedizin und Anästhesie[edit]

Die Ergebnisse der Tests sind:

Gruppe4.jpg

Der Levene-Test basierend auf dem einfachen Mittelwert und dem Median bestätigt die Varianzhomogenität. Der Mann-Whitney-U-Test lehnt die Mittelwergleichheit auf 5% Signifikanzniveau nicht ab. Laut Levene-Test und U-Test sind die Gruppen homogen. Allerdings lehnt der Median Test die Gleichheit der Mediane ab. (Die Mediane aller zur Analyse ausgewählten Facharztgruppen sind unter Test auf Normalverteilung in einer Tabelle angegeben).

Das Fehlerbalken-Diagramm der Gruppe4:

Fgruppe41.jpg

Die Konfidenzintervalle überlappen sich eindeutig, die Streuung in der Nuklearmedizin ist viel größer als die in der Anästhesie. Das Fehlerbalken-Diagramm bestätigt eindeutig das Ergebnis der U-Tests. Insgesamt kann man sagen, dass die Gruppe4 homogen ist, da die Varianzgleichheit durch Levene-Test und die Mittelwertgleichheit durch U-Test und das Diagramm bestätigt wird. Weiterhin ist zu beachten, dass der Kolmogorov-Smirnov-Test die Normalverteilungsannahme der Ausgaben in Anästhesie befürwortet und in der Nuklearmedizin widerlegt. Dass die Gruppe homogen ist, heißt nicht, dass die Verteilungen vollkommen identisch sind, sonst würde man aus der Normalverteilungsannahme in Anästhesie schlussfolgern, dass die Normalverteilung in Nuklearmedizin auch vorliegen muss. Die Homogenität der Gruppen bedeutet, dass die Verteilungen ungefähr gleich sind und nicht genau gleich sind.

Um sicher zu sein, dass die Verteilung in Anästhesie tatsächlich auf dem 5% Signifikanzniveau nicht abgelehnt wird, sollte man den Jarque-Bera-Test durchführen (Die Teststatistik basiert auf dem dritten und vierten Moment). Jarque-Bera-Test reagiert stärker auf die Ausreißer als der Kolmogorov-Smirnov-Test. Lehnt der Jarque-Bera-Test die Nullhypothese (Daten normalverteilt sind) nicht ab, dann kann man davon ausgehen, dass in der Anästhesie tatsächlich Normalverteilung vorliegt, obwohl der Shapiro-Wilk-Test diese ablehnt (Der Shapiro-Wilk-Test hat eine hohe Teststärke und lehnt nahezu immer die Nullhypothese ab). Anschließend würde man einen Ausreißertest durchführen, für Anästhesie passt der Grubbs-Test und/oder der David-Hartley-Pearson-Test.

Zur weiteren explorativen Analyse kann man sich das Histogramm und den QQ-Plot in Anästhesie anschauen. Das Histogramm spricht eher gegen die Normalverteilung und der QQ-Plot eher für die Normalverteilung.


Histo1.jpg Qqplot1.jpg

Scheffé Prozedur3[edit]

Die Gruppe3 ist statistisch gesehen nicht homogen. Die Gruppe2 ist basierend auf den Tests nicht homogen, aber basierend auf der explorativen Analyse in Bezug auf den Mittelwert homogen. Diese beiden Gruppen werden zusammengeworfen und der Scheffé-Test wird zum dritten Mal durchgeführt. Dieser liefert:

Sss3.jpg

Es entstehen drei homogene Gruppen, die erste Untergruppe nenne ich Gruppe11, die zweite Gruppe22 und die dritte Gruppe33. Interessant ist, dass die Gruppe11 genau mit der Gruppe2 übereinstimmt. Die Gruppe22 ist für die statistische Analyse nicht interessant, da nur ein Mittelwert in ihr vorhanden ist. Auf die der Varianzhomogenität und Mittelwertgleichheit in der Gruppe33 ist an dieser Stelle verzichtet, da die vorherigen Beispiele zeigen, welche Tests hierfür notwendig sind.

VL1.jpg

Warum wollen die statistischen Tests die Gruppe11=Gruppe2 nicht als homogen in Bezug auf Mittelwerte anerkennen, obwohl bei Schauen auf die Mittelwerte die Mittelwertgleichheit eindeutig ist. Im Schnitt werden in Kinderheilkunde rund 40 Euro, in Hals-Nasen-Ohren-Heilkunde rund 41 Euro und in Allgemeinmedizin rund 42 Euro pro Behandlungsfall ausgegeben. In den Levene-Test geht auch der Stichprobenumfang mit ein, vor allem der Stichprobenumfang der jeweiligen Gruppe im Zähler n_j. Da in der Gruppe Allgemeinmedizin sehr viele Fallzählungen auftreten rund n=16.705 im Vergleich zu den anderen Gruppen (Kinderheilkunde n=3.414 und Hals-Nasen-Ohren-Heilkunde n=2.066) beeinflusst dies die Levene-Teststatistik, indem diese nach oben verzerrt wird (Steigt der Stichprobenumfang in der jeweiligen Gruppe, so steigt auch die Teststatistik). Je größer die Teststatistik, desto eher wahrscheinlicher ist es, dass diese über dem kritischen Wert liegt, und die Nullhypothese somit abgelehnt wird. Es kann auch sein, dass der Stichprobenumfang der jeweiligen Gruppe (hier Allgemeinmedizin) den Kruskal-Wallis-Test beeinflusst, sodass der Kruskal-Wallis-Test die Nullhypothese ablehnt.

Zusammenfassung[edit]

Der Datensatz „Stichprobanden von Versicherten der gesetzlichen Krankenversicherung nach §268 SGB V 2002 “ enthält 24 Facharztgruppen mit n=44.482 Behandlungsfällen. Das Ziel war homogene Arztgruppen zu finden. Zuerst wurden die 24 Facharztgruppen auf 14 Gruppen durch Eliminierung und Zusammenfassung der Gruppen reduziert. In der ganzen Datenanalyse geht es um zwei Variablen: Ausgaben in Euro (metrisch skalierte Variable) und Facharztgruppe (kategorielle Variable). Die Datenanalyse basiert auf nicht transformierten Daten. Mit Hilfe von statistischen Methoden und explorativer Analyse werden die 14 Facharztgruppen in homogene Gruppen unterteilt. Dabei spielt die Scheffé-Prozedur eine besondere Rolle. Nach der Scheffé-Prozedur entstehen die ersten potentiellen homogenen Gruppen. Der Scheffé-Test wurde insgesamt dreimal durchgeführt. Auf diese Weise wurde jede entstanden homogene Gruppe darauf geprüft, ob die Homogenität tatsächlich vorliegt. Die Prüfung auf Homogenität wurde ebenfalls mit Hilfe von statistischen Tests und explorativer Analyse untersucht.

Schlussfolgerungen[edit]

Als homogen gilt die Gruppe1: Augenheilkunde und Geschlechtskunde. Basierend auf den einfachen Mittelwerten wird die Annahme der Varianzhomogenität und der Mittelwertgleichheit bestätigt. Das Fehler-Balken Diagramm untermauert die Homogenität der Mittelwerte. Homogen bedeutet dabei nicht, dass die Gruppen identische Verteilungen mit identischen Parametern haben, sonder homogen bedeutet, dass die Verteilungen ungefähr gleich sind und die Parameter sind auch ungefähr gleich, wie das in der Gruppe4: Anästhesie und Nuklearmedizin der Fall ist. Die Ausgaben in Anästhesie sind normalverteilt, wohingegen die Ausgeben in Nuklearmedizin nicht. Trotzdem gilt diese Gruppe als homogen basierend auf der Levene-Statistik und Kruskal-Wallis-Statistik. Das Fehler-Balken-Diagramm untermauert die Mittelwertgleichheit in Anästhesie und Nuklearmedizin. Gruppe3: Orthopädie, Chirurgie und Innere Medizin ist eindeutig nicht homogen. Gruppe2 ist nur homogen basierend auf den Mittelwerten, obwohl die statistischen Tests (Kruskal-Wallis-Test) dagegen sprechen. Die statistischen Ergebnissen müssen hinterfragt werden, nicht immer liefern diese Ergebnisse plausible Erklärungen, wie es der Fall in Gruppe2 ist. Eine explorative Analyse kann helfen z.B. Boxplots oder Fehlerbalken-Diagramme. Der Median-Test hat in jeder potentiellen homogenen Gruppe die Nullhypothese abgelehnt. Der Vorteil des Median-Tests ist, dass er robust gegenüber großen Abweichungen ist und somit auch robust gegenüber von Ausreißern ist. Der Nachteil ist, dass er lediglich die Beobachtungen mit dem Gesamtmedian vergleicht und diese in größer oder kleiner Kategorie einteilt, er nutzt das ordinale Skalenniveau nicht vollkommen aus, wie es die Rangsummentests tun z.B. Kruskal-Wallis-Test, Mann-Whitney-U-Test. Würde ich die Homogenität der Gruppen nur basierend auf dem Median-Test durchführen, hätte ich wahrscheinlich keine homogenen Gruppen finden können.

Literatur[edit]

http://www.forschungsdatenzentrum.de/bestand/gkv/cf/2002/fdz_gkv_cf_2002_datensatzbeschreibung.pdf http://www.forschungsdatenzentrum.de/bestand/gkv/cf/2002/fdz_gkv_cf_2002_anonymisierungskonzept.pdf

Rönz, B. Computergestützte Statistik I, Humboldt Universität zu Berlin, Institut für Statistik und Ökonometrie, 2001

Mood, A. M. Introduction to the Theory of Statistics, Third Edition, McGraw-Hill Publishing Company pp.518-524

Bosch, K. Statistik-Taschenbuch, Oldenburg Verlag München Wien, 1992, S.338, 673-682

Freidlin, B. Should the Median Test be Retired from General Use in: The American Statistician, Vol.54, No.3, pp.161-164

Siegel, S. Nonparametric Statistics in: The American Statistician, Vol.11, No.3, pp13-19

Ihm, P. Eine exakte Methode als Ersatz für die Varianzanalyse in bestimmten Fällen, aus dem Botanischen Institut der Universität Freiburg i. Br., 25.Band, Heft11/12, S.365-368