Gehalts- und Lohnstrukturerhebung 2001 - Analyse anhand des Geschlechts und der Ausbildung - Datenaufbereitung

From Teachwiki
Jump to: navigation, search

<slides> name=Gehalts- und Lohnstrukturerhebung 2001 - Analyse anhand des Geschlechts und der Ausbildung fontsize=120% showButtons=true hideHeading=false hideMenu=false hideFooter=false Datenaufbereitung Datenauswertung </slides>

Einleitung[edit]

Dieser Artikel entstand als Arbeit im Kurs "Computergestützte Statistik" im Sommersemester 2008. Er behandelt die Datenanalyse eines selbst gesuchten Datensatzes. Der Aufbau des Artikels sowie die verschiedenen Analysen orientieren sich dabei am Aufbau der Vorlesung. Im ersten Teil werden die Variablen auf Ausreißer sowie fehlende Werte untersucht und dementsprechend bearbeitet (Kapitel 4). Danach folgt die Analyse von Zusammenhängen anhand von Grafiken und statistischen Tests (Kapitel 5.1, 1.1 Abschnitt Datenauswertung). Im Anschluss wird eine lineare Regression durchgeführt (Kapitel 5.2, 1.2 Abschnitt Datenauswertung). In der Vorlesung wurde des Weiteren die Reliabilitäts- und Homogenitätsprüfung behandelt. Da im gewählten Datensatz keine latenten Variablen enthalten sind, wird diese hier nicht durchgeführt. Latente Variablen sind solche, die nicht direkt abgefragt werden können, sondern mit Hilfe mehrerer Fragen indirekt als theoretisches Konstrukt abgefragt und ausgewertet werden. Der ausgewählte Datensatz beinhaltet keine Fragen dieser Art. Für die Durchführung der ausgewählten statistischen Methoden wurde das Statistikprogramm SPSS (Version 16.0) verwendet. Die statistischen Methoden im Kapitel 5 der Arbeit, Kapitel 1 des Abschnitts Datenauswertung, beruhen alle auf den Kapiteln 2 und 3 des Skriptes "Computergestützte Statistik II" von Professor Rönz (Vgl. Rönz (2000)). In Fällen, in denen andere Quellen verwendet wurden, ist dies gesondert vermerkt.

Grundlage der Datenanalyse bildet die Frage, welchen Einfluss zum einen das Geschlecht und zum anderen die Ausbildung als Proxy für den Bildungsstand auf den Monatsverdienst haben.

Der Schwerpunkt der Analyse insgesamt liegt auf individuellen Aspekten, wie z. B. dem Alter, sowie arbeitsplatzspezifischen Aspekten wie z. B. der Arbeitszeit. Dementsprechend werden unternehmensspezifische Aspekte wie z. B. die Größe des Unternehmens oder die Art des Tarifvertrages nicht bzw. nicht ausführlich berücksichtigt. Auch die Jahreswerte des Verdienstes werden nicht genauer betrachtet.

Datensatz[edit]

Für die Beantwortung der Frage, welchen Einfluss das Geschlecht und die Ausbildung der Arbeitnehmerin bzw. des Arbeitnehmers auf den Verdienst haben, wurde der Campus-File [1] der Forschungsdatenzentren der Statistischen Ämter [2] Gehalts- und Lohnstrukturerhebung im Produzierenden Gewerbe und im Dienstleistungsbereich 2001 [3] ausgewählt.

Die Daten für die Gehalts- und Lohnstrukturerhebung werden in Form einer geschichteten Zufallsstichprobe auf Bundeslandebene (15 Bundesländer sowie Berlin-Ost und Berlin-West) erhoben. Dabei werden Betriebe des Produzierenden Gewerbes und aus ausgewählten Dienstleistungsbereichen mit 10 und mehr Beschäftigten befragt. Folgende Wirtschaftszweige, weiter unterteilt in 64 Wirtschaftsgruppen, der Wirtschaftszweigklassifikation in der Ausgabe von 1993 [4] sind im Berichtskreis enthalten:

  • C (Bergbau und Gewinnung von Steinen und Erden),
  • D (Verarbeitendes Gewerbe),
  • E (Energie- und Wasserversorgung),
  • F (Baugewerbe),
  • G (Handel; Instandhaltung und Reparatur von Kraftfahrzeugen und Gebrauchsgütern),
  • H (Gastgewerbe) [seit 2001],
  • I (Verkehr und Nachrichtenübermittlung) [seit 2001],
  • J (Kredit- und Versicherungsgewerbe),
  • K (Grundstücks- und Wohnungswesen, Vermietung beweglicher Sachen, Erbringung von Dienstleistungen überwiegend für Unternehmen) [seit 2001].

Für die Bereiche H, I und K sind im Campus-File keine Angaben zum Nettoverdienst und zu allen weiteren Variablen, die sich mit Abgaben und Steuern beschäftigen, enthalten. (Vgl. Hafner (2007a), S. 11f, 20ff, 24) Dies ist der Fall, da die EU-Verordnung, welche die Erhebung der neu hinzugekommenen Dienstleistungsbereiche vorsieht, keinen Nachweis der Nettoverdienste vorschreibt. (Vgl. Frank-Bosch (2003), S.3)

Die Fragen beziehen sich auf die Arbeitnehmerinnen und Arbeitnehmer des Betriebes, das heißt auf alle sozialversicherungspflichtig Beschäftigten eines Betriebes, die im Berichtsmonat Lohn oder Gehalt empfangen haben. Seit 2001 werden auch Angaben über Auszubildende, geringfügig Beschäftigte und Beschäftigte in Altersteilzeit erhoben. Nicht enthalten sind unter anderem Angaben zu BeamtInnen, Selbstständigen sowie mithelfenden Familienangehörigen. Angestellte sind hier definiert als diejenigen "[...] in der Rentenversicherung der Angestellten versicherten Arbeitnehmer", Arbeiterinnen und Arbeiter als "[...] in der Rentenversicherung der Arbeiter /-innen versicherten". (Statistisches Bundesamt (Hrsg.) (2007), S. 522)

Die Daten sollen Aussagen über die Bestimmungsfaktoren der individuellen Verdiensthöhe, die Verteilung und Streuung der Verdienste sowie die Unterschiede zwischen verschiedenen Regionen ermöglichen. (Vgl. Hafner (2007a), S. 3)

Der Berichtsmonat ist der Oktober 2001. "Auch bei früheren Gehalts- und Lohnstrukturerhebungen war der Oktober aus den vier Berichtsmonaten der laufenden Verdiensterhebung ausgewählt worden, weil er im Vergleich zu den übrigen Berichtsmonaten Januar, April und Juli am wenigsten durch Sondereinflüsse geprägt ist." (Frank-Bosch (2003), S. 3)

Der Campus-File enthält Angaben zu 50.728 Beschäftigten aus über 2.000 Betrieben in 50 Variablen. Für die Anonymisierung wurde aus den Betrieben eine 10% Stichprobe gezogen. Dann wurde wiederum eine Stichprobe aus den erfassten Beschäftigten der gezogenen Betriebe mit einem variablen Auswahlsatz zwischen 20% und 90% gezogen. Weiterhin wurde die Regionalangabe vergröbert (alte Bundesländer mit Berlin, neue Bundesländer ohne Berlin), die Wirtschaftszweige wurden zu den neun oben genannten Kategorien und die hohen Verdienste in einem Topcoding zusammengefasst. (Vgl. GLS 2001) Um eine faktisch vollständige Anonymisierung zu erreichen, wurden außerdem die Variable "Anzahl der Beschäftigten des Betriebes" klassiert, Fälle mit bestimmten Ausprägungen einzelner Variablen (z. B. bei "Anzahl der Kinderfreibeträge") gelöscht oder ganze Variablen aus dem Datensatz entfernt (z. B. "Einfluss der öffentlichen Hand auf das Unternehmen"). (Vgl. Hafner (2007b), S. 1-3)

"Im Gegensatz zu den laufenden Verdiensterhebungen werden bei der Gehalts- und Lohnstrukturerhebung Angaben für Arbeiter und Angestellte im Individualverfahren erhoben. Damit können individuelle Merkmale der Arbeitnehmer – mit dem Arbeitsplatz verbundene Merkmale einerseits und persönliche Merkmale andererseits – zum Verdienst in Beziehung gesetzt werden." (Frank-Bosch (2003), S. 2) Ein weiterer Vorteil des Datensatzes liegt in den nicht klassierten Daten zum Bruttoverdienst. Im Gegensatz zu den meisten amtlichen Datensätzen, die bei der Genesis-Datenbank des Statistischen Bundesamtes im Internet [5] oder über die Internetseiten der Forschungsdatenzentren [6] erhältlich sind, liegen die Lohn- bzw. Gehaltsdaten in auf ganze Euro gerundeten Einzelwerten vor. Durch die damit notwendige umfangreiche Anonymisierung enthält der Campus-File jedoch viele fehlende Werte. In Kapitel 4.1 werden einzelne, ausgewählte Variablen auf fehlende Werte untersucht.

Variablen[edit]

Für die Analyse wurde immer wieder auf verschiedene Variablen des Datensatzes zurückgegriffen. Ein Beschreibung aller 50 Variablen des Datensatzes, wie sie auch in den Publikationen der Forschungsdatenzentren zu lesen ist, erscheint an dieser Stelle zu umfangreich. (In Hafner 2007a und 2007b) Wichtig ist hingegen die Erläuterung, welche Variablen aus anderen Variablen neu erstellt wurden. Die Erklärung zu den einzelnen Transformationen und Recodierungen erfolgt in Kapitel 4.

Folgende Variablen wurden für die Analyse neu erstellt:

  • Alterklassiert [Alter] - erstellt aus der Variable "Geburtsjahr" [EF13U2], 9 Klassen mit den jeweiligen Klassenmitten: 18, 23, 28, 33, 38, 43, 48, 53 und 58, (Abb. 7.1).
  • Beschäftigungsdauer im Unternehmen [beschdauerimuntn] - erstellt aus der Variable "Jahr des Eintritts in das Unternehmen" [EF14U2], 11 Klassen mit den jeweiligen Klassenmitten 0.5, 3, 8, 13, 18, 23, 28, 33, 38, 43 und 50, (Abb. 7.2).
  • Leistungsgruppe - neu [Leistungsgruppeneu] - erstellt aus der Variable "Leistungsgruppe" [EF11a], (Abb. 4.3).
  • Vertraglich vereinbarte Arbeitszeit [Arbeitszeit] - erstellt aus der Variable "Arbeitsvertraglich vereinbarte wöchentliche Arbeitszeit" [EF20]. Diese Variable liegt sowohl ohne Klassierung (Abb. 4.4) als auch in 25 Klassen (Abb. 7.3) vor.
  • Basisverdienst Brutto [BasisverdienstBrutto] - erstellt aus den Variablen "Bruttoverdienst Insgesamt im Berichtsmonat in Euro" [EF25] und "Verdienst aus Mehrarbeitszeit in Prozent von EF25" [EF26], (Abb. 4.6).
  • Basisverdienst Netto 1 [BasisverdienstNetto1] - erstellt aus den Variablen "Nettomonatsverdienst in Prozent von EF25" [EF51] sowie "Bruttomonatsverdienst Insgesamt in Euro" [EF25] und "Verdienst aus Mehrarbeitszeit in Prozent von EF25" [EF26] für den Wirtschaftssektor 1, (Abb. 4.12).
  • Wirtschaftssektor [Wirtschaftssektor] - erstellt aus der Variable "Wirtschaftsgruppe, in der Haupttätigkeitsbereich des Betriebes liegt" [WZGRUPPE] mit den Ausprägungen: 1 - "Produzierendes Gewerbe sowie in GLS 95 vorhanden" (entspricht den Bereichen C-G, J) und 2 - "Dienstleistung und erst in GLS 01 vorhanden" (entspricht den Bereichen H, I und K), (Abb. 7.4).

Des Weiteren wurden für die Regressionsanalyse aus der recodierten Variable "Ausbildung - neu" (Abb. 7.5) dichotome Variablen erstellt. Diese werden in den Kapiteln 5.1 und 5.2 der Arbeit, 1.1 und 1.2 des Abschnitts Datenauswertung, eingeführt. Die Variable Geschlecht (Abb. 7.6) wurde in keiner Weise verändert.

Datenbereinigung[edit]

Bei einer ersten Betrachtung des Datensatzes fällt auf, dass es zum einen Werte gibt, die im ersten Moment unlogisch erscheinen wie z. B. ein "Nettomonatsverdienst des Beschäftigten in Prozent von EF25" [EF51] in Höhe von "0" oder auch "Bezahlte Normalarbeitsstunden im Berichtsmonat" [EF21] in Höhe von "0" und zum anderen bei bestimmten Variablen eine große Anzahl fehlender Werte vorliegt wie z. B. erneut beim "Nettomonatsverdienst des Beschäftigten in Prozent von EF25" [EF51] (7.909) sowie bei der Leistungsgruppe [EF11a] (2.267). Diesen Problemen widmen sich die Unterkapitel 4.1.1 und 4.1.2.

Umgang mit fehlenden Werten[edit]

"Grundsätzlich wird bei unplausiblen Angaben beim auskunftspflichtigen Betrieb zurückgefragt. [...] In vielen Fällen wurde je Betriebsbogen mehrmals zurückgefragt, bis die Ergebnisse vollständig und plausibel waren. Angaben, die auf diese Weise nicht korrigiert werden können, werden anhand von Vergleichswerten ähnlicher Arbeitnehmer oder anhand von Durchschnittswerten aus anderen lohnstatistischen Erhebungen geschätzt." (Kuhn (2005), S. 6) Dennoch sind im Datensatz Gehalts- und Lohnstrukturerhebung 2001 Campus-File noch fehlende Werte vorhanden. Die folgenden Variablen wurden dementsprechend bearbeitet.

Um eine Verzerrung der Ergebnisse bei der Arbeitszeit und beim Verdienst durch die im November oder Dezember Ausgeschiedenen [EF49] zu vermeiden, werden diese aus dem zu analysierenden Datensatz gelöscht. Es handelt sich hierbei um 2.164 Fälle. Weiterhin werden die Fälle, bei denen im betrachteten Monat Oktober eine Verdienstminderung [EF27] vorlag, gelöscht. Dies sind weitere 240 Fälle. Eine Verdienstminderung liegt vor, wenn im Berichtsmonat "weniger als 90% der vertraglich vereinbarten Arbeitszeit als bezahlte Stunden (ohne Mehrarbeitsstunden) geleistet" wurde. (Vgl. Hafner (2007a), S. 18) Die 1.456 Fälle, bei denen die Angabe der "Arbeitsvertraglich vereinbarte wöchentliche Arbeitszeit" [EF20] fehlt, wurden auch gelöscht. Bei einer Untersuchung der fehlenden Werte wird deutlich, dass es Strukturen gibt, da zum einen die Angabe der Arbeitszeit bei verhältnismäßig mehr Arbeiterinnen und Arbeitern als bei Angestellten fehlt (Tab. 7.1) und dies weiterhin bei mehr Frauen als Männern der Fall (Tab. 7.2) ist. Auch gibt es Unterschiede zwischen Ost und West (Tab. 7.3) sowie bei den verschiedenen Wirtschaftssektoren (Tab. 7.4) in der Häufigkeit des Auftretens von fehlenden Werten. Aus diesem Grund kann kein Ersetzungsalgorithmus entwickelt werden. Im Gegenteil ist davon auszugehen, dass die vorhandene, nicht zufällige, jedoch unbekannte Struktur zu einer fehlerhaften Ersetzung führen würde. (Vgl. Klinke (2008), Missing Values 15-1 und 15-11) Es existieren weitere 16 fehlende Werte bei den Variablen "Verdienst aus Mehrarbeitszeit in Prozent von EF25" [EF26] sowie den Variablen, welche die Zulagen, die Sozialsversicherungsbeiträge und die Steuern abdecken. Auch wenn die Struktur sich nicht so deutlich zeigt wie bei der "Arbeitsvertraglich vereinbarte wöchentliche Arbeitszeit", so ist doch eine erkennbar - zum Beispiel bei den verschiedenen Tarifvertragstypen (Tab. 7.5) und auch den beiden Beschäftigungsgruppen Arbeiterinnen und Arbeiter sowie Angestellte (Tab. 7.6). Gleichzeitig wird das Ergebnis einer Analyse durch das Löschen von 16 fehlenden Werten bei insgesamt immer noch 46.852 Beobachtungen nicht dramatisch verändert. Insofern werden diese Beobachtungen mit fehlenden Werten aus dem zu analysierenden Datensatz gelöscht. Auch bei den Ausprägungen der Variablen "Lohnsteuerklasse 1" (Tab. 7.7) (758), "Anzahl der Kinderfreibeträge 1" (Tab. 7.8) (425) und "Basisverdienst Netto 1" (Tab. 7.9) (20) existieren fehlende Werte. Die 1 im Variablennamen zeigt an, dass bei diesen Variablen nur Ausprägungen für den Wirtschaftssektor 1 existieren, da wie oben beschrieben für den Wirtschaftssektor 2 diese Daten nicht erhoben wurden. (Vgl. Hafner (2007a), S. 11, 12 und 24) Bei einer Analyse dieser Variablen werden die Beobachtungen mit fehlenden Werte nicht einbezogen. Die Beobachtungen werden jedoch nicht ganz aus dem zu analysierenden Datensatz gelöscht, da es sich bei der vorliegenden Fragestellung um weniger relevante Variablen handelt.

Die Variable "Leistungsgruppe" (EF11a) hat 2.267 fehlende Werte. (Tab. 4.2) Die Betrachtung der Struktur ergibt, dass alle fehlenden Werte auf Auszubildende zurückzuführen sind, die von den Betrieben nicht in dem vorgegebenen Schema abgebildet wurden. Aus diesem Grund wurde die neue Variable "Leistungsgruppe - neu" erstellt, bei der mit der zusätzlichen Ausprägung "Auszubildende" die fehlenden Werte ersetzt wurden. Gleichzeitig erfolgte eine Recodierung der Variable "Leistungsgruppe - neu", um eine mögliche Sortierung der Gruppen nicht nur jeweils nach Angestellten sowie Arbeiterinnen und Arbeitern getrennt sondern gemeinsam abzubilden. Hier kann jedoch weiterhin nicht von Äquidistanz ausgegangen werden. Das Balkendiagramm wurde nach dem Löschen der oben beschriebenen Fälle erstellt. Es zeigt zum einen, dass die Variable keine fehlenden Werte mehr enthält und zum anderen die neu sortierten Ausprägungen.
Abb. 4.3 - Balkendiagramm Leistungsgruppe - neu

Umgang mit Ausreißern[edit]

Wie bereits erwähnt, existieren im Datensatz Ausprägungen von Variablen, die unlogisch erscheinen. Dies ist vor allem beim Verdienst und bei der Arbeitszeit der Fall. Diese Variablen sind jedoch gleichzeitig für die Analyse von großer Bedeutung. Aus diesem Grund werden im Folgenden die Variablen sowohl zur Arbeitszeit als auch zum Verdienst näher betrachtet. Dazu wird jeweils als Erstes erklärt, aus welchen inhaltlichen und statistischen Gründen, die entsprechenden Variablen aus dem Datensatz gewählt und wie sie transformiert wurden. Im Weiteren werden die Verteilung und mögliche Ausreißer untersucht.

Arbeitszeit[edit]

Bei der Arbeitszeit stehen folgende Variablen im Datensatz zu Verfügung:

  • die "Arbeitsvertraglich vereinbarte wöchentliche Arbeitszeit" [EF20],
  • die "bezahlten Normalarbeitsstunden im Berichtsmonat" [EF21] und
  • die "bezahlten Mehrarbeitsstunden im Berichtsmonat" [EF22].

Wie bereits in Kapitel 4.1 gezeigt, enthält die Variable "bezahlte Normalarbeitsstunden im Berichtsmonat" sehr häufig die Ausprägung "0" (Abb. 4.2). Für Angestellte sind bei dieser Variablen nur Angaben erforderlich, "[...] wenn nicht die gesamte vertraglich vereinbarte Arbeitszeit für den Berichtsmonat vergütet worden ist". (Vgl. Hafner (2007a), S. 17). Das erklärt zwar, wieso es so viele Ausprägungen dieser Art gibt. Das Problem einer adäquaten Beschreibung der Arbeitszeit ist damit jedoch nicht gelöst. Eine Möglichkeit, die bezahlten Normalarbeitsstunden im Berichtsmonat zu schätzen, wurde nicht gefunden. Zum einen ist es im Rahmen dieser Arbeit zu aufwändig mit dem Tarifleitband des Statistischen Bundesamtes die unterschiedlichen vereinbarten Monatsarbeitsstunden zu schätzen. Zum anderen kann nicht einfach die "Arbeitsvertraglich vereinbarte wöchentliche Arbeitszeit" mit den "bezahlten Normalarbeitsstunden im Berichtsmonat" in Beziehung gesetzt werden. Es könnte zwar "[...] erwartet werden, dass Unternehmen auch die bezahlten Stunden angeben können, da in den Lohnabrechnungssystemen Aufzeichnungen zu den bezahlten Überstunden vorhanden sein müssen. Allerdings hatten in der Arbeitskostenerhebung trotzdem relativ viele Unternehmen Probleme mit der Lieferung plausibler Angaben zu den bezahlten Stunden." (Alter (2006), S. 766) Insofern kann auch bei der Gehalts- und Lohnstrukturerhebung nicht einfach davon ausgegangen werden, dass die Möglichkeit besteht, beide Fragen wechselseitig zu ersetzen. Da keine ausreichenden Informationen zu den bezahlten Normalarbeitsstunden im Berichtsmonat vorliegen, kann auch nicht mit den "bezahlten Mehrarbeitsstunden im Berichtsmonat" gearbeitet werden. Denn diese sind nur eine Ergänzung zu den bezahlten Normalarbeitsstunden. Eine Analyse zu bezahlten Überstunden ist also nicht möglich. So muss auf die Variable "Arbeitsvertraglich vereinbarte wöchentliche Arbeitszeit" zurückgegriffen werden. Dies ist auch möglich, denn die "[...] Wochenarbeitszeit des am häufigsten vertretenen Arbeitszeitmodells lässt sich durch eine Unternehmensbefragung gut erfassen." (Alter (2006), S. 766) Dennoch muss auch diese Variable noch transformiert werden. "Für die Angestellten wird in der Regel nur die arbeitsvertraglich vereinbarte wöchentliche Arbeitszeit erfragt. [...] Die Tätigkeiten von Angestellten werden [jedoch] in der Regel monatlich vergütet." (Frank-Bosch (2003), S. 3) Es muss also eine Anpassung der wöchentlichen Arbeitszeit an den Monatsverdienst erfolgen. Aus diesem Grund wurde die Variable "Arbeitsvertraglich vereinbarte wöchentliche Arbeitszeit" mit 52 Wochen multipliziert und durch die 12 Monate des Jahres geteilt. Es wurde also eine Variable mit einer standardisierten monatlichen Arbeitszeit erstellt. Da der Monatsverdienst auch bis auf die Sonderzahlungen jeden Monat gleich ist, wird im Weiteren mit zwei standardisierten Variablen gerechnet. Für die Arbeiterinnen und Arbeiter ergeben sich Probleme aus den Unterschieden zwischen Monats- und Stundenlöhnen, die jedoch bereits im Datensatz gelöst sind. "In der Gehalts- und Lohnstrukturerhebung 2001 wurde für homogene Arbeitergruppen die Arbeitszeitregelung im Monat Oktober erfragt. Für die Arbeiter mit Stundenlohn wird diese Anzahl der Stunden verwendet, um einen von Kalenderunregelmäßigkeiten bereinigten Monatslohn zu errechnen. Dieser „normierte Monatslohn“ geht in die Ermittlung der Durchschnittsverdienste der Arbeiter und Arbeiterinnen ein. Mit diesem Verfahren werden die im Oktober 2001 erzielten Löhne der Monats- und Stundenlöhner vergleichbar gemacht." (Frank-Bosch (2003), S. 3)


Im Folgenden wird die neu erstellte Variable "Vertraglich vereinbarte Arbeitszeit" verwendet, welche die Arbeitszeit im Monat abbildet. Bezahlte und unbezahlte Überstunden werden dabei nicht erfasst.


"Ein Histogramm eignet sich zur grafischen Darstellung der empirischen Häufigkeitsverteilung stetiger Variablen". (Rönz (2001), S. 76) Das folgende Histogramm deutet darauf hin, dass eine Normalverteilung der Arbeitszeit nicht angenommen werden kann. Der Kolmogorov-Smirnov-Test bestätigt die Ablehnung der Nullhypothese (die Stichprobe stammt aus einer Grundgesamtheit mit einer Normalverteilung) bei einem Signifikanzniveau von alpha = 0,05. (Vgl. Rönz (2001), S. 101 ff.)

Abb. 4.4 - Histogramm Arbeitszeit Tab. 4.3 - Kolmogorov-Smirnov-Test Arbeitszeit
Histogram-arbeitszeit.png Ks-test-arbeitszeit.png


Aus diesem Grund ist ein Test auf Ausreißer nicht möglich. (Vgl. Rönz (2001), S. 35) Inhaltlich können jedoch sowohl die hohen als auch die sehr niedrigen Werte überprüft werden. Die Tabelle gibt das Maximum und das Minimum der Ausprägung an. Die hohen Werte um 260 Stunden sind noch im gesetzlichen Rahmen von höchstens 60 Stunden pro Woche. (Vgl. Juris) Die niedrigen Werte im Bereich um Null sind vor allem auf die geringfügige Beschäftigung zurück zu führen, wie der Vergleich der beiden Boxplots zeigt. (Vgl. Rönz (2001), S. 22ff.) Die Variable "Geringfügige Beschäftigung" wurde als dichotome Variable aus der Variablen "Bruttomonatsverdienst Insgesamt in Euro" erstellt. Sie unterscheidet zwischen einem Verdienst in Höhe von 0 bis 325 Euro und einem Verdienst über der Grenze von 325 Euro. Insofern kann für die weitere Analyse davon ausgegangen werden, dass die Variable Arbeitszeit keine Ausreißer enthält.

Abb. 4.5 - Boxplots Arbeitszeit nach Geringfügiger Beschäftigung Tab. 4.4 - Statistik Arbeitszeiten
Boxplot-geringfuegigebeschaeftigung-arbeitszeit.png Statistic-arbeitszeit.png

Verdienst[edit]

Für den Verdienst stehen auch wieder verschiedene Variablen zur Auswahl. Aufgrund der Entscheidung für die vertraglich vereinbarte monatliche Arbeitszeit, benötigen wir hier die Variable mit dem vertraglich vereinbarten monatlichen Verdienst. Dafür muss vom "Bruttomonatsverdienst Insgesamt in Euro" der Mehrverdienst aus der Variablen "Verdienst aus Mehrarbeitszeit in Prozent von EF25" abgezogen werden. Daraufhin erhalten wir den "Basisverdienst Brutto", dessen Verteilung im nebenstehenden Histogramm abgebildet ist. Aufgrund des Topcoding der hohen Einkommen macht ein Test auf Normalverteilung wenig Sinn. (Vgl. Rönz (2001), S. 101) Der Eindruck des Histogramms mit der eingezeichneten Normalverteilungskurve, das hier keine Normalverteilung vorliegt, wird hier jedoch durch den Q-Q-Plot und den trendbereinigten Q-Q-Plot bestätigt. Insofern sind wie bei der Arbeitszeit keine Ausreißertests sinnvoll durchführbar. (Vgl. Rönz (2001), S. 84 ff.) Auch die Q-Q-Plots des logarithmierten Brutto-Basisverdienstes weisen nicht auf eine Normalverteilung hin, (Abb. 7.7), (Abb. 7.8).

Weiterhin zeigt das Histogramm die Struktur des Verdienstes in Deutschland mit drei Schwerpunkten - zum einen ganz links die geringfügig Beschäftigten mit einem Verdienst bis 325 Euro, in der Mitte den "Durchschnittsverdienenden" und rechts außen die "überdurchschnittlichen hohen Verdienste", die hier wie erwähnt zu einem Topcoding zusammengefasst wurden.

Abb. 4.6 - Histogramm Basisverdienst Brutto
Abb. 4.7 - Q-Q-Plot Basisverdienst Brutto Abb. 4.8 - Trendbereinigter Q-Q-Plot Basisverdienst Brutto
Qq-plot-basisverdienst-brutto.png Trendbereinigter-qq-basisverdienst-brutto.png

Mögliche Ausreißer nach oben wurden durch das Topcoding bereits bereinigt. Da auch sehr geringe Einkommen möglich sind, kann davon ausgegangen werden, dass die Variable "Basisverdienst Brutto" keine Ausreißer enthält. Dies ist der Fall, da die im Datensatz vorhandenen Verdienste von Auszubildenden und geringfügig Beschäftigten, wie auch von Praktikanten und Praktikantinnen, in vielen Fällen sehr gering sind und entsprechend der Fehlerbalkendiagramme signifikant niedriger als die Verdienste der jeweils anderen Gruppe. (Vgl. Rönz (2001), S. 139 ff.)

Der Nettoverdienst wird analog zum Bruttoverdienst aus den vorhandenen Variablen berechnet. Im Datensatz sind, wie oben beschrieben, nur sinnvolle Werte für den Wirtschaftssektor 1 vorhanden. Insofern wird aus dem Bruttomonatsverdienst mit Hilfe der Variable der Nettomonatsverdienst gebildet, anschließend mit diesem und der Variable der Mehrarbeitsverdienst Netto berechnet und nachdem dieser vom Nettomonatsverdienst abgezogen wurde, erhalten wir die Variable "Basisverdienst Netto 1" als Nettomonatsverdienst ohne Mehrarbeitsverdienst für den Wirtschaftssektor 1. Das Histogramm zeigt die Verteilung und die Ähnlichkeiten mit der Verteilung des "Basisverdienst Brutto". Beim Bruttoverdienst sind die Unterschiede zwischen den drei Bereichen: Verdienste von geringfügig Beschäftigten, von "Durchschnittsverdienende" und "überdurchschnittlichen hohen Verdienste" jedoch wesentlich deutlicher. Beim Nettoverdienst, also nach Abzug der Steuern, sind diese gerade bei den hohen Verdiensten nicht mehr so auffällig. Dies ist auf das progressive Steuermodell in Deutschland zurückzuführen. Wieder zeigen die Q-Q-Plots, dass eine Normalverteilung nicht anzunehmen ist (Abb. 7.9), (Abb. 7.10).

Abb. 4.12 - Histogramm Basisverdienst Netto 1