Datenanalyse zu PISA 2000 - welche Faktoren haben einen Einfluss auf die Lesekompetenz?

From Teachwiki
Jump to: navigation, search

Einleitung[edit]

Im Rahmen des Kurses "Computergestützte Statistik" im Sommersemester 2008 wurde die Aufgabe gestellt, die besprochenen statistischen Analysemethoden anhand eines selbst gewählten Datensatzes anzuwenden.

Die ausgewählten statistischen Methoden der Datenanalyse wurden mit Hilfe des Statistikprogramms SPSS durchgeführt.

Zunächst wird der gewählte Datensatz beschrieben und eine Bereinigung der Daten vorgenommen. Im ersten Teil der Auswertung wird eine Zusammenhangsanalyse unter Verwendung verschiedener Korrelationsmaße durchgeführt. Danach folgt eine Regressionsanalyse. Abschließend erfolgt eine Analyse auf Reliabilität und Homogenität.

Datensatz[edit]

Der analysierte Datensatz zu der PISA Studie („Programme for International Student Assessment“) aus dem Jahre 2000 stammt von der KMK(ständige Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland).

Der Datensatz enthält 34.561 Fälle und 1.847 Variablen und teilt sich in die internationale PISA Stichprobe und die nationale PISA-E (Ergänzungsstichprobe) Stichprobe. Die Leistungswerte der Schüler sind in dem Datensatz auf internationaler Metrik (Mittelwert=500, Standardabweichung=100) skaliert, so dass internationale Vergleiche mit den Ergebnissen der Bildungssysteme anderer Länder möglich sind.

In der Erhebung im Jahr 2000 liegt der Schwerpunkt auf der Lesekompetenz. Daher soll auch in dieser Analyse der Schwerpunkt auf der genaueren Untersuchung dieses Bereiches liegen.

Variablen[edit]

In der folgenden Arbeit soll beantwortet werden, welche Variablen einen signifikanten Einfluss auf die Lesekompetenz ausüben und ob hieraus Rückschlüsse auf die Kompetenz in den Bereichen Mathematik und Naturwissenschaften gezogen werden können.

Die Reliabilitäts- und Homogenitätsanalyse soll Aufschluss darüber bringen, mit welchen Variablen sich die pädagogische Qualifikation der Lehrkräfte beschreiben lässt.

Der Fokus liegt hierbei auf den Variablen:

  • Reading Literacy (Lesekompetenz)

gebildet als arithmetisches Mittel aus den erreichten Punktzahlen in den erhobenen Teilkompetenzen: Informationen ermitteln, textbezogenes Interpretieren und Reflektieren & Bewerten

  • besuchte Schulform

es wird unterschieden zwischen Hauptschule, Realschule, integrierte Gesamtschule, Sonderschule, Berufsschule und Gymnasium

Da in dieser Analyse die Untersuchung des Einflusses der nominalskalierten Variablen Schulform auf die Lesekompetenz einen wesentlichen Teil darstellen wird, soll diese Variable auch in die Regressionsanalyse mit aufgenommen werden. Eine wesentliche Voraussetzung zur Durchführbarkeit einer Regressionsanalyse ist, dass metrisch skalierte Variablen vorliegen. Da dies hier nicht gegeben ist, wird die Möglichkeit genutzt, die einzelnen Ausprägungen der Variable Schulform binär zu kodieren (z.B. für Gymnasium bedeutet 1= besuchte Schulform ist Gymnasium und 0= besuchte Schulform ist kein Gymnasium).

  • Anzahl der Bücher, die der Schüler zuhause hat

liegt als klassierte metrische Variable vor

  • Lesegeschwindigkeit

liegt als metrische Variable vor


Für die Reliabilitäts- und Homogenitätsanalyse werden Persönliche Aussagen der Schüler zu ihren Lehrkräften und ihrer Schule verwendet.


Angelehnt an die Auswertung der PISA Studie durch die OECD wird von mir eine zusätzliche Variable erstellt, die die erreichte Gesamtpunktzahl zusammengefasst in Kompetenzstufen (I-V) darstellt. Hierbei stellt Kompetenzgruppe I die Gruppe mit der geringsten erreichten Gesamtpunktzahl im Lesen dar. Die Kompetenzgruppe V ist diejenige Gruppe mit der höchsten Gesamtpunktzahl. Die Abstufungsgrenzen (gemessen an der erreichten Gesamtpunktzahl) und die Beschreibung der jeweiligen Kompetenzstufe (in Klammern) habe ich von der OECD übernommen [1]. Eine Ausnahme hiervon bildet Kompetenzstufe I, welche von der OECD erst ab einer erreichten Gesamtpunktzahl von 335 Punkten definiert wird. Um im Zuge der Variablentransformation dennoch den gleichen Stichprobenumfang wie bei der Ausgangsvariablen Reading Literacy beizubehalten und auch diejenigen SchülerInnen in die Analyse aufzunehmen, die eine geringere Punktzahl erreicht haben, habe ich die Abstufungsgrenze entsprechend erweitert.

Die Abstufungen sind wie folgt:

  • Kompetenzstufe I (oberflächliches Verständnis einfacher Texte) (bis 407 Punkte)
  • Kompetenzstufe II (Herstellen einfacher Verknüpfungen) (408 – 480 Punkte)
  • Kompetenzstufe III (Integration von Textelementen und Schlussfolgerungen) (481 – 552 Punkte)
  • Kompetenzstufe IV (Detailliertes Verständnis komplexer Texte) (553 – 625 Punkte)
  • Kompetenzstufe V (Flexible Nutzung unvertrauter, komplexer Texte) (über 625 Punkte)

Die Bildung von Kompetenzstufen ermöglicht die Verwendung zusätzlicher Zusammenhangsmaße (z.B. Kontingenztabelle) und soll hier als eine ergänzende Betrachtungsweise genutzt werden, welche hinsichtlich der Interpretation der Ergebnisse hilfreich sein kann. Dennoch ist zu berücksichtigen, dass eine Klassierung von Daten immer einen Informationsverlust darstellt.

Auswertung[edit]

Datenbereinigung[edit]

Die einzelnen Fälle wurden zunächst auf Plausibilität der Werte geprüft. Es wurden alle Fälle herausgenommen, bei denen eine negative Ergebnispunktzahl vorlag, da diese Werte die Analyse verzerren würden. Des Weiteren gab es Fälle in dem Datensatz mit exakt den gleichen Werten für alle Variablen, was möglicherweise auf Eingabefehler zurückzuführen ist. Um einer Verzerrung der Analyse vorzubeugen, wurden diese Fälle eliminiert. Nach der Elimination liegen 33.808 Fälle zur weiteren Datenanalyse vor.

Verteilung[edit]

Zur Überprüfung, ob die Variable Reading Literacy normalverteilt ist, wird zunächst ein Histogramm erstellt.

Abb. 1 - Histogramm


Die Betrachtung des Histogramms zeigt, dass eine Abweichung von einer Normalverteilung wahrscheinlich ist. Zur Überprüfung dieser Vermutung wird der nichtparametrische Kolmogorov-Smirnov-Test angewandt. Die Verteilung der Variablen wird auf Normalverteilung getestet.

Tab. 1 - Kolmogorov-Smirnov Test auf Normalverteilung

Da der Signifikanzwert (0,000) geringer ist als das Signifikanzniveau (alpha= 0,05), muss die Nullhypothese (Ho: die Grundgesamtheit ist normalverteilt) abgelehnt werden.

Der Test auf Normalverteilung dient der Vollständigkeit einer Datenanalyse. Da eine Normalverteilung der abhängigen Variablen Reading Literacy bei den hier angewendeten statistischen Methoden jedoch keine Voraussetzung darstellt, werden keine weiteren statistischen Tests zur Auswirkung der nicht normalverteilten Variable durchgeführt.

Zusammenhangsanalyse[edit]

Kompetenzen Lesen, Mathematik und Naturwissenschaften[edit]

Zur Beantwortung der Frage, ob Rückschlüsse von der Lesekompetenz auf die Kompetenz in den Bereichen Mathematik und Naturwissenschaften gezogen werden können, soll im Folgenden untersucht werden, ob Abhängigkeiten zwischen diesen Variablen bestehen.

Um einen ersten Eindruck zu gewinnen, wird zur grafischen Darstellung ein Matrix-Streudiagramm verwendet. Das Streudiagramm zeigt den Zusammenhang zweier Variablen untereinander. Die Betrachtung des Diagramms lässt eine positive Abhängigkeit der Variablen untereinander vermuten.

Abb. 2 - Scatterplot Matrix: Zusammenhang der Kompetenzen

Um dies zu quantifizieren, wird ein Korrelationsmaß verwendet. Da die Variablen zwar intervallskaliert sind, aber keine Normalverteilung vorliegt, wird der Rangkorrelationskoeffizient nach Spearman angewendet.

Tab. 2 - Spearman-Korrelationskoeffizient


Die Ergebnisse zeigen, dass eine hohe Korrelation zwischen der erreichten Gesamtpunktzahl der Kompetenzen Lesen und Mathematik (0,812), Lesen und Naturwissenschaften (0,856) sowie zwischen Mathematik und Naturwissenschaften (0,786) besteht (signifikant auf einem Signifikanzniveau von alpha=1%).

Die Analyse mit Hilfe der Scatterplotmatrix sowie dem Spearman-Korrelationskoeffizienten zeigt, dass starke Abhängigkeiten zwischen den einzelnen Kompetenzen bestehen und dass tendenziell Rückschlüsse von der Lesekompetenz auf die Kompetenz in Mathematik und in den Naturwissenschaften gezogen werden können. Im weiteren Verlauf möchte ich den Fokus auf die Lesekompetenz legen.

Besuchte Schulform und erreichte Kompetenzstufe Lesen[edit]

Es gilt zu untersuchen, ob ein statistisch signifikanter Zusammenhang zwischen der besuchten Schulform und der erreichten Kompetenzstufe im Bereich Lesen besteht.

Hierzu wird zunächst eine Kontingenztabelle erstellt, die die nominalskalierte Variable Schulform den ordinalskalierten Kompetenzstufen im Bereich Lesen gegenüberstellt. Die erreichte Kompetenzstufe Lesen wird in dieser Analyse als abhängige Variable von der Schulform betrachtet.

Die Kontingenztabelle zeigt die beobachteten und erwarteten Häufigkeiten und die prozentualen Werte, zeilen- und spaltenweise sowie die Gesamtprozentwerte

Tab. 3 - Kontingenztabelle: besuchte Schulform/Kompetenzstufe Lesen

Die Auswertung der Kontingenztabelle zeigt, dass Abhängigkeiten zwischen der erreichten Kompetenzstufe und der besuchten Schulform vorliegen.

Besonders hervorzuheben sind die folgenden Ergebnisse:

  • 89% der Hauptschüler erreichen nur die Kompetenzstufe I oder II, im Vergleich zu 6,7% der Gymnasiasten.
  • 93,3% Prozent der Gymnasiasten erreichen dagegen Kompetenzstufe III, IV oder V, dagegen nur 11% der Hauptschüler.
  • Betrachtet man die Gruppe derjenigen, die nur die Kompetenzstufe I erreichen ist festzustellen, dass davon 46,6% die Hauptschule besuchen und nur 1 % das Gymnasium.
  • Betrachtet man die Gruppe derjenigen, die die Kompetenzstufe V erreichen, ist festzustellen, dass davon 83,9% das Gymnasium besuchen und nur 0,2 % die Hauptschule.

Voraussetzung zur weiteren Auswertung der Kontingenztabelle durch den Chi-Quadrat-Unabhängigkeitstest ist, dass die erwarteten Häufigkeiten (ê) größer 1 sind, und nur bei maximal 20% der Felder eine erwartete Häufigkeit ê<5 vorliegt. Des Weiteren müssen alle Zeilen- und Spaltensummen größer als null sein. Die Betrachtung der Kontingenztabelle belegt, dass diese Voraussetzungen erfüllt sind. Der Chi-Quadrat Test nach Pearson überprüft die Unabhängigkeit der beiden Variablen der Kontingenztabelle und liefert damit indirekt eine Aussage über den Zusammenhang der Variablen.

Tab. 4 - Chi²-Unabhängigkeits Test nach Pearson

Das Ergebnis des Chi-Quadrat Tests zeigt, dass die Abhängigkeit signifikant ist (0,000<0,05(alpha)). Daraus folgt, dass die Nullhypothese, dass die Variablen Schulform und erreichte Kompetenzstufe Lesen unabhängig voneinander sind, abgelehnt wird. Alternativ zum Chi-Quadrat-Unabhängigkeits Test, kann der Likelihood-Quotienten-Chi-Quadrat Test angewendet werden. Da es sich um eine große Stichprobe handelt, zeigt die Teststatistik des Likelihood-Quotienten Tests einen ähnlich hohen Wert in der Teststatistik wie der Chi-Quadrat Test und ist ebenfalls signifikant. Das Maß Linear-Linear darf nicht evaluiert werden, da es sich hier nicht um metrische Daten handelt.

Um den Grad der Abhängigkeit zwischen diesen Variablen zu messen, eignet sich das Zusammenhangsmaß Cramer’s V für nominalskalierte Variablen. Die Werte des Cramer’s V liegen im Bereich 0 bis 1 (0=vollständige Unabhängigkeit, 1=vollständige Abhängigkeit). Da die Variablen nominalskaliert sind, kann keine Aussage über die Richtung des Zusammenhangs geliefert werden. Das Assoziationsmaß Cramer’s V basiert, wie auch die, für dieses Beispiel jedoch ungeeigneten Maße Phi und der Kontingenzkoeffizient, auf der Chi Quadrat-Teststatistik.

Tab. 5 - Cramer's V

Der der Tabelle zu entnehmende Wert 0,357 zeigt, dass eine mittelstarke Assoziation zwischen der Variablen Schulform und den Kompetenzstufen Lesen vorliegt, signifikant auf dem Signifikanzniveau alpha=0,05.

Besuchte Schulform und Reading Literacy[edit]

Zur Messung der Stärke des Zusammenhangs zwischen einer abhängigen metrischen Variable und einer unabhängigen nominalskalierten Variable, eignet sich das asymmetrische PRE-Maß Eta², dass hier auf die Variablen Reading Literacy (metrisch skaliert) und die besuchte Schulform (nominal skaliert) angewendet werden soll.

Tab. 6: PRE-Maß Eta²

Die Auswertung durch SPSS liefert einen Wert von 0,438. Dieser Wert besagt, dass der Vorhersagefehler für den Testscore Lesen um 43,8% reduziert werden kann, wenn auch die Ausprägung der Variablen Schulform bekannt ist.

Regressionsanalyse[edit]

Im Folgenden soll eine multiple Regressionsanalyse durchgeführt werden, um ein Modell zu erstellen, dass die Einflussvariablen auf die Variable "Reading Literacy", ermittelt durch die erreichte Punktzahl im Bereich Lesen, umfassend beschreibt. Die Variable Reading Literacy wird hierbei als abhängige Variable in die Regressionsanalyse aufgenommen. Als erklärende Variablen sollen die folgenden Variablen verwendet werden:

  • Lesegeschwindigkeit
  • Anzahl der Bücher, die der Schüler zuhause hat
  • Schulform

Die Variable "Anzahl Bücher" und "Lesegeschwindigkeit" sind metrisch skaliert. Die Variable "Anzahl Bücher" liegt in klassierter Form vor.

Die Variable Schulform ist eine nominal skalierte Variable, die aufgrund dieser Eigenschaft ungeeignet für eine Regressionsanalyse ist. Da davon ausgegangen werden muss, dass die Abstände zwischen den einzelnen Schulformen ungleich ist, kann auch durch Erstellung einer Ordnung der verschiedenen Ausprägungen, keine adäquate Aufnahme dieser Variablen in die Regressionsanalyse erreicht werden. Da die Analyse einer Abhängigkeit der Lesekompetenz von der Schulform aber einen wesentlichen Teil dieser Analyse darstellt, wurden die Ausprägungen der Variablen „Schulform“, wie bereits oben erwähnt, binär kodiert, um den Einfluss der einzelnen Ausprägungen dieser Variable auf die Variable „Reading Literacy“ zu ermitteln.

Die Ausprägungen der Variablen Schulform sind:

  • Gymnasium
  • Hauptschule
  • Realschule
  • Gesamtschule
  • Sonderschule
  • Berufsschule


Zunächst wurde die Regressionsanalyse ausschließlich mit den binär kodierten Ausprägungen der Variablen Schulform durchgeführt. Das Ergebnis zeigt anhand der Koeffizienten, dass der Einfluss der Variablen auf die Lesekompetenz, bezüglich der Richtung und der Stärke des Einflusses, unterschiedlich ist.

Tab. 7-Koeffizienten

Der Besuch eines Gymnasiums, einer Realschule und einer Gesamtschule zeigt in dieser Analyse einen positiven Einfluss auf die Lesekompetenz. Einen negativen Einfluss haben dagegen der Besuch einer Hauptschule und einer Berufsschule. Die Variable „Sonderschule“ wurde aufgrund fehlender Korrelationen von SPSS eliminiert.

Hinsichtlich der relativen Bedeutung der Variablen für die Lesekompetenz lässt sich bei Betrachtung der standardisierten Koeffizienten sagen, dass die Variable „Gymnasium“ eine doppelt so starke Bedeutung für die ermittelte Lesekompetenz hat (0,543) im Vergleich zur Variablen „Hauptschule“ (-0,279), wobei der Einfluss des Besuches eines Gymnasiums sich positiv und der Besuch einer Hauptschule negativ auf die Lesekompetenz auswirkt. Der Besuch einer Realschule hat, wie auch das Gymnasium, einen positiven Einfluss auf die Lesekompetenz, dennoch ist die relative Bedeutung für die Lesekompetenz weitaus geringer (0,135). Alle in die Regressionsanalyse aufgenommenen Koeffizienten haben, wie der Tabelle zu entnehmen ist, einen signifikanten Einfluss auf die Lesekompetenz, dennoch ist dieser bei den Variablen „Berufsschule“ und „Gesamtschule“ nur von geringer Bedeutung.

Durch dieses Modell lassen sich mit den binärkodierten Ausprägungen der Variable „Schulform“ 43,8% (Adjusted R²) der Gesamtvarianz erklären.

Tab. 8-Modellzusammenfassung: Schulformen

Nachdem gezeigt werden konnte, dass die Schulformen einen unterschiedlichen Einfluss auf die ermittelte Lesekompetenz aufweisen, soll die multiple Regressionsanalyse nun um die Variabeln „Anzahl Bücher“ und die „Lesegeschwindigkeit“ erweitert werden. Die Analyse zeigt, dass durch diese Modellerweiterung ein zusätzlicher Anteil der Gesamtvarianz erklärt werden kann, welcher nun bei 51,0% (Adjusted R²) liegt.

Tab. 9-erweiterte Modellzusammenfassung

Den größten Erklärungsbeitrag zur Varianz der ermittelten Lesekompetenz leisten die Variablen Gymnasium (+0,401), Hauptschule (-0,246), die Lesegeschwindigkeit (+0,221) und die Anzahl der Bücher zuhause (+0,163) (siehe Tabelle: standardisierte Koeffizienten). Es ist anzumerken, dass die Variable „Gesamtschule“ in diesem Modell keinen statistisch signifikanten Einfluss hat und daher nicht weiter berücksichtigt wird.

Tab. 10-Koeffizienten (erweitertes Modell)

Der signifikante Einfluss aller aufgenommenen erklärenden Variablen, mit Ausnahme der „Gesamtschule“, wird durch die Betrachtung der Konfidenzintervalle bestätigt, da diese sich jeweils ausschließlich im positiven oder negativen Bereich befinden und die Intervalle nicht die „Null“ beinhalten.

Eine Annahme zur Durchführbarkeit einer Regressionsanalyse lautet, dass die Residuen zufällig (nicht systematisch) auftreten und normalverteilt sind. Für diese Überprüfung sollen die unter SPSS verfügbaren grafischen Instrumente, das Histogramm und der Wahrscheinlichkeitsplot (P-P) herangezogen werden.

Das Histogramm lässt eine Normalverteilung der standardisierten Residuen vermuten.

Abb. 3-Histogramm: Verteilung der standardisierten Residuen

Auch der Wahrscheinlichkeitsplot (P-P), der die beobachteten und die erwarteten standardisierten Residuen einander gegenüberstellt, zeigt, dass die Werte annähernd auf der 45° Linie liegen, wonach sie einander nahezu entsprechen.

Abb. 4-Wahrscheinlichkeitsplot der beobachteten und erwarteten standardisierten Residuen

Anhand der grafischen Instrumente kann daher davon ausgegangen werden, dass die Residuen normalverteilt sind und diese Annahme für die Durchführbarkeit einer Regressionsanalyse erfüllt ist.


Abb. 4a -Kolmogorov-Smirnov Test auf Normalverteilung der standardisierten Residuen

Um diesen Eindruck zu überprüfen, kann mit dem Kolmogorov-Smirnov Test ein statistischer Test auf Normalverteilung durchgeführt werden. Dieser zeigt, dass die Nullhypothese, dass die Residuen normalverteilt sind, auf einem Signifikanzniveau von 5% abgelehnt werden muss.

Da der Kolomogorov-Smirnov Test aufgrund seiner Konzeption, bei großen Stichproben, wovon hier ausgegangen wird, eine Normalverteilung auch bei nur geringfügigen Abweichungen statistisch ablehnt, wird aufgrund der Analyseergebnisse anhand der herangezogenen grafischen Instrumente dennoch eine Normalverteilung der Residuen angenommen.

Tab. 11a- Überprüfung von Multikollinearität

Zur Überprüfung von Multikollinearität werden die Varianz der Regressionskoeffizenten (VIF), die Varianzanteile sowie der Condition Index herangezogen.

Die Werte im Condition Index deuten darauf hin, dass Abhängigkeiten zwischen den Variablen bestehen. Auch die Analyse der Varianzanteile zeigt anhand der hohen Werte in den einzelnen Zeilen, dass eine enge Beziehung zwischen einzelnen Variablen besteht, welche für die Einschätzung von Multikollinearität berücksichtigt werden muss.

Tab. 11b- Überprüfung von Multikollinearität

Der VIF liegt bei allen Variablen zwischen 1,0 und 2,2. Zum Ausschluss von Multikollinearität wird hier von einem Richtwert von VIF<10 ausgegangen, so dass nach diesem Kriterium keine Multikollinearität vorliegt und damit eine Durchführbarkeit der Regressionsanalyse gegeben ist.

Die Überprüfung der Normalverteilung der Residuen und der Ausschluss von problematische Multikollinearität befürwortet das weiter oben beschriebene Modell, welche mit 51% die Variation der Variable "Reading Literacy" mehrheitlich erklären kann.

Dennoch sei hier erwähnt, dass zur Analyse der nominal skalierten Variable Schulform anstatt einer Regressionsanalyse die Durchführung einer einfaktoriellen Varianzanalyse empfohlen wird. Die, in diesem Kurs nicht behandelte, Varianzanalyse stellt in diesem Fall eine statistisch sinnvollere Analysemethode zur Ermittlung des Einflusses der Schulform auf die Lesekompetenz dar, da die hier als unabhängige Variable (Schulform) nominalskaliert ist und die abhängige Variable (Reading Literacy) metrisch skaliert vorliegt.

Reliabilitätsanalyse[edit]

Es soll das theoretische Konstrukt „pädagogische Qualifikation der Lehrer“ durch eine synthetische Variable gemessen werden. Hierzu wird die Reliabilitätsanalyse verwendet, die überprüft wie zuverlässig diese Messung ist. Hierbei wird angenommen, dass die synthetische Variable durch die Summe der verwendeten Items gemessen werden kann. Es wird davon ausgegangen, dass jedes Item einen Beitrag zur synthetischen Variablen leistet.

Die zur Analyse herangezogenen Items sind dem Fragebogen der PISA Studie (2000) entnommen. Die Items wurde von den Testpersonen auf einer 5-Punkt Skala (1= stimmt gar nicht, 5= stimmt ganz genau) beantwortet.

  • „Ich gehe gern in meine Schule“ (Q01)
  • „Unsere Lehrer/innen reden mit uns, wenn uns etwas nicht gefällt.“ (Q02)
  • „Unsere Lehrer/innen geben ihre Fehler zu.“ (Q03)
  • „Unsere Lehrer/innen gestalten den Unterricht interessant und spannend.“ (Q04)
  • „Ich fühle mich in unserer Schule gut aufgehoben.“ (Q05)
  • „Insgesamt habe ich zu den meisten Lehrerinnen und Lehrern volles Vertrauen.“ (Q06)
  • „Unsere Lehrer/innen interessiert, dass wir wirklich etwas lernen.“ (Q07)
  • „Unsere Lehrer/innen haben Verständnis für unsere persönlichen Probleme.“ (Q08)


Tabelle 12 - Korrelationsmatrix

Aus der Korrelationsmatrix ist ersichtlich, dass ausschließlich positive Korrelationen zwischen den Items bestehen, wodurch gezeigt wird, dass alle Items einen erklärenden Beitrag zur synthetischen Variablen leisten.



Der Tukey’s Test auf Nichtadditivität überprüft, die zu anfangs getroffene Annahme, dass die Summe der Items zusammen die synthetische Variable bildet. Aus der ANOVA Tabelle ist ersichtlich, dass die Nullhypothese (H0: Es bestehen keine multiplikativen Wechselwirkungen zwischen den Items), nicht verworfen werden kann (0,119>0,05). Es kann also im Weiteren davon ausgegangen werden, dass die Summe der Items gemeinsam die Synthetische Variable bilden.

Zur Beurteilung der Reliabilität wird in dieser Analyse Cronbach’s Alpha (Wertebereich 0<=alpha<=1) herangezogen.

Tabelle 13 - Reliabilitätsstatistik

Der Reliabilitätsstatistik ist ein Wert für alpha=0,842 zu entnehmen, welcher zeigt, dass die synthetische Variable durch alle Items gemeinsam recht zuverlässig beschrieben werden kann.

Tab. 14 - Item Total Statistik

In der Item-Total Statistik ist zu überprüfen, ob durch eine Herausnahme bestimmter Items eine größere Reliabilität erreicht werden kann. Dies ist nicht der Fall, weshalb die Bildung der synthetischen Variablen, zur Messung des theoretischen Konstrukts „pädagogische Qualifikation der Lehrer“, durch die einbezogenen acht Items als reliabel angesehen werden kann.

Homogenitätsanalyse[edit]

Dem vorangegangen Abschnitt kann entnommen werden, dass die Messung des theoretischen Konstrukts „pädagogische Qualifikation der Lehrer“ durch die gebildete synthetische Variable aus den oben aufgeführten 8 Items als zuverlässig angesehen werden kann.

Zu den Voraussetzungen für eine Homogenitätsanalyse zählt, dass metrische Variablen vorliegen. Dies ist hier nicht der Fall, da nur eine Ordnungsrelation vorliegt. Ich gehe dennoch von der Durchführbarkeit der Homogenitätsanalyse aus, da ich annehme, dass der Abstand der Skalenwerte gleich ist. In der folgenden Homogenitätsanalyse soll untersucht werden, ob durch die einbezogenen acht Items nur genau ein theoretisches Konstrukt gemessen wird. Es wird hierzu die Faktorenanalyse mit dem Verfahren der Hauptkomponentenanalyse verwendet, das unterstellt, dass die Varianz einer Variablen vollständig durch gemeinsame Faktoren erklärt wird. Zunächst soll durch das Kaiser-Meyer-Olkin Maß (Wertebereich 0-1) überprüft werden, ob die Durchführung einer Faktorenanalyse mit diesen Items sinnvoll ist.

Tab. 15 - Kaiser-Meyer-Olkin Kriterium und Bartlett's Test

Der relativ hohe Wert von 0,876 bestätigt, dass eine Durchführung mit diesen Items grundsätzlich sinnvoll ist. Dies wird durch den ebenfalls in der Tabelle aufgeführte Bartlett’s Test gestützt, der die Nullhypothese prüft, dass die Korrelationsmatrix in der Grundgesamtheit eine Einheitsmatrix ist. Die Nullhypothese kann auf dem Signifikanzniveau (alpha=0,05) verworfen werden, da 0,000<0,05.

Als Extraktionsmethode der Fakoren soll hier das Kaiser Kriterium verwendet werden. Demnach werden alle Faktoren extrahiert, die einen Eigenwert größer als eins aufzeigen. Dieses Kriterium kann als sinnvoll erachtet werden, da so nur jene Faktoren extrahiert werden, dessen Erklärungsbeitrag an der Varianz aller Variablen höher ist als die Varianz einer standardisierten Variablen (=1).

Tab. 16 - Anteil der erklärten Varianz

In diesem Fall werden zwei Faktoren ausgewählt, die gemeinsam 61,531% der Gesamtvarianz aller Variablen. Der 1. Faktor erklärt bereits 47,917%, der 2. Faktor erklärt weitere 13,614% der Varianz.

Tab. 17 - Komponentenmatrix

Die (unrotierte) Komponentenmatrix zeigt, wie hoch die Variablen auf die ausgewählten Faktoren laden. Es ist ersichtlich, dass die Faktorladungen bis auf Variable „gern in Schule“ höher auf den 1.Faktor laden, dennoch besteht bei einigen Variablen kein eindeutiger Unterschied der Faktorladungen zwischen dem 1. und 2. Faktor.

Tab. 18 - rotierte Komponentenmatrix

Eine eindeutigere Lösung, die eine Interpretation der Faktoren erleichert, kann durch eine Rotation, hier anhand des Varimax Kriteriums, erreicht werden. Die rotierte Komponentenmatrix zeigt, dass nun die Variablen „gehe gern in meine Schule“ und „fühle mich gut aufgehoben in meiner Schule“ eindeutig höher auf den 2. Faktor laden und damit ein anderes Konstrukt beschreiben als die anderen sechs Items, die eindeutig höher auf den 1.Faktor laden. Eine mögliche Interpretation der Faktoren wäre daher: Faktor 1 erfasst das Konstrukt der pädagogische Qualifikation der Lehrkräfte, und Faktor 2 beschreibt den Grad des Wohlfühlens des Schülers in seiner Schule.

Zusammenfassung[edit]

Die Zusammenhangsanalyse hat gezeigt, dass Abhängigkeiten zwischen den unterschiedlichen Kompetenzen Lesen, Mathematik und Naturwissenschaften bestehen. Die Zusammenhangsanalyse, und auch die Regressionsanalyse im Speziellen, lässt Abhängigkeiten der erreichten Punktzahl im Bereich Lesen von der besuchten Schulform erkennen. Aufgrund des nominalen Skalenniveaus der Variablen Schulform sollten zur näheren Überprüfung weitere statistische Methoden herangezogen werden, wie z.B die Varianzanalyse. Als weitere Einflussvariablen auf die Lesekompetenz sind nach dieser Analyse außerdem die Lesegeschwindigkeit und die Anzahl der Bücher, die der/die SchülerIn zuhause hat, zu nennen.

Anhand der Reliabilitätsanalyse wurde gezeigt, dass die "pädagogische Qualifikation der Lehrer" zuverlässig durch 8 Items in dem PISA Fragebogen beschrieben werden. Die Analyse auf Homogenität dieser Items zeigt jedoch, dass neben der pädagogischen Qualifikation der Lehrer ein weiteres Konstrukt enthalten ist, dass das Vertrauen und Wohlfühlen der SchülerInnen beschreibt.

Um abschließend beurteilen zu können, welche Variablen einen signifikanten Einfluss auf die erreichte Punktzahl im Bereich Lesen, und demzufolge auf die Lesekompetenz, ausüben, ist es notwendig weitere Variablen zu untersuchen und weiterführende statistische Analysen durchzuführen.

Literatur[edit]

  • A.Bühl: SPSS 14, Einführung in die moderne Datenanalyse, 10. Auflage (2006), Pearson Studium.
  • Max-Planck-Institut für Bildungsforschung: PISA 2000 - Die Länder der Bundesrepublik Deutschland im Vergleich, Zusammenfassung zentraler Befunde (2002)[2]
  • Prof. Dr. B. Rönz: Computergestützte Statistik II, vorlesungsbegleitendes Skript (2000)
  • OECD: "Zusammenfassung zentraler Befunde", Ergebnisbericht der PISA Studie (2000)[3]