Partial-Least-Square

From Teachwiki
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Dieser Artikel wurde in der deutschsprachigen Wikipedia erstellt und in das teachwiki importiert und bearbeitet. Hierbei wurden Änderungen am Artikel von unterschiedlichen Autoren gemacht. Die Versionsgeschichte und Autorenschaft dazu ist im entsprechenden Artikel der deutschsprachigen Wikipedia zu finden.

Die Partial Least Squares (PLS) Pfadanalyse ist ein statistisches regression-basiertes Verfahren zur Schätzung von Kausalmodellen, die rekursiv sind. Die extrahierten Faktoren sollen dabei möglichst gut das Verhalten der Gesamtpopulation widerspiegeln. Das Verfahren gehört zur Familie der NILES (Nonlinear Iterative Least Squares) Methoden, die vor allem von Herman Wold 1966 entwickelt wurden[1]. Diese iterativen Verfahren bieten die Möglichkeit einer alternativen Schätzung verschiedener statistischer Methoden. Dazu zählen die Hauptkomponentenanalyse, die Kanonische Korrelationsanalyse, die Multiple Regression und die Faktorenanalyse.

Das PLS-Verfahren versucht, die tatsächlichen Fallwerte für ein Kausalmodell mit Hilfe einer Least-Squares-Schätzung genau zu prognostizieren.Dies geschieht auf Basis der Hauptkomponentenanalyse. Dabei soll möglichst viel der Varianz in den manifesten Variablen durch die latenten Variablen erklärt werden. Das Verfahren eignet sich vor allem für Analysen, bei denen ein geringer theoretischer Hintergrund besteht.

Partial-Least-Square ist ein Verfahren, dass besonders für kleinere Stichprobengrößen geeignet ist. Als Faustregel lässt sich sagen, dass die Stichprobengröße mindestens das 10-fache der komplexesten Regression betragen sollte.[2]


Das Strukturmodell[edit]

Lineare Gleichungsmodelle liegen im der PLS-Analyse zugrunde. Dabei unterscheidet man zwischen innerer und äußerer Beziehung. Die innere Beziehung (engl. inner relation) beinhaltet die Beziehungen zwischen den latenten, also nicht direkt beobachtbaren, Variablen, während die äußeren Beziehungen (engl. outer relation) die Beziehungen bzw. Pfade zwischen den manifesten, also den messbaren, Variablen und den latenten Variablen beinhaltet. Wie bei anderen Verfahren, die zur Gruppe der Strukturgleichungsmodelle gehören, zum Beispiel die Kovarianzstrukturanalyse, ist es auch bei Partial-Least-Square notwendig zunächst Kausalbeziehungen festzulegen. Dieses geschieht auf Basis von theoretischem Wisssen. Das grundlegende Modell ist in der folgenden Grafik dargestellt:

SEM PLS.JPG

In dem oben dargestellten Strukturmodell würde die minimale Stichprobengröße 40 betragen, denn das komplexeste System besteht zwischen \eta und y1,...,y4. Beim PLS- Ansatz werden die Hauptkomponenten für Matrizen X und Y getrennt geschätzt, das heißt die Schätzung erfolgt blockweise. Die Score- Matrix \xi von X ist Basis für die Schätzung der Score- Matrix \eta von Y. Zwischen den Scores der Hauptkomponenten wird somit das Regressionsmodell geschätzt. In dem allgemeinen Gleichungsmodell kann man sehen, dass die Matrizen X und Y wie folgt zerlegt werden:


x_{ih}= \lambda_{ih} * \xi_h + \epsilon_{ih} , exogene Seite


y_{jk}= \lambda_{jk} *\eta_k + \epsilon_{jk} , endogene Seite


  • \lambda ...Faktorladung
  • \epsilon ...Fehlerterme


An dieser Stelle spricht man von einem reflektiven Modell (in der Grafik: linke äußere Bezeihung). In einem reflektiven Modell wird die latente Variable durch die manifesten Repräsentiert. Geht man von einem formativen Modell (in der Grafik: rechte äußere Beziehung) aus, nimmt man an, dass die manifesten Variablen eine latente Variable bilden. Hierfür würden die Gleichungen wie folgt aussehen:


 \xi_h = \pi_{ih} * x_{ih} + \delta_h

 \eta_k = \pi_{jk} * y_{jk} + \delta_k


Wobei \pi Gewichtungen darstellt. Die innere Beziehung wird durch folgende Gleichung ausgedrückt, wobei \zeta der Fehlerterm ist:


 \eta_k = \Gamma * \xi_h + \zeta_k,


sofern es nur ein \eta im Struktugleichungsmodell gibt. Gibt es mehrere endogene latente Variablen \eta_1,...,\eta_n werden auch die Beziehungen zwischen den latenten Variablen in der Gleichung abgebildet


\eta_k = \Beta * \eta_k + \Gamma * \xi_h + \zeta_k


Dabei liegen dem Struktugleichungsmodell der PLS-Schätzung folgende Annahmen zugrunde:

  • Die latenten Variablen sind unabhängig voneinander, d.h. E[\eta\xi']=0
  • Der Erwartungswert des Fehlerterms ist ebenfalls 0, d.h. E[\zeta]=0


Für das reflektive Modell ergeben sich die folgenden Annahmen:

  • Die Erwartungswerte der Fehlerterme sind 0, d.h. E[\epsilon]=E[\delta]=0.
  • Die manifesten Variablen und die Fehlerterme sind unabhängig voneinander, d.h. E[y\epsilon]=E[x\delta]=0.


Weitere Annahmen sind:

  • Das Modell muss rekursiv sein.
  • Jede latente Variable muss mit mindestens einer anderen latenten Variable verbunden sein.
  • Jede latente Variable muss mit mindestens einer manifesten Variable verbunden sein.
  • Das Model muss eine Einheit bilden, d.h. es dürfen keine unabhängigen Submodelle bestehen.


Die Varianz in den Residuen wird bei der PLS- Schätzung zu minimieren versucht, während in anderen Verfahren, wie der Kovarianzstrukturanalyse, das Augenmerk auf die Kovarianzen der Residuen gelegt wird.


Vorgehensweise[edit]

Die Schätzung von Kausalmodellen unter Anwendung von PLS verläuft in drei Schritten. Das Ziel ist es, Schätzwerte für die latenten Variablen sowie deren Beziehungen untereinander und zu ihren jeweiligen manifesten Variablen zu erhalten. Im ersten Schritt werden die latenten Variablen aus Basis der Rohdaten geschätzt. Hierbei verläuft die iterative Schätzung in vier Teilschritten. Die erste Iteration beginnt mit dem vierten Schritt, an dem sich der erste anschließt, gefolgt vom zweiten und dritten Schritt. Alle Formeln werden für die einfache Regression vorgestellt.


Im vierten Schritt werden zunächst die latenten Variablen durch äußere Approximation geschätzt:


Y_{jk}:= f_i * \sum\limits_{n_j} \tilde{w}_{n_j} * y_{{n_j}k}


Der Skalar fi stellt dabei sicher, dass die Varianz von Y gleich 1 ist. Die äußeren Gewichte werden mit wij angegeben. Anschließend werden die inneren Gewichte vij, die zwischen +1 und -1 liegen, bestimmt. Für die Gewichte gilt, dass vij= sign cov (Yj, Yi), wenn Yj und Yi adjazent sind. Ansonsten ist vij=0.

Im dritten Teilschritt erfolgt schließlich die innere Approximation. Hier wird Yj als Annäherung der gewichteten Summe angrenzender Variablen bestimmt:


\tilde Y_j := \sum\limits_i v_{ji} Y_i


Anschließend werden die Gewichte unter Verwendung von \tilde Y_j , die in diesem Schritt als Instrumentalvariable bezeichnet wird. Dabei wird entweder eine einfache oder eine multiple Regression angewendet.


\tilde Y_{jk} = \sum\limits_{n_j} \tilde{w}_{n_j} * y_{{n_j}k} + d_{jk}


Dieses Ergebnis ist Grundlage für einen erneuten Beginn des ersten Schrittes, wodurch das Iterationsverfahren fortgesetzt. Dies geschieht jedoch nur wenn das erhaltene Ergebnis nicht konvergent ist. Ist die iterative Schätzung abgeschlossen, d.h. ist das Ergebnis konvergent, schließt sich der nächste Schritt an. Im zweiten Schritt der PLS-Schätzung werden mit Hilfe der Kleinste-Quadrate-Schätzung die Pfadkoeffizienten und Faktorladungen bestimmt. Im letzten Schritt werden durch Regression das konstante Glied und die Mittelwerte bestimmt.


Gütemaße[edit]

Aufgrund der nicht vorhandenen Verteilungsannahmen gibt es eine sehr begrenzte Anzahl an Gütemaßen für die Ergebnisse der PLS-Pfadanalyse. Eine Übersicht über die möglcihen Gütemaße soll hier kurz gegeben werden.


Für die Beurteilung des Strukturmodells

  • R2 für die latenten endogenen Variablen
  • f2-Wert für die Effektstärke des R2
  • Stone-Geisser-Kriterium


Für die Beurteilung des reflektiven Modells


Für die Beurteilung des formativen Modells

  • Signifikanz der Gewichte


Vorteile[edit]

  • Bei der PLS- Schätzung gibt es keine Verteilungsannahmen, was in der Praxis häufig vorteilhaft ist. PLS kann daher bei quasimetrischen (zum Beispiel Likert- Skala), metrischen und dichotomen Variablen problemlos angewendet werden.
  • Desweiteren eignet sich PLS auch für wesentlich kleinere Stichprobengrößen als andere Verfahren, wie zum Beispiel der Kovarianzstrukturanalyse.
  • Die PLS-Pfadanalyse eignet sich zudem für stark komplexe Modelle.
  • Im Vergleich zur Kovarianzstrukturanalyse, die in der Praxis häufiger Anwendung findet, können beim PLS-Verfahren nicht nur reflektive Beziehungen dargestellt werden, sondern auch formative. Daher ist die PLS-Pfadanalyse realistischer.
  • Die Partial-Least-Square-Pfadanalyse ist ein robustes Verfahren.


Nachteile[edit]

  • Nachteilig für die PLS- Schätzung ist zu sehen, dass die Koeffizienten der Pfade nicht so gute Schätzer sind wie bei anderen Verfahren der Strukturgleichungsmodelle. Die Konsistenz dieser Schätzung ist gegeben, sofern wir hohe Fallzahlen haben.
  • Desweiteren ist es nicht möglich viele Gütemaße zur Beurteilung der Schätzung heranzuziehen. Dies ist darin begründet, dass nur geringe Anforderungen an die Verteilung der Daten gestellt wird.


Software[edit]


Einzelnachweise[edit]

  1. Wold, H. (1966), Estimation of Principal Components and Related Models by Iterative Least Squares, in: Multivariate Analysis, ed. P. R. Krishnaiah, New York: Academic Press, Seiten 391-420.
  2. Chin, W.W./ Newsted, P.R. (1999), Structural equation modeling analysis with small samples using partial least squares, in: Hoyle, R. H. (Hrsg.), Statistical strategies for small sample research, Thousand Oaks et al., S. 326 f.


Literatur[edit]

  • Haenlein, M.; Kaplan, A.M.: A beginner's guide to partial least squares (PLS) analysis. in: Sammelwerk=Understanding Statistics, Bd.3/ Nr.4. 2004. 283-297
  • Esposito Vinzi, V.; Chin, W.W.; Henseler, J.; Wang, H. (Editors): Handbook of Partial Least Square: Concept, Methods and Applications. Berlin Heidelberg 2010. 23-82 (Englisch)
  • Chin, W.W.; Newsted, P.R.: Structural equation modeling analysis with small samples using partial least squares, in: Hoyle, R. H. (Hrsg.), Statistical strategies for small sample research, Thousand Oaks et al.. 1999. S. 326 f. (Englisch)

Weiterführende Informationen[edit]


Kategorie:Multivariate Statistik Kategorie:Regressionsanalyse

en:Partial least squares regression fr:Régression PLS