Verkaufspreisbildung im Immobiliensektor am Beispiel von Albuquerque

From Teachwiki
Jump to: navigation, search

Einleitung[edit]

Immobilien, bzw. Häuser stellen eine wichtige Anlageklasse für private Haushalte dar und haben somit auch eine entscheidende makroökonomische Bedeutung. Die Preisbildung und Preisentwicklung dieser hat somit einen beachtlichen Informationswert für potentielle Käufer, Verkäufer, sowie Banken und anderen Interessengruppen. Dieser Preis setzt sich sowohl aus mikroökonomischen Faktoren, wie auch aus makroökonomischen Faktoren zusammen. Zu letzteren gehören die derzeitige konjunkturelle Lage, der Zinssatz oder etwa die relative Knappheit an Wohneigentum. Zu den mikroökonomischen Faktoren zählen etwa die Größe des Hauses, die Größe des Grundstücks, die Lage der Immobilie, das Alter und der Zustand. Viele andere Faktoren beeinflussen den Preis aber weiter, so ist etwa die Anzahl und Größe der Zimmer, die Ausstattung des Hauses, die vorhandene Infrastruktur oder die Lärmbelästigung durch Verkehr zu nennen. Hier zeigt sich bereits, welche unterschiedlichen Charakteristika ein einzelnes Haus in sich vereint. Gleichsam wird die Unmöglichkeit des Vorhabens auch nur zwei identische Häuser zu finden deutlich.

Da jedoch diese Faktoren nicht einzeln gehandelt werden, kann deren Preis lediglich über den Verkaufspreis des Hauses als Gesamtpakets bestimmt werden. Eine Methode zur Bestimmung des Hauspreises besteht darin, ein so genanntes hedonistisches Modell (Calnea Analytics (2005), S.10.) aufzustellen. Der dahinter stehende Gedanke ist, dass der Preis eines Hauses genau durch dessen Charakteristika determiniert wird. Ein parametrisches Modell wird aufgestellt, von welchem angenommen wird, dass seine funktionale Form wie auch die einzelnen Parameterwerte korrekt sind.

In der folgenden Arbeit soll ein derartiges Modell anhand des Albuquerque Datensatzes aufgestellt werden. Im 2 Abschnitt erfolgt eine kurze Vorstellung des Datensatzes, welcher im darauf folgenden Abschnitt mit deskriptiven Mitteln analysiert wird. Eine explorative Faktoranalyse wird in Abschnitt 4 durchgeführt. Im Anschluss erfolgt eine Zusammenhangsanalyse in Form von Linearer Regression. Im letzten Abschnitt geben wir eine Übersicht bezüglich der Resultate und zeigen mögliche Schwächen der Arbeit auf.

Der Datensatz[edit]

Es wird eine Stichprobe von Verkaufspreisen von Häusern in Albuquerque, New Mexico (USA) im Zeitraum vom 15.02.1993 - 30.04.1993 betrachtet.

Albuquerque

Die resultierenden 117 Beobachtungen beinhalten dabei sowohl den Dollarpreis in Tausend des verkauften Hauses (PRICE) sowie ausgewählte Qualtitätsmerkmale dieser. Dieses sind die folgenden:

SQFT: Flaeche in Quadratfuß (metrisch)

AGE: Alter des Eigenheims (metrisch)

FEATS: Qualitätsmerkmale der Einrichtung (ordinal) (Mikrowelle, Kabelfernsehen, etc.)

NE: Lage Nord-Ost (binär) (Im Nordosten der Stadt ist die größte Wohngegend von Albuquerque. Diese ist gleichzeitig als die beste Wohngegend bekannt.

COR: Eckhaus (binär)

TAX: Grundsteuer (metrisch)

CUST}: Spezialanfertigung (binär)


Für die binären Variablen gilt, dass eine 1 das jeweilige Vorhandensein ausdrückt, bzw. eine 0 das Nicht-Vorhandensein.

Für das weitere Vorgehen, wird die Variable AGE nicht weiter beachtet. Diese scheint sich nicht signifikant auf den Preis auszuwirken und da diese bei sehr vielen Beobachtungen fehlt, können wir somit das Problem fehlender Werte umgehen. Außerdem wurden 10 Untersuchungen entfernt, bei denen die Beobachtungen nicht vollständig waren. Somit können wir mit einem Datensatz mit 107 Stichproben arbeiten.

Deskriptive Variablenanalyse[edit]

Innerhalb dieses Abschnitts soll eine deskriptive Analyse der Daten erfolgen. Dabei werden anfänglich die Verteilungen der einzelnen Faktoren bzw. des Preises und die Beziehungen zwischen diesen beiden dargestellt. Darauf aufbauend werden die Beziehungen zwischen den einzelnen erklärenden Variablen untersucht.

Eigenheimpreise

Deskriptive Statistik: PRICE N=107

Min Max Mean Std. Dev. Skewness Kurtosis JB-Test \quad p-Wert
540 2150 1077,35 383,991 1,373 4,285 40.99 0.00

Die Preise liegen hauptsächlich zwischen 700.000 und 1.300.000 Dollar, wobei es allerdings einige Ausreißer in höheren Preisklassen gibt. Somit erscheint die Verteilung rechtsschief und somit nicht normal. Dieses Ergebnis wird auch durch Betrachtung des PP-Plots sowie des QQ-Plots deutlich.

Fläche


Der Großteil der Häuser ist zwischen 1000 - 1800 Quadratfuß groß. Bei der Betrachtung der Verteilung der Variablen SQFT zeigen sich Ähnlichkeiten zu der der Variablen PRICE. Auch diese ist etwas rechtsschief und somit nicht normalverteilt.


Steuern

Auch die Variable TAX ähnelt in ihrer Verteilung stark der der Variablen PRICE und SQFT. Die Werte liegen hauptsächlich zwischen 500 und 1000 und die Verteilung erscheint rechtsschief und nicht normalverteilt.


Ausstattung

Die Variable FEATS wird innerhalb dieser Arbeit wie eine metrische Variable behandelt. Dies ist natürlich eine erhebliche Vereinfachung, jedoch erscheint es uns sinnvoll, diese als ein Maß für den Komfort in der Wohnung zu gebrauchen. Je mehr von diesen einzelnen Ausstattungsgegenständen der Immobilie enthalten sind, desto höheren Komfort bietet diese.

Bei 19 Prozent der Immmobilien handelt es sich um Eckhäuser und der Anteil der Spezialanfertigungen beträgt circa 22 Prozent. Von den betrachteten Immobilien liegen 66 Prozent, also der überwiegende Teil der Häuser im Nordosten von Albuquerque.


Beziehungen zwischen Immobilienpreis und möglichen erklärende Variablen[edit]

Im Folgenden sollen die Beziehungen zwischen der zu erklärenden Variablen PRICE und den einzelnen Faktoren untersucht werden.

Die in den vorigen Abschnitten vermutete Ähnlichkeit der Variablen PRICE, SQFT und TAX wird durch die hier dargestellten Plots bestätigt. Es erscheint eine deutliche positiv-lineare Abhängigkeit innerhalb dieser zu geben.

Eigenheimpreis vs. Ausstattung

Eine leichte Tendenz ist hier zu erkennen: In höheren Preisklassen ist tendenziell ein höherer Komfort, ausgedrückt durch die relativ hohe Anzahl von Features, zu erwarten.

Histogrammm Eigenheimpreis vs. Ausstattung

Durch die Darstellung im bedingten Histogrammm wird aber auch deutlich, dass etwa 2 - 4 Komfortmerkmale relativ häufig und in nahezu allen Preisklassen zu finden sind.


Die Preise scheinen im Nordosten, im größten Wohngebiet, tendenziell etwas höher zu sein und weisen eine größere Streuung als im Rest der Stadt auf.

Generell sind deutlich weniger Häuser Spezialanfertigungen, wobei es diese in allen Preisklassen zu geben scheint. Jedoch liegt der Preis der speziell angefertigten Häuser deutlich über dem der anderen, wie im entsprechenden Boxplot zu erkennen ist.


Eckhäuser in höheren Preisklassen sind innerhalb dieser Stichprobe nicht zu finden. Dieses kann jedoch auch an der geringen Stichprobengröße und der naturgemäß kleineren Anzahl an Eckhäusern liegen.

Korrelationsmatrix - Pearson

\quad Y, \quad x_{1}=Fläche, \quad x_{2}=Steuern


Corr=\begin{pmatrix} 
 1& 0.843& 0.858\\
 0.843 & 1& 0.876\\
 0.858& 0.876 & 1
\end{pmatrix}

Die Korrelation zwischen dem Eigenheimpreis und der Ausstattung beträgt nach Spearman (Spearman's rho hier benutzt, da die Variable FEATS primär als ordinal zu verstehen ist) 0.434.

Beziehungen zwischen möglichen erklärende Variablen[edit]

Bisher wurde lediglich der sichtbare Zusammenhang zwischen Eigenheimpreis und den X-Variablen betrachet. Nun sollen mögliche Korrelationen zwischen \quad y und \quad X und zwischen den einzelnen \quad X-Variablen aufgedeckt werden.

Als deskriptive Tools verwenden wir Scatterplots, Crosstables und Korrelationsmatrizen. Im Folgenden berechnen wir die Korrelation zwischen einer ordinal skalierten Variablen und einer weiteren ordinal oder metrisch skalierten mit Hilfe des Korrelationskoeffizienten nach Spearman. Dabei werden alle Variablen der Größe nach geordnet und es erfolgt eine Rangzuordnung von Rang 1 bis Rang n, wobei im Falle von mehreren Variablen gleicher Größe diesen das arithmetische Mittel des Ranges zugewiesen wird über welche sich diese erstrecken. Im Folgenden werden die so genannten Rangdifferenzen gebildet: \quad d_{i} = Rang(\quad x_{i}) - Rang(\quad y_{i}) Ist dieses geschehen, so ergibt sich \quad r_s aus

\quad r_{s}=1-\frac{6\cdot\sum^{n}_{i=1}d^{2}_{i}}{n(n^{2}-1)}

Für metrisch skalierte Variablen ergibt sich nach Pearson folgende Korrelationsmatrix zwischen \quad Y, \quad x_{1}=Fläche, \quad x_{2}=Steuern


Corr=\begin{pmatrix}
 1& 0.843& 0.858\\
 0.843 & 1& 0.876\\
 0.858& 0.876 & 1
\end{pmatrix}

Wie bereits an den einzelnen Scatterplots erkennbar war, zeigt sich hier eine deutliche (und signifikante) positive Korrelation zwischen den drei Variablen PRICE, SQFT und TAX.

Die Korrelationsmatrix nach Spearman zwischen \quad x_{1}=Ausstattung, \quad x_{2}=Fläche und \quad x_{3}=Steuern 
Corr=\begin{pmatrix}
 1& 0.418& 0.501\\
 0.418 & 1& 0.844\\
 0.501& 0.844 & 1
\end{pmatrix}

Genauso scheint es eine (wenn auch schwächere) positive Korrelation zwischen der Anzahl der Features und jeweils Fläche und Steuern zu geben.

Wie bereits vermutet sind auch die Variablen SQFT und TAX positiv-linear korreliert und auch bei dem Scatterplot Fläche vs. Ausstattung zeigt sich das bereits aus dem vorigen Abschnitt bekannte leicht positiv-lineare Verhalten.


Die Streuung der Variablen Fläche erscheint im Nordosten der Stadt etwas größer zu sein, jedoch kann dies auch auf die geringere Anzahl an Beobachtungen zurückzuführen sein.

Wohneigentum in Eckhäusern scheint generell kleiner in der Fläche zu sein, jedoch ist auch hier auf die geringe Größe der Stichprobe (besonders für Eckhäuser) hinzuweisen.

Nicht speziell angefertigte Häuser erscheinen eher klein von der Fläche zu sein, während Spezial- bzw. Einzelanfertigungen nahezu in jeder Größe zu finden sind.

Die Häuser im Nordosten scheinen höheren Komfortmerkmalen zu genügen als Häuser in anderen Teilen der Stadt.

In den folgenden drei Kontingenztabellen sollen die Beobachtungen für die binären Variablen CUST, COR und NE dargestellt werden. Dabei lautet die Nullhypothese, dass kein systematische Zusammenhang zwischen diesen einzelnen Variablen besteht und somit eine Gleichverteilung vorliegt.

Crosstable Erklärende Binäre Variablen

    Stichprobe   H0   Total
    NE   NE    
    0 1 0 1  
CUST 0 29 54 28 55 83
  1 7 17 8 16 24
Total   36 71 36 71 107


Crosstable Erklärende Binäre Variablen

    Stichprobe   H0   Total
    NE   NE    
    0 1 0 1  
COR 0 28 58 29 57 86
  1 8 13 7 14 21
Total   36 71 36 71 107


Crosstable Erklärende Binäre Variablen

    Stichprobe   H0   Total
    CUST   CUST    
    0 1 0 1  
COR 0 66 20 67 20 86
  1 17 4 17 5 21
Total   83 24 83 24 107


Bei dem bloßen Vergleich zwischen den realisierten und erwarteten absoluten Häufigkeiten wird deutlich, dass H0 in keinem der Fälle abgelehnt werden kann und somit die Hypothese auf Gleichverteilung für alle drei Variablen angenommen wird.

Neben der deskriptiven Statistik ist es notwendig, den Datensatz einer eingehenderen Anaylse zu unterziehen. Diesbezüglich benutzen wir zum einen die Faktoranalyse auf der Suche nach zugrundeliegenden latenten Variablen bzw gemeinsamen Strukturen in unseren erklärenden Variablen und zum anderen die Regressionsanalyse zur Darstellung des Zusammenhangs der erklärenden Variablen und den Immobilienpreisen.

Explorative Faktoranalyse[edit]

Im folgenden Unterabschnitt erfolgt eine kurze theoretische Zusammenfassung des Konzepts der Faktoranalyse, insbesondere im Hinblick auf die Rotationsverfahren Varimax und Promax, welche in der daran anschließenden empirischen Analyse unter MPlus verwendet werden.

Theoretischer Hintergrund[edit]

In der Faktoranalyse geht man davon aus, dass es eine oder mehrere Variablen gibt, die nicht beobachtbar sind, aber in den anderen Variablen zum Ausdruck kommen. Es existiert also ein Modell, welches einen großen Anteil der Variation in den X-Variablen durch eine geringe Anzahl von latenten Faktoren, Linearkombinationen der Variablen, erklärt. Die Ergebnisse der Faktoranalyse sind nie eindeutig. Es handelt sich um ein skaleninvariates Konzept.

Das standardisierte Faktormodell mit \quad Z_{k}=\frac{x_{k}-\bar{x}_{k}}{s_{k}} und \quad s_{k} als Standardabweichung der \quad k-ten Variablen) in Matrixschreibweise lautet

\quad Z \quad =FA'+UE
wobei \quad Z \quad =(N\times K) Matrix der standardisierten \quad X-Variablen
\quad A' \quad =(Q\times K) Faktorladungsmatrix der gemeinsamen Faktoren
\quad F \quad =(N\times Q) Faktorwertematrix der gemeinsamen Faktoren
\quad E \quad =(K\times K) Faktorladungsmatrix der Einzelrestfaktoren
\quad U \quad =(N\times K) Faktorwertematrix der Einzelrestfaktoren


Somit ergibt sich für jede einzelne Variable k=1,\ldots,K folgende Form

 Z_{k}  =  \sum^{Q}_{q=1}a_{kq}F_{q}+e_{k}U_{j}\quad q=1,\ldots,Q\ Faktoren

Hierbei sind die Einzelrestfaktoren mit Ladungen als Störterme zu werten, sie sind weder untereinander noch mit den gemeinsamen Faktoren korreliert.

Zu Beginn der Faktoranalyse ist die Anzahl der Faktoren nicht bekannt. In einem ersten Schritt wird die Korrelationsmatrix der standardisierten X-Variablen gebildet. Diese ergibt sich wie folgt

\quad R \quad =(Z'Z)/(n-1)
\quad =(FA'+UE)'(FA'+UE)/(n-1)
\quad =A(F'F)A'/(n-1)+A(F'U)E/(n-1)+E(U'F)A'/(n-1)+E(U'U)E/(n-1)
\quad =AA'+EE

wobei im letzten Schritt die fehlenden Korrelation der Faktoren mit sich selbst und zwischen den gemeinsamen und Einzelrestfaktoren berücksichtigt wird. Die Korrelationsmatrix ist also die Summe der quadrierten Ladungen, wobei \quad AA' als Kommunalität bezeichnet wird - der Anteil der Varianz von \quad Z, der durch alle Faktoren erklärt werden kann. Dabei muss beachtet werden, dass es Ziel der Faktoranalyse ist, die Variation in den \quad X-Variablen mit möglichst wenig Faktoren zu extrahieren.

Die Interpretation der Faktoren ist häufig nur schwer möglich. Als einen ersten Schritt kann die Korrelation zwischen den Faktoren und den einzelnen \quad X-Variablen bestimmt werden. Ferner hilft ein Plot der Faktorladungen um Strukturen aufzudecken. Diese können durch Rotation weiter verdeutlicht werden. Im Folgenden verwenden wir Varimax und Promax Rotation. Im Fall der Varimax Rotation wird an die Matrix der gemeinsamen Faktorladungen \quad A die Rotationsmatrix (Hier entsprechend dem Ergebnis für unseren Datensatz für den Fall zweier Faktoren.)


G=\begin{pmatrix}
\cos\theta & -\sin\theta\\
\sin\theta & \cos\theta
\end{pmatrix}

multipliziert, wobei \quad \theta, der Rotationswinkel, so gewählt wird, dass die Varianz der Faktorladungen


\quad V \quad =\frac{1}{K}\sum^{Q}_{q=1}\left[\sum^{K}_{k=1}(\tilde{a}^{*}_{kq})^{4}-\left(\frac{1}{K}\sum^{K}_{k=1}(\tilde{a}^{*}_{kq})^{2}\right)^{2}\right]
\quad \tilde{a}^{*}_{kq} =\hat{a}_{kq}g(\theta)_{qq}/\hat{h}^{*}_{k} mit
\quad \hat{h}^{*}_{k} \quad =\sqrt{\sum^{Q}_{q=1}\hat{a}_{kq}g(\theta)_{qq}}

maximiert wird. Bei der Varimaxrotation wird versucht, jeden Faktor nur eine kleine Anzahl von Variablen repräsentieren zu lassen. Viele Ladungen werden null. Oftmals kommt ein guter Kontrast zwischen den negativen und positiven Ladungen der einzelnen Variablen zustande.

Im Gegensatz zur orthogonalen Varimaxrotation handelt es sich bei der Promax Methode um eine schiefe Rotation, d.h. das Achsenkreuz kann im Faktorraum vollkommen neu gezogen werden. Korrelation zwischen Faktoren wird demnach erlaubt. Es wird zumeist das Ergebnis der Varimax Rotation zugrunde gelegt und mit einem Wert von 2 oder 4 potenziert, um ein bipolares Bild zu erhalten. Die Korrelationen zwischen den rotierten Achsen und den Variablen werden dann als Ladungen interpretiert.

Empirische Anwendung[edit]

Von der Faktoranalyse der \quad X-Variablen erhoffen wir uns eine Variablenreduktion bzw. das Auffinden einer oder mehrerer latenter, d.h. nicht beobachtbarer Strukturen in den Daten. Aus diesem Datensatz könnten zum Beipiel unbeobachtbare Maße für den Lebensstandard extrahiert werden, welche den Preis einer Immobilie beeinflussen.

Eine der Grundannahmen der Faktoranalyse ist das Vorhandensein von metrischen, approximativ normalverteilten Ausgangsvariablen, für die Korrelationsmatrix üblicherweise der Bravais-Pearson Korrelationskoeffizient \quad r_{ks}=\frac{1}{n-1}\sum^{n}_{i=1}z_{ik}z_{is},\quad k,s=1,\ldots K benutzt wird. Diese Annahme ist in unserem Datensatz nicht erfüllt. Deshalb führen wir die Analyse mit dem Programm MPLUS durch, welches die Faktoranalyse mit kategorialen Ausgangsvariablen durchführt. Leider werden binäre Variablen als geordnete Variablen behandelt, d.h. ein Wert von 1 wird als höher angesehen als der Wert 0. Diesbezüglich werden wir im Laufe der Analyse die Variable Eckhaus entfernen, da hier eine Art Wertung in dieser Form vollkommen abwegig ist. Ferner problematisch sind die Variablen Lage und Fertigungsart. Die Variablen PRICE, SQFT und TAX werden logarithmiert, so dass der Jarque-Bera Test auf einem Signifikanzniveau von \quad \alpha=0.05 wenigstens für die Variablen SQFT und TAX nicht länger verworfen werden kann. Eine Möglichkeit zur Prüfung der Eignung der daten für die Faktoranalyse ist das KMO (Kaiser, Meyer, Ohlin) Kriterium

 KMO=\frac{\sum\sum_{i\neq j}r^{2}_{ij}}{\sum\sum_{i\neq j}r^{2}_{ij}+\sum\sum_{i\neq j\neq k}r^{2}_{ij.k}} mit r_{ij.k}=\frac{r_{ij}-r_{ik}*r_{jk}}{\sqrt{1-r^{2}_{ik}}*\sqrt{1-r^{2}_{jk}}}

Für kleine partielle Korrelationen erhalten wir einen höheren KMO-Wert und es ist wahrscheinlich, dass die einzelnen Variablen einen gemeinsamen Faktor erklären. Dieses Kriterium wenden wir im Folgenden jedoch nicht an, da unterschiedliche Korrelationsmaße berechnet wurden und diese nicht einfach gleich bewertet werden können. Allerdings lässt sich bereits aus dem Vorhandensein hoher bivariater Korrelationen sagen, dass eine Faktoranalyse durchgeführt werden kann.

Zu Beginn führen wir eine explorative Faktoranalyse mit allen \quad X-Variablen durch, da wir keine feste Vermutung für mögliche latente Variablen haben. Könnten wir bereits im Vorfeld unsere \quad X-Variablen auf eine bestimmte Art und Weise trennen, würden wir eine konfirmative Analyse anstreben.

Der Programmcode für MPLus lautet

Mplus VERSION 3.12
MUTHEN & MUTHEN
08/07/2006   4:53 PM

INPUT INSTRUCTIONS

  TITLE: Home Prices Albuquerque 1993: EFA with categorical (ordinal and binary)
             and metric scale
  DATA: FILE IS E:\isebeamer\mva_text\homepriceln.dat;

  VARIABLE:
      NAMES ARE price
                    sqft
                    tax
                    feats
                    ne
                    cor
                    cust;

                    USEVARIABLES ARE sqft-cust;
                    CATEGORICAL ARE feats-cust;
                                        ANALYSIS:   TYPE =efa 1 2;
                                ESTIMATOR=wlsmv;

                    OUTPUT: sampstat;

Das Programm gibt zusätzlich zu den Ergebnissen der explorativen Faktoranalyse die Summary Statistics der einzelnen Variablen aus. Da wir diese aber bereits im 2. Abschnitt eingehend untersucht haben, sei hier nur der relevante Output erläutert.

  Continuous
   SQFT        TAX

  Binary and ordered categorical (ordinal)
   FEATS            NE          COR         CUST

Estimator                                                    WLSMV
Maximum number of iterations                                  1000
Convergence criterion                                    0.500D-04
Maximum number of steepest descent iterations                   20

Input data file(s)
  E:\isebeamer\mva_text\homepriceln.dat
SAMPLE STATISTICS

     ESTIMATED SAMPLE STATISTICS

           MEANS/INTERCEPTS/THRESHOLDS
              SQFT          TAX           FEATS1       FEATS2       FEATS3
              ________      ________      ________      ________      ________
      1         7.374         6.605        -2.082        -1.511        -0.822

           MEANS/INTERCEPTS/THRESHOLDS
              FEATS4       FEATS5       FEATS6       FEATS7       FEATS8
              ________      ________      ________      ________      ________
      1        -0.082         0.961         1.320         2.082         2.352

           MEANS/INTERCEPTS/THRESHOLDS
              NE1          COR1         CUST1
              ________      ________      ________
      1        -0.422         0.855         0.758

           CORRELATION MATRIX (WITH VARIANCES ON THE DIAGONAL)
              SQFT        TAX        FEATS       NE        COR      CUST
              ________   ________   ________   ________  ________ ________
 SQFT           0.088
 TAX            0.844     0.147
 FEATS          0.418     0.501
 NE             0.216     0.261      0.329
 COR           -0.002    -0.034     -0.098     -0.085
 CUST           0.637     0.594      0.341      0.093    -0.082
RESULTS FOR EXPLORATORY FACTOR ANALYSIS

           EIGENVALUES FOR SAMPLE CORRELATION MATRIX
                  1         2         3        4         5               6
              ________  ________   ________  ________  ________ ________
      1         2.819     1.076     0.936     0.595     0.425        0.147



           EXPLORATORY ANALYSIS WITH 1 FACTOR(S) :

           CHI-SQUARE VALUE               4.413
           DEGREES OF FREEDOM                 6
           PROBABILITY VALUE             0.6208

           ROOT MEAN SQUARE RESIDUAL IS        0.0649


           ESTIMATED FACTOR LOADINGS
                  1
              ________
 SQFT          -0.886
 TAX           -0.936
 FEATS         -0.527
 NE            -0.296
 COR            0.052
 CUST          -0.663


           ESTIMATED RESIDUAL VARIANCES
              SQFT      TAX       FEATS       NE       COR          CUST
             ________  ________  ________  ________  ________  ________
      1       0.214      0.124    0.722      0.912    0.997       0.560


Es stellt sich hier die Frage, ob ein gemeinsamer Faktor genügt. Dies fällt jedoch in den Bereich der Homogenitätsanalyse. Für unsere Zwecke ist der Vergleich der RMSR ausreichend. Eine allgemeine Richtlinie für die Akzeptanz des Faktormodells ist ein Wert kleiner als 0.07 für die Wurzel der mittleren quadrierten Standardabweichung. In unserem Fall liegt dieser Wert leicht unter der Grenze (0.0649). Das würde gegen die zwingende Hinzunahme eines zweiten Faktors sprechen. Trotzdem sei an dieser Stelle im Sinne des Kaiser Kriteriums - alle Eigenwerte über eins werden einbezogen - ein zweiter Faktor bereücksichtigt. Die Zwei-Faktoren Variante ergibt einen Wert von 0.0254. Die Ergebnisse lauten wir folgt

           EXPLORATORY ANALYSIS WITH 2 FACTOR(S) :

           CHI-SQUARE VALUE               0.455
           DEGREES OF FREEDOM                 3
           PROBABILITY VALUE             0.9288

           RMSEA (ROOT MEAN SQUARE ERROR OF APPROXIMATION) :
           ESTIMATE IS  0.000

           ROOT MEAN SQUARE RESIDUAL IS        0.0254

           VARIMAX ROTATED LOADINGS
                  1             2
              ________      ________
 SQFT           0.953         0.108
 TAX            0.853         0.285
 FEATS          0.372         0.641
 NE             0.161         0.420
 COR            0.006        -0.169
 CUST           0.652         0.135

           PROMAX ROTATED LOADINGS
                  1             2
              ________      ________
 SQFT           0.985        -0.049
 TAX            0.791         0.177
 FEATS          0.097         0.685
 NE            -0.026         0.463
 COR            0.088        -0.200
 CUST           0.644         0.039

           PROMAX FACTOR CORRELATIONS
                  1             2
              ________      ________
      1         1.000
      2         0.541         1.000

           ESTIMATED RESIDUAL VARIANCES
             SQFT       TAX       FEATS      NE        COR      CUST
            ________   ________  ________  ________  ________  ________
      1      0.079      0.191     0.450     0.798     0.971     0.557

Die Resultate beider Rotationsmethoden unterscheiden sich nur unwesentlich, wobei in der Promax Methode stärker zwischen den Ladungen bzgl. der einzelnen Variablen getrennt werden kann. Wie erwartet ist eine eindeutige Interpretation nicht möglich. Allerdings scheint der erste Faktor im Wesentlichen durch die Variablen Fläche, Steuern und Fertigungsart beeinflusst zu werden, während der zweite Faktor Ausstattung und Lage mit Eckhaus gegenüberstellt. Im Falle der Promax Rotation verstärkt sich dieser Eindruck. Bei der Promax Methode erscheint allerdings die Korrelation zwischen den Faktoren sehr hoch.

Da das Programm wie bereits erwähnt von geordneten kategorialen Variablen ausgeht, entfernen wir im Folgenden die Variable Eckhaus. Wie im Abschnitt 2 deutlich wurde, ist es weder logisch anzunehmen, dass die Kodierung 1 noch die Kodierung 0 eine Verbesserung darstellt (im Gegensatz zu den Variablen Lage und Fertigungsart). In der Stichprobe gibt es deutlich mehr normale Häuser als Eckhäuser aber die bedingten Verteilungen für den Preis scheinen sich nicht stark voneinander zu unterscheiden.

Der Output der Faktoranalyse ohne die Quellvariable Eckhaus, d.h. mit 5 verbleibenden Variablen bestätigt eine Extrahierung zweier Faktoren, wobei die Interpretation analog erfolgen kann. Die mittlere Standardabweichung konnte weiter reduziert werden. Die Variable COR scheint die Variation in den Variablen unnötig zu erhöhen.

Observed dependent variables
  Continuous
   SQFT        TAX
  Binary and ordered categorical (ordinal)
   FEATS       NE          CUST

Estimator                                                    WLSMV
Maximum number of iterations                                  1000
Convergence criterion                                    0.500D-04
Maximum number of steepest descent iterations                   20

           CORRELATION MATRIX (WITH VARIANCES ON THE DIAGONAL)
              SQFT          TAX           FEATS         NE            CUST
              ________      ________      ________      ________      ________
 SQFT           0.088
 TAX            0.844         0.147
 FEATS          0.418         0.501
 NE             0.216         0.261         0.329
 CUST           0.637         0.594         0.341         0.093

RESULTS FOR EXPLORATORY FACTOR ANALYSIS

           EIGENVALUES FOR SAMPLE CORRELATION MATRIX
                  1             2             3             4             5
              ________      ________      ________      ________      ________
      1         2.812         1.009         0.597         0.435         0.148


           EXPLORATORY ANALYSIS WITH 1 FACTOR(S) :

           CHI-SQUARE VALUE               4.105
           DEGREES OF FREEDOM                 3
           PROBABILITY VALUE             0.2492

           ROOT MEAN SQUARE RESIDUAL IS        0.0699

           ESTIMATED FACTOR LOADINGS
                  1
              ________
 SQFT           0.888
 TAX            0.936
 FEATS          0.526
 NE             0.295
 CUST           0.662

           ESTIMATED RESIDUAL VARIANCES
              SQFT          TAX           FEATS         NE            CUST
              ________      ________      ________      ________      ________
      1         0.212         0.123         0.723         0.913         0.561

           EXPLORATORY ANALYSIS WITH 2 FACTOR(S) :

           CHI-SQUARE VALUE               0.325
           DEGREES OF FREEDOM                 1
           PROBABILITY VALUE             0.5687

           ROOT MEAN SQUARE RESIDUAL IS        0.0223

           VARIMAX ROTATED LOADINGS
                  1             2
              ________      ________
 SQFT           0.929         0.232
 TAX            0.813         0.380
 FEATS          0.269         0.744
 NE             0.120         0.399
 CUST           0.632         0.212

           PROMAX ROTATED LOADINGS
                  1             2
              ________      ________
 SQFT           0.972        -0.025
 TAX            0.781         0.185
 FEATS          0.016         0.782
 NE            -0.019         0.427
 CUST           0.640         0.046

           PROMAX FACTOR CORRELATIONS
                  1             2
              ________      ________
      1         1.000
      2         0.561         1.000

           ESTIMATED RESIDUAL VARIANCES
              SQFT          TAX           FEATS         NE            CUST
              ________      ________      ________      ________      ________
      1         0.083         0.194         0.373         0.826         0.555

Schließt man ferner die Variablen Lage und Ausstattung aus der Analyse aus -zugegebenermaßen ist \quad K=4 sehr klein - so erhält man folgendes Ergebnis

Observed dependent variables
  Continuous
   SQFT        TAX
  Binary and ordered categorical (ordinal)
   COR         CUST

           CORRELATION MATRIX (WITH VARIANCES ON THE DIAGONAL)
              SQFT          TAX           COR           CUST
              ________      ________      ________      ________
 SQFT           0.088
 TAX            0.844         0.147
 COR           -0.002        -0.034
 CUST           0.637         0.594        -0.082

RESULTS FOR EXPLORATORY FACTOR ANALYSIS

           EIGENVALUES FOR SAMPLE CORRELATION MATRIX
                  1             2             3             4
              ________      ________      ________      ________
      1         2.393         1.003         0.452         0.152

           EXPLORATORY ANALYSIS WITH 1 FACTOR(S) :

           CHI-SQUARE VALUE               0.307
           DEGREES OF FREEDOM                 2
           PROBABILITY VALUE             0.8588

           ROOT MEAN SQUARE RESIDUAL IS        0.0284

           ESTIMATED FACTOR LOADINGS
                  1
              ________
 SQFT          -0.950
 TAX           -0.888
 COR            0.026
 CUST          -0.670

          ESTIMATED RESIDUAL VARIANCES
              SQFT          TAX           COR           CUST
              ________      ________      ________      ________
      1         0.097         0.211         0.999         0.551

Hierbei wird deutlich, dass die Variablen Steuern und Fläche einen Großteil zum Konstrukt beitragen.

Um ein gemeinsames latentes Konstrukt zu finden, welches so etwas wie ein subjektives Empfinden des Lebensstandards sein könnte, erscheint es sinnvoll, ebenfalls den Preis der Immmobilie in die Analyse einzubeziehen. Wir erhalten im Folgenden Korrelationsmatrix, Eigenwerte und Faktorladungen

          CORRELATION MATRIX (WITH VARIANCES ON THE DIAGONAL)
           PRICE     SQFT       TAX       FEATS     NE              COR        CUST
          ________  ________  ________   ________  ________  ________   ________
 PRICE     0.100
 SQFT      0.867    0.088
 TAX       0.861    0.844      0.147
 FEATS     0.471    0.418      0.501
 NE        0.242    0.216      0.261      0.329
 COR      -0.162   -0.002     -0.034     -0.098    -0.085
 CUST      0.649    0.637      0.594      0.341     0.093    -0.082

RESULTS FOR EXPLORATORY FACTOR ANALYSIS

           EIGENVALUES FOR SAMPLE CORRELATION MATRIX
                1        2         3        4         5         6        7
            ________  ________  ________  ________  ________  ________  ________
      1      3.647     1.081     0.954     0.604     0.454     0.148     0.112

           EXPLORATORY ANALYSIS WITH 1 FACTOR(S) :

           CHI-SQUARE VALUE               5.234
           DEGREES OF FREEDOM                 7
           PROBABILITY VALUE             0.6313

           ROOT MEAN SQUARE RESIDUAL IS        0.0590

           ESTIMATED FACTOR LOADINGS
                  1
              ________
 PRICE         -0.940
 SQFT          -0.898
 TAX           -0.928
 FEATS         -0.521
 NE            -0.285
 COR            0.077
 CUST          -0.672

           ESTIMATED RESIDUAL VARIANCES
            PRICE     SQFT    TAX       FEATS     NE              COR       CUST
          ________  _______  ________  ________  ________  ________  ________
      1     0.116     0.194   0.138     0.728     0.919         0.994     0.549

           EXPLORATORY ANALYSIS WITH 2 FACTOR(S) :

           CHI-SQUARE VALUE               1.675
           DEGREES OF FREEDOM                 5
           PROBABILITY VALUE             0.8919

           ROOT MEAN SQUARE RESIDUAL IS        0.0314

           VARIMAX ROTATED LOADINGS
                  1             2
              ________      ________
 PRICE          0.904         0.268
 SQFT           0.925         0.159
 TAX            0.849         0.327
 FEATS          0.352         0.608
 NE             0.132         0.462
 COR           -0.018        -0.168
 CUST           0.661         0.149

           PROMAX ROTATED LOADINGS
                  1             2
              ________      ________
 PRICE          0.883         0.105
 SQFT           0.953        -0.028
 TAX            0.797         0.186
 FEATS          0.128         0.626
 NE            -0.053         0.506
 COR            0.052        -0.191
 CUST           0.666         0.022

           PROMAX FACTOR CORRELATIONS
                  1             2
              ________      ________
      1         1.000
      2         0.536         1.000

           ESTIMATED RESIDUAL VARIANCES
             PRICE      SQFT      TAX      FEATS     NE             COR       CUST
            ________  ________  ________  ________ ________  ________  ________
      1      0.111     0.119     0.172     0.506    0.769        0.971    0.541

Ein Ein-Faktor Modell kann nicht abgelehnt werden, d.h. es gibt ein zugrundeliegendes unbeobachtbares Konstrukt, wobei Preis, Fläche und Steuern hier sehr stark einfließen. Das ganze könnte als Kosten-Größe Faktor interpretiert werden. Im Zwei-Faktoren Modell gibt es weiterhin so eine Art Komfortfaktor, bestimmt durch Ausstattung und Lage.

Aus bekannten Gründen entfernen wir die Variable Eckhaus. das Ein-Faktor Modell kann angenommen werden, obwohl wir zum Beispiel im Sinne einer Hauptkomponentenanalyse nach dem Kaiser Kriterium hier die ersten zwei Eigenwerte betrachten würden und zwei Komponenten erhielten.

           CORRELATION MATRIX (WITH VARIANCES ON THE DIAGONAL)
          PRICE     SQFT      TAX      FEATS     NE             CUST
         ________  ________  _______  ________ ________ ________
 PRICE    0.100
 SQFT     0.867    0.088
 TAX      0.861    0.844      0.147
 FEATS    0.471    0.418      0.501
 NE       0.242    0.216      0.261     0.329
 CUST     0.649    0.637      0.594     0.341   0.093


RESULTS FOR EXPLORATORY FACTOR ANALYSIS

           EIGENVALUES FOR SAMPLE CORRELATION MATRIX
              1          2        3        4         5         6
           ________   ________ ________  ________  ________ ________
     1      3.635      1.027    0.605     0.457     0.148     0.128

           EXPLORATORY ANALYSIS WITH 1 FACTOR(S) :

           CHI-SQUARE VALUE               4.926
           DEGREES OF FREEDOM                 4
           PROBABILITY VALUE             0.2944

           RMSEA (ROOT MEAN SQUARE ERROR OF APPROXIMATION) :
           ESTIMATE IS  0.047

           ROOT MEAN SQUARE RESIDUAL IS        0.0582

           ESTIMATED FACTOR LOADINGS
                  1
              ________
 PRICE          0.938
 SQFT           0.900
 TAX            0.929
 FEATS          0.520
 NE             0.284
 CUST           0.671

           ESTIMATED RESIDUAL VARIANCES
           PRICE     SQFT      TAX       FEATS     NE     CUST
         ________   ________  ________  ________  ________  _______
      1   0.119      0.190     0.137     0.729     0.919      0.549

           EXPLORATORY ANALYSIS WITH 2 FACTOR(S) :

           CHI-SQUARE VALUE               0.619
           DEGREES OF FREEDOM                 2
           PROBABILITY VALUE             0.7331

           RMSEA (ROOT MEAN SQUARE ERROR OF APPROXIMATION) :
           ESTIMATE IS  0.000

           ROOT MEAN SQUARE RESIDUAL IS        0.0187

           VARIMAX ROTATED LOADINGS
                  1             2
              ________      ________
 PRICE          0.893         0.313
 SQFT           0.905         0.235
 TAX            0.825         0.382
 FEATS          0.296         0.673
 NE             0.109         0.442
 CUST           0.650         0.193

           PROMAX ROTATED LOADINGS
                  1             2
              ________      ________
 PRICE          0.887         0.101
 SQFT           0.931         0.007
 TAX            0.783         0.201
 FEATS          0.073         0.692
 NE            -0.048         0.479
 CUST           0.659         0.033

           PROMAX FACTOR CORRELATIONS
                  1             2
              ________      ________
      1         1.000
      2         0.547         1.000

           ESTIMATED RESIDUAL VARIANCES
           PRICE    SQFT     TAX       FEATS     NE      CUST
          ________ ________ ________  ________ ________ ________
      1    0.105    0.127    0.174     0.460    0.793    0.541

Aufgrund der Skalierung einiger Variablen müssen andere Analysemethoden angewendet werden, um den Zusammenhang sinnvoll interpretieren zu können. Eine mögliche Methode ist die im nächsten Abschnitt durchgeführte Regressionsanalyse.

Regressionsanalyse[edit]

In diesem Abschnitt führen wir eine lineare Regression durch um den Zusammenhang zwischen dem Preis einer Immobilie und den vorhandenen erklärenden Variablen weiter zu quantifizieren. Hierbei ist zu beachten, dass die Variable Ausstattung als metrische Variable in die Analyse eingeht. Weiterhin sind Veränderungen in den binären Variablen nie marginaler Natur. Die Koeffizienten müssen dementsprechend interpretiert werden. Wie bereits im zweiten Abschnitt deutlich wurde, sind die einzelnen \quad X-Variablen sehr stark miteinander korreliert, was zu Multikollinearität in den Regression führen kann.

In einem ersten Schritt schließen wir alle Variablen in die Kleinste Quadrate Schätzung ein und erhalten folgenden EViews Output.

Resultat Regression mit allen erklärenden Variablen

Dependent Variable: PRICE      
Method: Least Squares      
Included observations: 107      
Variable Coefficient Std. Error t-Stat Prob
C 152.1163 62.8530 2.420192 0.0173
SQFT 0.2065 0.0614 3.3614 0.0011
FEATS 10.8393 12.9259 0.8386 0.4037
NE 3.4135 34.7250 0.0983 0.9219
CUST 154.7814 44.9154 3.4461 0.0008
COR -81.4885 40.3707 -2.0185 0.0462
TAX 0.6574 0.1042 6.3070 0.0000
Bereinigtes R^{2} 0.82      
Log likelihood -693.4458      

Residuen Regression mit allen erklaerenden Variablen

Mit Ausnahme der Variablen Lage und Ausstattung sind die Koeffizienten signifikant auf einem Signifikanzniveau von \quad \alpha=0.05 und das Modell erklärt einen Anteil von 82 Prozent der Variation im Preis der Immobilien der Stichprobe. Die binaeren Variablen Lage und die Ausstattung der Immobilie haben nur schwachen bzw. keinen Einfluss auf die Preise. Die Residuen sind allerdings nicht normalverteilt, die Kurtosis ist signifikant größer als drei und der Jarque-Bera Test lehnt die Nullhypothese Schiefe=0 und Kurtosis=3 mit einem \quad p-Wert von 0.00 kleiner als \quad \alpha=0.05 ab. Außerdem deutet alles auf Heteroskedastizität hin. Der Wert der White-Statistik Obs*R^{2}_{center}=50.48650 ist größer als der kritische Wert der Tabelle der \quad \chi^{2}-Verteilung mit \quad K-1 Freiheitsgraden (Anzahl der Regressoren ohne Konstante) bzw. der \quad p-Wert ist kleiner als \quad \alpha.(Im Folgenden werden Testoutputs und Regressionsergebnisse nur dann detailiert dargestellt, wenn es notwendig ist. Anderenfalls werden die Ergebnisse kurz genannt und können anhand des beiliegenden Eviews workfiles nachvollzogen oder betrachtet werden.). Der OLS Schätzer ist in diesem Fall zwar trotzdem konsistent, aber die Standardfehler der Koeffizienten werden falsch berechnet. Deshalb wird mit der Kovarianzmatrix von White gerechnet um robuste Fehler zu erhalten.

\Sigma_{W}=\frac{N}{N-K}(X'X)^{-1}\left(\sum^{N}_{i=1}\varepsilon^{2}_{i}x_{i}x^{'}_{i}\right)(X'X)^{-1}

wobei N die Anzahl der Beobachtungen und K die Anzahl der erklärenden Variablen ist. \quad \varepsilon> ist der Fehlerterm der KQ-Schätzung für Beobachtung \quad i.

Da wir nicht davon ausgehen dass die nicht signifikanten Variablen multiplikativ verknüpft mit anderen \quad X-Variablen signifikant in die Regression eingehen würden, werden diese Variablen und dann zusammen aus der Regressionsgleichung entfernt. Außerdem logarithmieren wir die metrischen Variablen Preis, Fläche und Steuern und erhalten folgendes Modell (White Hereoskedasticity consistent standard errors)


Resultat Regression ohne Lage und Ausstattung

Dependent Variable: PRICE      
Method: Least Squares      
Included observations: 107      
Variable Coefficient Std. Error t-Stat Prob
C 1.2365 0.4583 2.6982 0.0082
CUST 0.1143 0.0373 3.0664 0.0028
COR -0.0680 0.0364 -1.8717 0.0641
LN SQFT 0.4445 0.1142 3.8923 0.0002
LN TAX 0.3637 0.0769 4.7302 0.0000
Bereinigtes R^{2} 0.83      

Und die robuste Kovarianzmatrix der Koeffizienten ist \Sigma_{\beta,W}=\begin{pmatrix}
 &  C   & CUST  & COR   & LN SQFT   & LN TAX\\
C   & 0.210 & 0.005 &   -0.003 &    -0.045 &     0.018\\
CUST    & 0.005 &    0.001 &     0.000 &    -0.0008 &    0.000\\
COR & -0.003 &   0.000 &     0.001 & 0.0006 &   -0.000\\
LN SQFT &   -0.045 &    -0.001 &     0.001 &     0.013 &    -0.008\\
LN TAX&  0.018 & 0.000 & -0.000 &   -0.008 & 0.006\\
\end{pmatrix}


Residuen Regression ohne Lage und Ausstattung

Letztlich wird das Modell durch mögliche Interaktionsterme ergänzt. So liegt es nahe, dass beispielsweise die Größe der Immobilie und die Eckhaus-Variable bei der Preisbildung interagieren. Deshalb schätzen wir das Modell erneut mit allen denkbaren Interaktionen und eliminieren diese sukzessive mit Hilfe des \quad p-Wertes. Nach diesem Stepwise-Ansatz gelangen wir zu folgendem Modell (White Hereoskedasticity consisent standard errors)

Resultat Regression mit Interaktionen

Dependent Variable: PRICE      
Method: Least Squares      
Included observations: 107      
Variable Coefficient Std. Error t-Stat Prob
C 0.9928 0.4663 2.1293 0.0357
CUST -1.2790 0.4363 -2.9317 0.0042
COR 1.9612 1.0450 1.8769 0.0635
LN SQFT 0.5566 0.1021 5.4521 0.0000
LN TAX 0.2749 0.0701 3.9202 0.0002
(LN TAX)*CUST 0.2035 0.0657 3.0994 0.0025
(LN SQFT)*COR -0.2743 0.1436 -1.9098 0.0590
Bereinigtes R^{2} 0.85      
Log likelihood 74.57589      

Alle Variablen des Modells sind signifikant (Die Variablen COR und (LN SQFT)*COR sind bei einem \quad \alpha=0.1 signifikant und damit unserer Meinung nach Einflussfaktoren.} und das bereinigte \quad R^{2} konnte weiter auf 85 Prozent durch das Modell erklärter Varianz erhöht werden. Die robuste Varianz-Kovarianzmatrix \quad \Sigma_{\beta,W} lautet

\begin{pmatrix}
 & C    & CUST  & COR   & LN SQFT   & LN TAX &  (LN TAX)*CUST & (LN SQFT)*COR\\
C    & 0.217 &  -0.104 &    -0.157 &    -0.038 &     0.010 &     0.016 &     0.021\\
CUST    &-0.104 &    0.190 &     0.029 &     0.007 &     0.008 &    -0.029 &    -0.004\\
COR & -0.157 &   0.029 &     1.092  & 0.035 &-0.015 &-0.004 &-0.150\\
LN SQFT&    -0.038  & 0.007 & 0.035 & 0.010&    -0.006  &-0.001&    -0.005\\
LN TAX  & 0.010 & 0.008 &-0.015 &-0.006  &0.005 &-0.001 &    0.002\\
(LN TAX)*CUST    &0.016&    -0.029  &-0.004 &   -0.001  &-0.001  &0.004 & 0.001 \\
(LN SQFT)*COR    &0.021 &-0.004 &-0.150 & -0.005    & 0.002 & 0.001 & 0.021\\
\end{pmatrix}

Die Residuen der Regression sind normalverteilt. Die Nullhypothese \quad S=0 und \quad K=3 des Jarque-Bera Tests kann nicht abgelehnt (\quad p-Wert>0.05) und der QQ-Plot und die Kerndichteschätzung deuten ebenfalls nicht auf eine andere, z.B. schiefe, Verteilung hin. Weiterhin lässt sich kein systematischer Zusammenhang zwischen den Residuen und den erklärenden Variablen feststellen. Allenfalls die Variablen LN PRICE und Residuen scheinen, vermutlich bedingt durch Ausreißer oder durch das Fehlen zusätzlicher Variablen, noch eine Systematik zu besitzen.

Residuen Regression mit Interaktion


Führt man die Regression mit nicht-logarithmierten Variablen durch, müsste an dieser Stelle die Interaktion zwischen Steuern und der Fertigungsart aus der Gleichung entfernt werden, da in diesem Fall die Variable CUST nicht länger signifikant wäre und nur über Interaktionsterme in die Regression einginge (erneut rechnen wir mit White Heteroskedasticity-konsistenten Standardfehlern und Kovarianzmatrix).

Resultat Regression mit Interaktionseffekten ohne Variablentransformation

Dependent Variable: PRICE      
Method: Least Squares      
Included observations: 107      
Variable Coefficient Std. Error t-Stat Prob
C 65.6284 71.2487 0.9211 0.3592
TAX 0.3738 0.1260 2.9667 0.0038
SQFT 0.4184 0.0905 4.6240 0.0000
CUST -93.2523 79.1597 -1.1780 0.2416
COR 403.9894 153.5891 2.6303 0.0099
SQFT*COR -0.2948 0.1047 -2.8167 0.0058
CUST*TAX 0.2395 0.0929 2.5772 0.0114
Bereinigtes R^{2} 0.85      
Log likelihood -682.3566      

Die robuste Varianz-Kovarianzmatrix \quad \Sigma_{\beta,W} lautet

\begin{pmatrix}
    & C & TAX & SQFT&   CUST    &COR&   SQFT*COR&   CUST*TAX\\
C   & 5076.383 &    3.090 & -4.975 &    -2046.469 & -3896.605 & 2.584 & 3.408\\
TAX & 3.090 &   0.016 & -0.010 &    2.916 & -6.852& 0.005&  -0.004\\
SQFT&   -4.975 &    -0.010 &    0.008 & -0.072 &    5.836 & -0.004 &    -0.001\\
CUST&   -2046.469 & 2.916 & -0.072 &    6266.250 &  337.478 &   -0.239 &    -6.153\\
COR & -3896.605 &   -6.852& 5.836&  337.478 &   23589.60 &  -15.780 &   0.592\\
SQFT*COR    & 2.584 &   0.005&  -0.004 &    -0.239& -15.780&    0.011 & -0.001\\
CUST*TAX &  3.408&  -0.004 &    -0.001 &    -6.153& 0.592 & -0.001 &    0.009
\end{pmatrix}

Residuen Regression mit Interaktion ohne Variablentransformation

Deshalb führen wir einen Redundant Variable Test durch. Die Likelihood Ratio Test Statistik lautet \quad -2(l_{r}-l_{u}), wobei \quad l_{r} der logarithmierte Wert der Likelihood Funktion im restringierten Modell unter der Nullhypothese der Redundanz der zusätzlichen Regressoren, in unserem Fall \quad H_{0}: \beta_{CUST}=0 und \quad l_{u} der korrespondierende Wert unter der Alternativhypothese ist. In unserem Fall bedeutet dies \quad -2\cdot(-682.7354+682.3566)=0.7576 Die Nullhypothese kann auf einem Signifikanzniveau von \quad \alpha=0.05 nicht verworfen werden. Der Wert der Teststatistik ist kleiner als der Wert der \quad \chi^{2}-Verteilung mit einem Freiheitsgrad (\quad 3.841>0.7576) und der dazugehörige \quad p-Wert lautet 0.38. Die Variable CUST wird im Folgenden ausgeschlossen, das bereinigte Bestimmtheitsmaß verbessert sich leicht und wir erhalten die folgenden Output

Resultat Regression mit Interaktionseffekten ohne Variablentransformation

Dependent Variable: PRICE      
Method: Least Squares      
Included observations: 107      
Variable Coefficient Std. Error t-Stat Prob
C 52.5211 68.4341 0.7675 0.4446
TAX 0.4089 0.1197 3.4171 0.0009
SQFT 0.4094 0.0899 4.5530 0.0000
COR 395.1802 152.3155 2.5945 0.0109
SQFT*COR -0.2903 0.1032 -2.8137 0.0059
CUST*TAX 0.1536 0.0510 3.0143 0.0033
Bereinigtes R^{2} 0.85      
Log likelihood -682.7354      

Die robuste Varianz-Kovarianzmatrix \quad \Sigma_{\beta,W} lautet 
\begin{pmatrix}
 &  C   & TAX   & SQFT  & COR   & SQFT*COR  & CUST*TAX\\
C   & 4683.230 & 3.796 & -5.055 & -3972.023 & 2.608 & 1.498\\
TAX & 3.796 & 0.014 & -0.009 & -7.001&  0.005 & -0.001\\
SQFT    &-5.055 &   -0.009 &    0.008 & 5.945 & -0.004 & -0.001\\
COR & -3972.023 &   -7.001 & 5.945 &    23199.997 & -15.408 &   0.904\\
SQFT*COR &  2.608 & 0.005 & -0.004 &    -15.408 &   0.011 & -0.001\\
CUST*TAX &  1.498 & -0.001 &    -0.001 &    0.904 & -0.001 & 0.003
\end{pmatrix}


Residuen Regression mit Interaktion ohne Variablentransformation

Vermutlich liegt zwischen den \quad X-Variablen Multikollinearität vor. Das zeigt zum Beispiel die Signifikanz der Koeffizienten bei Regressionen zwischen den einzelnen \quad X-Variablen. Hierbei ist insbesondere ein starker linearer Zusammenhang zwischen den Variablen TAX und SQFT festzustellen. Eine der beiden Variablen auszuschließen erscheint jedoch wenig sinnvoll. Ferner sind die intuitiv nicht zu erklärenden Vorzeichen der Koeffizienten von Variablen SQFT*COR und CUST*COR ein Indikator für Multikollinearität.

Das bevorzugte Model beinhaltet in jedem Fall die Logarithmierung der Variablen PRICE, TAX und SQFT. Die Variablen LN TAX und LN SQFT sind damit annähernd normalverteilt. Die Residuen des Modells in Tabelle sind ebenfalls normalverteilt. Vergleicht man beipielsweise die Residuen der Abbildung 18 mit denen in Abbildung 19 oder 20 wird der Unterschied durch die Variablentransformation erneut sichtbar.

Alles in allem werden die logarithmierten Preise gut durch die Variablen LN SQFT, LN TAX, CUST und COR, und durch die Interaktionen (LN TAX)*CUST und (LN SQFT)*COR dargestellt.


Schlußfolgerungen[edit]

Bezüglich der Vorhersage der Immobilienpreise für den Raum Albuquerque und Umgebung lassen sich gewisse Verallgemeinerungen treffen. Anhand der deskriptiven Datenanalyse und aus den Ergebnissen der Regressionsanalyse lassen sich eindeutige Zusammenhänge zwischen den Variablen Preis und Fläche bzw. Steuern herstellen. Außerdem gibt es offensichtlich Interaktionen zwischen einzelnen erklärenden Variablen wie zum Beipiel Fläche und Fertigungsart. Es scheint einen negativen Zusammenhang zwischen der Tatsache eines Eckhauses und dem Preis zu geben, welcher hier nicht intuitiv erklärt werden kann und auf eventuelle Multikollinearität zwischen einzelnen Variablen hindeutet.

Mittels explorativer Faktoranalyse ließ sich der Datensatz mit sechs erklärenden Variablen auf einen beziehungsweise zwei Faktoren reduzieren. Die Faktoren sind allerdings schwer zu interpretieren; es gibt so etwas wie einen Größefaktor, in den primär die Variablen Fläche, Steuern (und Preis) stark einfließen. Im Zwei-Faktoren Modell finden wir außerdem so eine Komfortfaktor, bestimmt durch die in der Regression insignifikanten Variablen Ausstattung und Lage.

Anhand der Residuen der Regressionsanalyse wird allerdings deutlich, dass erklärende Variablen beziehungsweise entscheidende Informationen fehlen. Es ist nicht bekannt, welchen Einfluss Infrastruktur in Form von Erholungs-und Einkaufsmöglichkeiten, Bildungsangebote oder Verkehrsanbindung hat. Außerdem fehlen wesentliche Angaben über die Immobilie selbst; erwähnt seien hier zum Beispiel die Anzahl der Zimmer und das Vorhandensein eines Kellers oder Balkons. Wir verweisen auf den im Buch Applied Multivariate Statistical Analysis (Härdle and Simar, 1993) besprochenen Boston Housing Datensatz zum Vergleich.

Ferner wurde nur ein gewisser Zeitraum betrachtet (15.02.93-30.04.93) und für diesen Zeitraum fehlen wichtige ökonomische Variablen wie Zinssätze für Kredite, Einkommen(-sverteilung) der Bevölkerung und allgemeine wirtschaftliche Lage in der Region.

Es ist natürlich nicht möglich anhand dieses Fallbeispiels eine allgemeine Schlussfolgerung für die Preisbildung im Raum New Mexico zu ziehen. Allerdings dient diese Analyse der Bestimmung von wichtigen Faktoren bei der Bewertung von Immobilien. In einem nächsten Schritt köennten Daten über die Zeit hinweg gesammelt und analysiert werden, um eine Prognose für die Preise in Albuquerque treffen zu köennen.

Literatur[edit]

  • Calnea Analytics (2005) An Improved National House Price Index Using Land Registry Data Calnea Analytics Limited, Vol. October, pp.1-25.
  • Härdle, W. and Simar, L. (2003) Applied Multivariate Statistical Analysis Springer Berlin Heidelberg.
  • Rönz, B.: Skript Computergestützte Statistik II, 2000

Kommentare[edit]

  • Wo stammen die Daten her ? Sind die selbst erhoben worden ?
  • Deskriptive Variablenanalyse: Plots zu klein
  • Die Begründung bzgl. der Behandlung von FEATS ist ungenügend, sie ist NICHT ordinal, sondern diskret metrisch
  • Warum wurde keine Transformation der Variablen versucht, wenn die Schiefe einzelner Variablen erkannt wurde?
  • Beziehungen zwischen möglichen erklärende Variablen: Besser wäre Kendalls \tau
  • Crosstable Erklärende Binäre Variablen: Schwer zu verstehen, besser gleich den SPSS Output nehmen
  • Zshg. zwischen Unabhängigkeit und Verteilung erkannt
  • Die ordinale Faktoranalyse kann bei binären nominalen Variablen benutzt werden, bei Variablen mit mehr 2 Ausprägungen geht es nicht.
  • Interpretation der logarithmierten Werte?
  • Ein Faktor ist genug, dies würde vermutlich mit Hilfe der Parallelanalyse (die wir leider nicht behandelt haben), einer Erweiterung des Kaiser-Kriteriums, herauskommen.
  • Die zweite Begründung zur Herausnahme Variablen ist nach vollziehbar, insbesondere bzgl. der bedingten Preise.
  • Tippfehler
  • Sie haben ein bereinigtes R^2 von 0,82 bzw. 0,85; ich hätte Problem bei einer solchen kleinen Steigerung (0.85/0.82 = +3,6%) die Interaktionsterme zu verwenden