Leistungsfähigkeit von Klassifikationsmethoden bei Variablenreduktion im Rahmen einer Monte Carlo Studie

From Teachwiki
Jump to: navigation, search

Einführung[edit]

Das Anliegen dieser Arbeit ist es verschiedene Klassifikationsmethoden (mit besonderem Augenmerk auf die CART Modelle), welche in der Lehrveranstaltung Datamining von Dr. Sigbert Klinke [1] und Uwe Ziegenhagen[2] vorgestellt wurden auf ihre Klassifikationsgüte für einen praxisnahen Beispieldatensatz hin zu überprüfen und zusätzlich die Datamining Software WEKA[3] mit einigen heuristischen Klassifikationsmethoden als Vergleich heranzuziehen.
Bei dem Beispieldatensatz wurde entnommen aus "Fahrmeir / Hamerle / Tutz (1996, 2nd ed.): Multivariate statistische Verfahren. de Gruyter, Berlin. p. 390 ff.“[4] bereitgestellt durch das Institut für Statistik der Uni München [5] und lag dem Autor in ascii codierter Form vor. Für die Anwendbarkeit in WEKA mussten etliche Umformatierungen und Umkodierungen durchgeführt werden, was für die Anwendbarkeit von WEKA in der Praxis einen klaren Minuspunkt darstellt. Für die in der Lehrveranstaltung wesentlichen Klassifikationsverfahren wurde die Software R-Gui[6] verwendet. Beide Softwaredistributionen sind sogenannte Opensource-projekte und daher kostenfrei. Bei R-gui handelt es sich um eine objektorientierte Sprache und WEKA ist menügesteuert, was für eine einfachere Handhabbarkeit von WEKA spricht.
Für die deskriptive Analyse wurde zusätzlich die Software SPSS verwendet.

Beschreibung des Datensatzes[edit]

Der Name des Datensatzes lautet Kreditscoring zur Klassifikation von Kreditnehmern.
eine Detaillierte Beschreibung findet sich auf der Seite der Uni München des Institutes für Statistik[7].
Es handelt sich um 1000 Fälle von Kreditvergaben an Individuen, aber nicht nur zu privaten Zwecken einer Deutschen Bank. Es wurde die Variable kredit in den Datzensatz aufgenommen, welche angibt ob der vergebene Kredit ohne Probleme zurückgezahlt wurden(1) 700 Fälle oder nicht ordnugsgemäß zurückbezahlt(0) 300 Fälle.
Der Datensatz besteht aus kategorialen und metrischen Variablen. Die gebildeten Kategorien wurden so skaliert, das höhere Werte eine höhere Wahrscheinlichkeit für eine Rückzahlung bedeuten, also implizit eine höhere Kreditwürdigkeit. Daher handelt es sich somit um ordinale Skalen.
Zum Beispiel ist das Vorhandensein von Grundstücken, oder Wertpapieren für die Kreditwürdigkeit positiv, ebenso führt eine geringer Laufzeit und geringere Ratenhöhe in % des verfügbaren Einkommens zu weniger Problemen bei der Begleichung der Kreditverpflichtungen. Im Gegensatz dazu ist das Vorhandensein zusätzlicher Kreditverpflichtungen, Gastarbeiterstatus, schlechte berufliche Position der Kreditwürdigkeit abträglich. Diese Zusammenhänge gelten als gegeben und wurden von erfahrenen Kreditsachverständigen der Bank zugeordnet und liegen in folgender kodierten Form vor:

Variable Beschreibung Wertebereich
kredit Rückzahlung des Kredites 0-1
laufkont bestehendes lfd. Konto bei der Bank 1-4
laufzeit Laufzeit in Monaten 4-72
moral bisherige Zahlungsmoral 0-4
verw Verwendungszweck 0-10
hoehe Darlehenshöhe in DM (metrisch)
sparkont Sparkonto oder Wertpapiere 1-5
beszeit beschäftigt bei jetzigem Arbeitgeber seit 1-5
rate Ratenhöhe in % des verfügbaren Einkommens 1-4
famges Familienstand und Geschlecht 1-4
buerge Weitere Schuldner / Bürgen 1-3
wohnzeit In der jetzigen Wohnung seit 1-4
verm Höchster vorhandener Vermögenswert 1-4
alter Alter in Jahren (metrisch)
weitkred Weitere Ratenkredite 1-3
wohn Wohnung 1-3
bishkred Anzahl bisheriger Ratenkredite bei der Bank (einschließlich des laufenden) 1-4
beruf Beruf 1-4
pers Anzahl unterhaltsberechtigter Personen 1-2
telef Telefonanschluß 1-2
gastarb Gastarbeiter 1-2

Deskriptive Analyse[edit]

Abbildung 1: Darstellung von: bestehendes lfd. Konto bei der Bank und bisherige Zahlungsmoral zu Kreditrückzahlung

Für die Analyse der Klassifikation ist es wichtig zu wissen, in welchem Maße die Variablen auf die zu erklärende Größe wirken. Da es sich mehrheitlich um ordinale Größen handelt wurden hier die gruppierten Balkendiagramme für die einzelnen Variablenausprägungen dargestellt. Diese univariate Herangehensweise wird kaum dazu führen, das komplexe Problem zu lösen, macht allerdings auch die Probleme geringer Fallzahlen für bestimmte Variablenausprägungen deutlich, welche zu dem Problem des "Curse of Dimensionality" führen, welches später noch erwähnt wird, da es für nichtparametrische und somit insbesondere heuristische Verfahren ein Problem darstellen kann.


Die Stärke des multivariaten Ansatzes wird deutlich, wenn man Abbildung 1 betrachtet. Für die Kombination von nur 2 erklärenden Größen sinkt das Verhältnis von Kreditausfällen zu nicht Ausfällen drastisch ab und steigert somit die Möglichkeit einer Prognose durch ein Modell, gegenüber der univariaten Analyse.

Um einen Eindruck von der Aussagefähigkeit der metrischen Variablen zu haben wurde jeweils eine logistische Regression durchgeführt. Dies betrifft die Variablen Laufzeit, Darlehnshöhe und Alter. Es wurden die Modelle mit Parametern und Signifikanz dargestellt, aber ebenso die Prognostizierte gegen die wirkliche Klassifikation. Es zeigt sich, das keines dieser drei Modelle in der Lage ist das vorgegebene Verhältnis zu verbessern. Hierbei zeigt sich wieder die Schwäche der univariaten Analyse, denn alle Modelle sind auf den Parametern der Variable signifikant, sind allerdings zu lediglich 1% Verbesserung der Klassifikation in der Lage. Im Falle der Variable Alter wird sogar auf eine Zuweisung verzichtet und alle Variablen in eine Gruppe zugewiesen, was zu der Güte von 70 Prozent führt.

Das dies kein tragfähiger Ansatz ist, steht außer Frage, dennoch liefert uns diese Analyse eine Information über die Richtung des Zusammenhanges. Für die Variable bedeutet dies im einzelnen für höhere Kreditbeträge kommt es eher zu Problemen während ein höheres Alter des Kreditnehmers in der Regel zu weniger Problemen bei der Rückzahlung führt. Die absolute Kredithöhe scheint keinen Einfluss zu haben, da der Koeffizient null beträgt. (Anm.: Dies scheint nicht ganz plausibel, ist es auf den zweiten Blick aber durchaus, da die Kredithöhe nur als Anteil vom Vermögen oder Einkommen zu einer sinnvollen Aussage führt. Für die Deutsche Bank sind Millionenbeträge unter Umständen auch "Peanuts")

Ergebnis 1.1: Klassifizierungsergebnis durch Logit für Variable Laufzeit
Ergebnis 1.2: Logitmodel für Variable Laufzeit
Ergebnis 2.1: Klassifizierungsergebnis durch Logit für Variable Kredithöhe
Ergebnis 2.2: Logitmodel für Variable Kredithöhe
Ergebnis 3.1 : Klassifizierungsergebnis durch Logit für Variable Alter
Ergebnis 3.2: Logitmodel für Variable Alter

In der Gallerie am Ende dieses Artikels wurden die ordinalen Variablen gruppiert nach guten Krediten (grün) und schlechten Krediten (blau) dargestellt. Es sei an dieser Stelle daran errinnert, dass das Verhältnis von guten zu schlechten Krediten im Datensatz 30 zu 70 Prozent beträgt.

verwendete Klassifikationsmethoden[edit]

Da die verwendeten Klassifikationsmethoden zum Teil komplexer Natur sind und sich deren Abhandlung über ein ganzes Semester zog wird hier nur kurz und knapp auf die Inhalte eingegangen. Dem interessierten Leser steht es frei sich mit den angegebenen Links einen tieferen Eindruck von den Methoden zu verschaffen. Es sei an dieser Stelle nochmals erwähnt, dass für diese Arbeit die Anwendung und nicht die Beschreibung der verwendeten Modelle im Vordergrund steht.


Classification and Regression Trees (CART)[edit]

Darstellung einer CART Klassifikation

Die erste Publikation von CART[8] (Classification and Regression Trees) geht auf Leo Breiman (1984) zurück. Die Grundsätzliche Idee ist, dass nur binäre Entscheidungsbäume verwendet werden um eine optimale Klassifikation zu finden.

Darstellung eines Binären Entscheidungsbaumes (wikipedia)

Die Auswahl der Variablen geschieht durch die Maximierung des Informationsgehaltes gesteuert. diese Ziel wird durch das finden eines kritischen Wertes für die jeweilige Variable erreicht. Der Algorithmus funktioniert in der Weise, dass zuerst Variablen mit hohem Informationsgehalt herangezogen werden (als Maß Entropie[9]), für die wird ein kritischer Wert bestimmt, welcher am besten trennt. Für die verbleibenden Äste, wird diese Verfahren wiederholt.
Zu dem entstehenden vollen Baum, auf dem alle Variablen klassifiziert wurden gibt es noch die Möglichkeit des zurückstutzens der Äste, das sogenannte Prunning, wobei Äste mit geringerem Informationsgehalt Schritt um Schritt zurück geschnitten werden.

Lineare (LDA) und Quadratische (QDA) Diskriminanzanalyse[edit]

Darstellung einer LDA Klassifikation

Die Ersten Publikationen zur Linearen Diskriminanzanalyse [10]hierzu war von Fisher(1936) zum Zwecke des Unternehmensratings, später dann Beaver(1966) und Altman(1968). Ausgehend von Objekten, welche gleichartigen Klassen angehören (Prämisse des Standardmodells: gleiche Varianzen und Kovarianzen) wird eine Trennung durch die folgende Zuordnungsregel erreicht, welche eine lineare Klassifikation, also eine Hyperebene im 3 Dimensionalen Raum.

Darstellung einer QDA Klassifikation


Z_i=a_1x_{i1}+a_2x_{i2}+...+a_dx_{id}=a^\top x_i \,
wobei x_i = \left(x_{i1},...,x_{id}\right)\top \, variablen der i-ten Firma
Die Klassifikationsvorschrift lautet also 
Z_i\geq z \,
für eine erfolgreiche Firma und 
Z_i < z \,
für eine nicht erfolgreiche Firma.


Für eine Quadratische Diskriminanzanalyse ist die Trennende Funktion quadratischer Natur und erlaubt somit komplexere Trennungen (Hyperbel im 2 Dimensionalen Raum)

Für die in dieser Arbeit zu verarbeitenden Daten ergaben sich Probleme in Bezug auf die Berechnung des Accuracy Ratios für das reduzierte Datenset. Ferner konnte die Quadratische Diskriminanzanalyse für das volle Variablenset nicht durchgeführt werden, da es dort zu Abbrüchen durch zu geringe Besetzungen in den Unterräumen kam.

Logistische Regression (Logit)[edit]

Das Probit Modell[11] stammt von Bliss (1934) in der Form:

 E\left[y_i|x_i\right]=\Phi(a_0+a_1x_{i1}+a_2x_{i2}+...+a_dx_{id}), \quad y_i=\left\{0,1\right\} \,

und lieferte die Grundlage für die Logistische Regression[12] bzw. Logit Modell. Der wesentliche Unterschied besteht in der Art der Linkfunktion (Probit - Normalverteilung, Logit - logistische Verteilung)

Darstellung einer Logit Klassifikation

Das Logit Modell stammt von Joseph Berkson[13] (1944)

	E\left[y_i|x_i\right]=\frac{1}{1+exp\left(-a_0-a_1x_{i1}-...-a_dx_{id}\right)} \,

Es handelt sich hierbei um eine Regression, welche mithilfe einer Linkfunktion (logistische Funktion) eine binäre abhängige Variable erlaubt und somit eine Verallgemeinerung der linearen Regression darstellt.

Die Scorefunktion entspricht hierbei derjenigen der Linearen Diskriminanzanalyse

Z_i=a_1x_{i1}+a_2x_{i2}+...+a_dx_{id}=a^\top x_i \,

wird aber noch durch die Linkfunktion auf den Bereich 0-1 normiert bzw. umgewandelt.

Das Logit Model wird für Vergleiche der Klassifikationsgüte häufig als Referenzmodell herangezogen. Seine Stärke liegt in der Parametrisierung und wie in dieser Studie herauskommt in seiner Robustheit von Trainingsdaten über eine Prognose zu Validierungsdaten.

Neuronales Netz (NN)[edit]

Darstellung einer Klassifikation durch ein Neuronales Netz

Das Prinzip der Neuronalen Netze[14] ist aus der Natur entliehen und stellt eine Vereinfachung der Abläufe von Nervenzellen dar. Neben den unabhängigen bzw. erklärenden Variablen existiert mindestens eine versteckte Schicht und eine Ausgabeebene mit der zu erklärenden bzw. abhängigen Größe.

Vereinfachte Darstellung eines künstlichen Neuronalen Netzes (wikipedia)

Bei diesem Aufbau wird in der versteckten Schicht von jedem Neuron "entschieden", ob eine Information weitergeleitet wird oder nicht. Je nach Struktur des Neuronalen Netzes können diese Neuronen, welche sich in versteckten Ebenen befinden untereinander kommunizieren oder nicht. Ferner ist die Anzahl der versteckten Schichten und der darin befindlichen Knoten eine vorzugebende Größe oder ein weiteres Merkmal welches es zu optimieren gilt.

Im Falle der hier getätigten Analyse, wurden Neuronale Netze mit einer versteckten Ebene verwendet. Für den Fall des reduzierten Datensatzes wurden 30 Knoten verwendet, was zu einem overfitting-problem führte, woraufhin die Anzahl der Knoten für das volle Variablenset auf 10 Knoten reduziert wurde.

Support Vector Maschinen (SVM)[edit]

Darstellung einer Klassifikation durch SVM
Beispiel für eine Klassifizierung mit einer SVM. Zu sehen ist die in den Eingangsraum abgebildete trennende Hyperebene (schwarze Linie) und die Support-Vektoren (blau umkreist) (wikipedia)

Eine Support Vector Machine [15] unterteilt Daten in zwei Klassen indem die Daten selbst in eine höhere Dimension abgebildet werden um dann mit einer relative einfachen Funktion derlei getrennt zu werden, dass der Abstand der Klassen zu der Trennung maximiert wird. Die hierbei als äußerste Punkte der Klassen verwendeten Punkte werden als Stützvektoren engl. Support Vector bezeichnet. Das Aufblähen der Daten in eine höhere Dimension wird als Kern[16]-trick bezeichnet und ist nicht direkt Teil der Support Vector Machine, wird aber benötigt, wenn wie meistens in der Praxis die Daten nicht linear trennbar sind. Für Fälle, welche auf der falschen Seite der gebildeten Gruppen liegen wird in der Regel eine Bestrafungs- oder Kostenfunktion eingeführt.

Simulationsdesign[edit]

Da die Daten aus 300 schlechten und 700 guten Kreditfällen besteht ist von einer Übergewichtung der schlechten Kredite auszugehen, da ihre Häufigkeit in der Praxis weitaus geringer ist. Für denn schlimmsten Fall einer Klassifikation gilt ein gleiches Verhältnis von schlechten zu guten Krediten. Dies entspricht der Situation eines Bankangestellten welcher einen Kunden vor sich hat und entscheiden muss, ob es zu einer Kreditvergabe kommt oder nicht.
Das Untersuchungsdesign ist daher daruf angelegt ein Trainings und ein Validierungssample zu bilden welches dem genannten Verhältnis entspricht. Es werden also zufällig 150 schlechte und 150 gute Kredite als Trainingssample verwendet. Die komplimentären anderen 150 schlechten Kredite und weitere 150 zufällige aus den Reihen der guten Kredite bilden das Validierungssample.
Die Mmodelle werden pro Durchlauf auf die gleichen Trainingsdaten trainiert und auf die gleichen Validierungsdaten auf ihre Prognosekraft hin untersucht.
Dieses wurde 1000 mal für das reduzierte und das nichtreduzierte Verfahren umgesetzt.

Für dieses Monte Carlo Design wurden die Modelle :

  • CART (voller Baum)
  • Cart mit gerundeten 10%,20%,50% und 80% Knotenanzahl
  • Logit
  • Lineare Diskriminanzanalyse
  • Quadratische Diskriminanzanalyse (nicht für volles Set)
  • Neuronales Netz (30 Knoten für reduziertes Set und 10 Knoten im vollständigen Set)
  • Support Vector Machine

Wie bereits erwähnt führte das Neuronale Netz mit 30 Knoten zu overfitting Problemen und wurde dafür im zweiten durchlauf auf 10 Knoten reduziert. Die Overfitting probleme der Support Vector Machine konnten nicht behoben werden. Ein Erklärungsansatz hierfür ist der berits angesprochene Curse of Dimensionality, da in etlichen Unterräumen die Variablenanzahl sehr niedrig ist, da dies aber ein Problem ist, welches sich für alle Modelle gleich gestaltet, kann dies als negativer Punkt für die beiden Modelle verstanden werden.


Variablenauswahl des reduzierten Sets[edit]

Grundsätzlich stellt sich die Frage wozu eine Einschränkung des bestehenden Variablensets sinnvoll sein soll.
Das Sammeln von Daten ist in der Realität oft direkt mit Kosten verbunden und eine Reduktion der notwendigen Variablen führt somit direkt zu Effizienzgewinnen. In unserem Beispiel kann man davon ausgehen, dass der zuständige Sachbearbeiter die Zeit pro Kreditnehmer verringern kann, wenn er weniger Daten erheben muss.
Auf der anderen Seite ist das Beschränken auf ein geringeres Variablenset auch mit einem Informationsverlust verbunden und daher aus Analysesicht bzw. für die Modellbildung nicht wünschenswert. Somit befindet man sich also in einem Dilemma zwischen den Kosten für die Datenerhebung und dem Nutzen durch maximale Information.

Als Kriterium für die Auswahl der Variablen wurde das sogenannte Accuracy Ratio[17] herangezogen:


 AR_{ROC} = 2* (AUC_{ROC}-0,5) \,

wobei  AUC_{ROC} \, der Inhalt der Fläche über der ROC Kurve darstellt. Dieser Wert ist umso größer je näher eine Variable (oder ein Modell) an das optimale Klassifikationsmodell herankommt.
es wurden also die Variablen, mit den höchsten Absolutwerten ausgesucht. Die Zahl der Variablen wurde auf 8 beschränkt, was weniger als die Hälfte des Variablenbestandes entspricht.

Name Accuracy Ratio Beschreibung
laufkont 0,502 (bestehendes lfd. Konto bei der Bank)
laufzeit -0,257 (Laufzeit in Monaten)
moral 0,323 (bisherige Zahlungsmoral)
rate 0,274 (Ratenhöhe in % des verfügbaren
wohnzeit 0,241 (In der jetzigen Wohnung seit)
weitkred 0,965 (Weitere Ratenkredite)
telef 0,256 (Telefonanschluß)


Resultate[edit]

Ergebnisse der Simulation mit dem reduzierten Variablenset[edit]

Abbildung 2: Darstellung der Klassifikationsergebnisse des vollen Sets über die Trainingsdatensätze
Abbildung 3: Darstellung der Klassifikationsergebnisse des vollen Sets über die Validierungsdatensätze

Alle Modelle trennen für den Trainingsdatensatz besser als es eine naive Zuweisung tun würde. An dieser Stelle sei noch einmal erwähnt, dass die Verhältnisse im Trainingsdatensatz 50% schlechte Kredite und 50% gute Kredite umfassen. Jedoch zeigt sich eine unterschiedliche Leistungsfähigkeit bzw. Robustheit der Modelle diese Ergebnisse auch auf die Validierungsdaten umzusetzen.

Die Implementierung des Neuronalen Netzes und der Support Vector Machine müssen als nicht erfolgreich betrachtet werden, da bei einem derartigen In-Sample Fit (Zuweisung der Datensätze zur richtigen Kategorie im Trainingsdatensatz) ein klares Overfitting bzw. Überanpassungs [18]Problem anzunehmen ist. Offensichtlich lernen die Modelle zu spezifisch die Eigenarten des Trainingsdatensatzes anstatt ihre zugrunde liegende allgemeinere und somit übertragbare Struktur. Diese Modelle haben somit auch den höchsten Abfall im Validierungsdatensatz gegenüber dem Trainingsdatensatz, da die gefundene Struktur zu speziell ist und somit nicht auf neue Daten generalisierbar. Für das Neuronale Netz konnte dieses Problem für das volle Set im nächsten Abschnitt zum Teil gelöst werden.

Es zeigt sich, dass die Parametrischen Modelle Logit, LDA, QDA die geringsten Abfälle zwischen Leistungsfähigkeit im Trainingsdatensatz und Validierungsdatensatz verzeichnen. Ein ähnliches Resultat verzeichnet nur der kleinste, zurück gestutzte CART Baum mit durchschnittlich 4 Knoten. Dieser liefert zwar die schlechtesten Ergebnisse aller CART Modelle im Trainingsdatensatz, liefert aber auch hier vergleichbare Resultate gegenüber den parametrischen Modellen.

Dieses Ergebnis wird allerdings relativiert, wenn man sich die Boxplots in Abbildung 3 betrachtet, aus denen klar hervorgeht, dass die zurück gestutzten CART Modelle eine weitaus höhere Streuung gegenüber den parametrischen Modellen aufweisen, was gegen ihre Allgemeingültigkeit und Übertragbarkeit spricht. Erstaunlich ist dennoch die Leistungsfähigkeit der 4 bis 5 Knoten des 10% CART Modells gegenüber den anderen komplexeren Modellen. Dies würde bedeuten, dass ein Bankangestellter mit diesen einfachen 4 bis 5 Regeln in jedem Falle über die Hälfte seiner Kreditanträge richtig auswählen würde, was im Rahmen einer Vorauswahl nicht zu verachten wäre.

Es zeigt sich also für die hier durchgeführte Analyse, dass die parametrischen Modelle sowohl im Bereich des Erklärungsabfalls zwischen Trainings- und Validierungsdaten als auch im Bereich ihrer Streuung in Bezug auf die Ergebnisse. Aufgrund der hohen Streuung und der ähnlichen Ergebnisse für die parametrischen Modelle, kann hier kein klarer Favorit benannt werden.


Modell mittlere Knotenanzahl IN-Sample FIT OUT of Sample FIT Delta des Modell Fit Accuracy Ratio des Modells
CART 46 79,35% 64,39% 14,96% 0,442
CART10% 4,25 71,02% 65,69% 5,33% 0,6676
CART20% 4,25 74,23% 66,30% 7,93% 0,4473
CART50% 23,3 78,33% 65,50% 12,83% 0,4217
CART80% 36,7 79,26% 64,36% 14,90% 0,4346
Logit N/A 71,05% 68,93% 2,12% 0,5203
LDA N/A 71,01% 68,54% 2,47% 0,5224
QDA N/A 71,98% 67,93% 4,05% N/A
NN 30 in einer versteckten Schicht 97,98% 68,20% 29,78% 0,998
SVM N/A 97,98% 67,36% 30,62% 0,9772

Ergebnisse der Simulation mit dem vollen Variablenset[edit]

Abbildung 4: Darstellung der Klassifikationsergebnisse des reduzierten Sets über die Trainingsdatensätze (Anm.:QDA nicht durchgeführt)
Abbildung 5: Darstellung der Klassifikationsergebnisse des reduzierten Sets über die Validierungsdatensätze (Anm.:QDA nicht durchgeführt)

Die Ergebnisse der Simulation mit dem vollen Variablenset stützen die Ergebnisse der Analyse mit dem reduzierten Datensatz. Die Resultate liegen für die erfolgreich implementierten Modelle ein wenig höher als es für das reduzierte Variablenset der Fall war. Dies ist nicht weiter verwunderlich, da durch die zusätzlichen 12 Variablen eine höhere Information zur Modellbildung zur Verfügung steht. Aufgrund der hohen Anzahl von zusätzlichen Variablen enttäuschen die niedrigen Zugewinne. Das Problem der Kosten für deren Erhebung scheint daher um so wichtiger wiegen.

Um das Overfitting bzw. Überanpassungsproblem zu lösen wurde das Neuronale Netz auf 10 Knoten in der versteckten Schicht reduziert. Es zeigt sich hierbei das Problem der optimalen Struktur sehr deutlich. Für ein korrektes Anwenden der Methodik hätte es einen dritten Vordatensatz gebraucht, auf welchen hin die Struktur des Neuronlaen Netzes optimiert worden wäre. Dies ist in gewisser weise auch für die Support Vector Machine der Fall. Die hier gefundenen Struktur für das Neuronale Netz kann nicht als optimal betrachtet werden, obwohl die Ergebnisse im Rahmen der Analyse durchaus plausibel erscheinen. Ein alternativer Ansatz ist jedoch aus Gründen der Vereinheitlichung des Untersuchungsdesigns und der mangelnden Anzahl von Daten in dieser Arbeit nicht durchgeführt worden (Anm.: für das Problem der geringen Datenanzahl gäbe es mögliche Lösungen durch Resamplingmethoden[19] wie Bootstrap[20] Jackknife, etc.).

Die hohe Streuung der Ergebnisse sowohl im Trainings- als auch im Validierungsdatensatz zeigen die Resultate der eben genanten Problematik. Das Problem des Overfitting bzw. Überanpassung konnten trotz Veränderung der Parameter der Support Vector Machine für eben jene nicht ausgeräumt oder abgemildert werden. Die Implementierung muss daher als nicht erfolgreich für dieses Untersuchungsdesign betrachtet werden.

Wieder fällt die Robustheit der simplen CART Modelle auf. Die hohe Streuung in dem Validierungsdatensatz ist jedoch auch hier der große Minuspunkt für diese Art des Modells.

Die parametrischen Modelle sind auch in diesem Untersuchungsdesign sowohl in Bezug auf durchschnittliche Klasssifikationsgüte als auch geringe Streuung der Resultate klare Gewinner und heben sich nun signifikant von den CART-Modellen ab.

Die hohe Streuung der Neuranalen Netze und Support Vector Machine sprechen einerseits gegen sie in dieser Untersuchung bieten aber Raum für weitere Analysen da die mittlere Klassifikationsgüte zum Teil über den übrigen Modellen liegt. Die Optimierung dieser Modelle gestaltet sich jedoch recht komplex und kann im Rahmen dieser Arbeit nicht geleistet werden.


Modell mittlere Knotenanzahl IN-Sample FIT OUT of Sample FIT Delta des Modell Fit Accuracy Ratio des Modells
CART 48 85,35% 66,34% 19,01% 0,5249
CART10% 4,5 72,43% 66,15% 6,28% 0,662
CART20% 4,5 77,73% 67,78% 9,95% 0,4402
CART50% 24,3 74,37% 66,82% 7,55% 0,4406
CART80% 44,8 85,35% 66,33% 19,02% 0,5229
Logit N/A 74,74% 70,98% 3,76% 0,5436
LDA N/A 74,61% 70,08% 4,53% 0,5494
QDA N/A N/A N/A N/A N/A
NN 10 in einer versteckten Schicht 80,49% 67,24% 13,25% 0,71
SVM N/A 100% 63,81% 36,19% 1

Allgemeine Aussagen zur Stabilität der gefundenen Lösungen[edit]

Abbildung 6: Stabilität der 10% CART Bäume über die 1000 Durchläufe der Monte Carlo Simulation des vollständigen Sets
Abbildung 7: Stabilität der Linearen Diskriminanzanalyse über die 1000 Durchläufe der Monte Carlo Simulation des vollständigen Sets

Für eine kurze Betrachtung der Stabilität der gefundenen Lösungen wurden exemplarisch die Variablen laufzeit und moral verwendet. Alle anderen Variabeln wurden konstant gehalten.

Für eine stabile Lösung im Sinne diese Monte Carlo Studien müsste es klare farbliche Bereiche welche über alle Durchläufe dieselbe Zuteilung erhalten hätten.

Es wurde die Funktion Rainbowcolor in R verwendet mit 2000 Farben welche das gesamte Spektrum des Regenbogens abdecken. Während die Farben in den einzelnen Grafiken miteinander nicht vergleichbar sind, so sind es die Farbunterschiede pro Grafik auf welche man achten sollte.

Die Grafiken zu Neuronalem Netz und Support Vector Machine dienen hierbei als gutes Beispiel für eine nicht stabile Lösung über alle Durchläufe. Die gesamte Fläche über die beiden Variablen entspricht weitestgehend derselben Farbe und impliziert somit eine alternierende Zuteilung der einzelnen Variablenauspräungen. (Anm.: für das Neuronale Netz lassen sich tatsächlich Farbnuancen unterschiede am linken Rand der Darstellung erkennen, dennoch bleibt die Aussage über nicht Stabilität unangetastet).

Anders stellt sich die Situation für die parametrischen aber auch das CART Modell dar. Es existieren klare Unterscheidungen in Bezug auf die Länge des Kreditvertrages über alle Modelldurchläufe. Wie bereits erwähnt, ist mit einer zunehmenden Länge des Kreditvertrages mit höheren Problemen bei der Rückzahlung zu rechnen.

Für die CART Modelle weißt der gestutzte Baum mit 4-5 Knoten die robusteste Trennung auf, da dort die Farbunterschiede am markantesten sind. Jedoch erfolgt die Trennung nur im Bereich der Laufzeit, die 4-5 Knoten enthalten im mittel entweder stark heterogene Informationen über die variable moral oder sie ist vom Informationsgehalt nicht soweit oben im Entscheidungsbaum, wodurch dieser „kurze“ Baum keinerlei Informationen zu dieser Variable beinhaltet.

Anders sieht es hingegen für die Lineare Diskriminanzanalyse aus, wo auch für die unterschiedlichen Bereiche der Variable moral unterschiedlichen Farben dargestellt sind. Die Wiederholung dieser Schemata entlang der Variable moral scheint jedoch unplausibel und ist nur durch die Problematik des Curse of Dimensionality zu erklären.

Nichtsdestotrotz sind sowohl die parametrischen als auch das CART Modell in ihrer Beurteilung der beiden exemplarischen Variablen relativ ähnlich und vor allem stabil über die Monte Carlo Simulation.


Ergebnisse unter Verwendung von Weka[edit]

weka als klassisches Datamining Programm angelegt bietet eine Vielzahl von Klassifizierungsalgorithmen welche zumeist heuristischen Ansätzen entsprechen. Ferner kann man mit Weka Zusammenhänge schnell und unkompliziert betrachten. Allerdings beschränkt sich diese Analyse zumeist auf die univariate Analyse einer Variablen gegnüber einer anderen oder einer Variablen in Hinblick auf die zu erklärende Größe. Die gestappelten Bar-Charts sind jedoch erste Indizien für eine Mögliche Klassifikation Um die Ergebnisse, welche in Weka erzielt wurden ein wenig vergleichbar zu machen wurden die Methoden mit einem Trainingsset optimiert.

Algorithmus ID3[edit]

Dieser Algorithmus soll als Beispiel für einen Entscheidungsbaum gestützten Klassifizierer dienen. Der bekanntere Algorithmus ID3[21] ist nur für nominale Variablen geeignet und daher wurden die Variablen Kredithöhe, Laufzeit und Alter aus der Betrachtung entfernt. Die hohe Aufklärungsgüte scheint wieder ein overfitting Problem zu sein oder aber das Ergebnis eines vollen Baumes. - Dies kann leider nicht nachvollzogen werden, da Weka hierbei grenzen besitzt.

Correctly Classified Instances 1000 (100  %)

Incorrectly Classified Instances 0 (0  %)

Kappa statistic 1

Mean absolute error 0

Root mean squared error 0

Relative absolute error 0  %

Root relative squared error 0  %

Total Number of Instances 1000


Detailed Accuracy By Class

TP Rate FP Rate Precision Recall F-Measure Class
1 0 1 1 1 TRUE
1 0 1 1 1 FALSE


Confusion Matrix

  a   b   <-- classified as
700   0 |   a = TRUE
  0 300 |   b = FALSE

Algorithmus J48[edit]

Auch dieser Algorithmus soll als Beispiel für einen Entscheidungsbaum gestützten Klassifizierer dienen, liefert aber realistischere Resultate als es für den ID3 Algorithmus der Fall ist und erlaubt die Aufnahme der metrischen Variablen in das Modell. Er entspricht einer Weiterentwicklung des ID3 Algorithmuses und entspricht dem bekannten C4.5 [22] Algorithmus. Der Algorithmus J48 lieferte folgende Ergebnisse:


Correctly Classified Instances 848 (84.8  %)

Incorrectly Classified Instances 152 (15.2  %)

Kappa statistic 0.6033

Mean absolute error 0.2418

Root mean squared error 0.3477

Relative absolute error 57.5488 %

Root relative squared error 75.8753 %

Total Number of Instances 1000


Detailed Accuracy By Class

TP Rate FP Rate Precision Recall F-Measure Class
0.957 0.407 0.846 0.957 0.898 TRUE
0.593 0.043 0.856 0.593 0.701 FALSE


Confusion Matrix

  a   b   <-- classified as
670  30 |   a = TRUE
122 178 |   b = FALSE

Naive Bayes[edit]

Dieser Klassifizierer soll als Beispiel der Baysianischen Klasifikatoren [23] dienen. Dem interessierten Leser sei der angegebene Link empfohlen. es handelt sich hierbei um Klassifikatoren, die jedes Objekt der Klasse mit der höchsten Wahrscheinlichkeit zuordnet, basierend auf dem Satz von Bayes[24]. Dieses Vorgehen entspricht zwar nicht immer der Realität der zugrunde liegenden Daten, aber liefert häufig eine ordentliche bis gute Klassifikation. Der Naive Bayes Ansatz liefert folgende Ergebnisse:


Correctly Classified Instances 776 (77.6  %)

Incorrectly Classified Instances 224 (22.4  %)

Kappa statistic 0.44

Mean absolute error 0.2811

Root mean squared error 0.4077

Relative absolute error 66.9092 %

Root relative squared error 88.9699 %

Total Number of Instances 1000


Detailed Accuracy By Class

TP Rate FP Rate Precision Recall F-Measure Class
0.876 0.457 0.817 0.876 0.846 TRUE
0.543 0.124 0.652 0.543 0.593 FALSE


Confusion Matrix

  a   b   <-- classified as
613  87 |   a = TRUE
137 163 |   b = FALSE


Fazit[edit]

Für die durchgeführten Analysen hat sich gezeigt, dass parametrische Klasifikatoren leicht zu handhaben sind und robuste, stabile sowie gute Klassifikationsergebnisse liefern. Ferner sind diese Modelle vermittelbar und nachvollziehbar.

Die in dieser Studie besonders beleuchtete CART Methodik kann zwar mitunter ähnlich gute Ergebnisse vorweisen, ist aber nicht so Robust was seine Anwendbarkeit auf neue Daten betrifft. Für eine Klassifikation vorhandenen Daten ohne das Schließen auf neue ist diese Methodik jedoch extrem leistungsfähig und in ihrer Struktur auch leicht vermittelbar.

Da für die komplexen Modelle keine wirklich befriedigende Implementierung auf die vorhandenen Daten gelungen ist, kann die Aussage getroffen werden, dass eben die Implementierung dieser Modelle in der Praxis sich als nicht einfach gestaltet. Ferner ist die Nachvollziehbarkeit oder Generalisierung dieser Modelle ein Problem. Einem Kreditsachbearbeiter wird es nicht möglich sein einem abgelehnten Kunden die Entscheidung zu begründen, da diese Verfahren keine nachvollziehbare Methodik darstellen, sondern eher eine „Black Box“ [25]. Im Rahmen von BASEL 2[26] ist aber genau eine solche Erklärung und Nachvollziehbarkeit nötig.

Die unter Weka erhaltenen Ergebnisse bewegen sich im Rahmen der aus der Monte Carlo Studie gewonnenen. Auffällig ist hierbei jedoch das sehr gute Abschneiden des C4.5 Algorithmus, welcher dem CART Algorithmus ähnelt. Anscheinend ist C4.5 jedoch überlegen, da dieser Algorithmus die gegebenen Daten am besten trennt. Ferner rechtfertigt das gute Abschneiden der Naive Bayes Klassifikatoren eine weitere Auseinandersetzung in kommenden Vorlesungen wie auch Untersuchungen.

Quellen[edit]

  • wikipedia
  • Härdle, W. and Simar, L. (2003). Applied Multivariate Statistical Analysis. Springer-Verlag Berlin Heidelberg.
  • W. N. Venables and B. D. Ripley (2004). Modern Applied Statistics with S. Fourth Edition. Springer-Verlag Berlin Heidelberg.
  • Ian H. Witten, Eibe Frank (2005). Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). Morgan Kaufmann Series in Data Management Systems. [27]


Kommentare[edit]

  • Ist der cut-value bei der logistischen Regression optimiert worden?
  • Überschriften starten normalerweise mit grossen Buchstaben
  • Warum steht in der Überschrift Logit und im Text wird erst Probit verwendet?
  • Bei ID3, warum wurden die Variablen entfernt und nicht umkodiert?