Data-Mining – Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen

From Teachwiki
Revision as of 13:38, 16 October 2012 by WikiSysop (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search
Error creating thumbnail: File missing
Please do not cite work from this wiki, since these are mainly students theses which may contain errors!
Error creating thumbnail: File missing

Pdficon large.png
Download

„Unternehmen müssen Datenmüll managen“ [Brunner, 2011]. „Immer mehr Menschen beklagen Informationsüberflutung“ [Pepper, 2011]. Dies sind nur zwei Schlagzeilen aus einer Vielzahl von „Alarmbotschaften“ die man immer öfter Lesen kann.

Wir leben in einem Zeitalter indem immer mehr Nachrichten und andere Inhalte auf immer mehr Kanälen immer schneller auf die Menschen einprasseln. Die Datenmengen wachsen und der technische Fortschritt macht es möglich. So wird jeder Einkauf via Payback oder ähnlichem, jedes Telefongespräch mit Art, Dauer und Kosten und jede Kontobewegung dokumentiert und gespeichert. „Jeder Schritt, den wir auf dieser Erde tun, erzeugt einen Datensatz in einer Datenbank“ [Witten & Frank, 2001, S.2]

Diese umfangreichen Datenbestände beinhalten wertvolle Informationen für Entscheider. Doch das stetige Wachstum der Datenbestände macht den Zugriff auf die gewünschten Informationen immer schwieriger, eine manuelle Analyse „von Hand“ wird immer zeitaufwendiger, immer personalintensiver und dadurch kostspieliger und für einen Menschen quasi unmöglich. Dies führte zu einer verstärkten Suche nach Verfahren zur automatisierten Informationsgewinnung. Ziel ist es, aus den großen Datenmengen die relevanten Informationen herauszuziehen. Dazu werden neben den konventionellen statistischen Verfahren wie Korrelation und Regression unter anderem auch Methoden aus den Bereichen Signaltheorie, Mustererkennung, Clusteranalyse und maschinelles Lernen angewandt. Diese Datenanalysemethoden werden unter dem Sammelbegriff „Data Mining“ zusammengefasst. [Runkler, 2010]

Ziel dieser Arbeit ist es, einen kurzen Einblick in den Data Mining-Prozess zu geben und die wichtigsten Data-Mining Aufgaben und Methoden vorzustellen. Speziell wird sich diese Arbeit auf die Methode des Entscheidungsbaums zur Klassifikation von Daten beziehen. In diesem Zusammenhang wird der Prozess des Baumaufbaus, die verschiedenen Arten und die Implementierung verschiedener Algorithmen zur Baumgenerierung erläutert. Abschließend wird im letzten Kapitel nochmal die Wirkungsweise eines Algorithmus für die Erstellung eines Klassifikationsbaums an einem Beispiel verdeutlicht.