Praxis: Über den Entscheidungsbaum zur Prognose – am Beispiel Kreditantrag
Die Vorhersage von Trends oder Verhaltensmustern aufgrund einfacher Prämissen beherrschen viele Business-Intelligence-Werkzeuge. Weniger trivial wird es aber dann, wenn mehrere Parameter berücksichtigt werden müssen. Dann sind ganz neue Ansätze gefragt.
von Dirk Beerbohm, Technical Account Manager
bei Information Builders
Die gängigen BI-Werkzeuge sind heute in der Lage, die Regressionsgleichung für dieses Problem mit Standard-Bordmitteln zu ermitteln und auszugeben. Soll jedoch mehr als ein Parameter in einer Vorhersage-Funktion berücksichtigt werden, dann sind neue Ansätze gefragt. Parameter können beschreibende Attribute für ein „Objekt“ oder auch äußere Einflussfaktoren sein.
Ein Beispiel aus der Praxis
Exemplarisch für die Vorhersage mit mehreren Parametern soll die Entwicklung einer Scoring-Funktion für die automatische Genehmigung eines Kreditantrages aufgezeigt werden. Für einen Kreditantrag sind verschiedene Angaben zu berücksichtigen:
1. Alter des Antragstellers2. Ausbildung oder Abschluss
3. Familienstatus
4. Geschlecht
5. Beruf
6. Einkommen
7. Kredithistorie
8. Gewünschte Kreditsumme
Kreditanträge für größere Summen entscheidet meist ein Bankangestellter; bei einem Online-Shop hingegen, bei dem ein größerer Anteil von Verkäufen über eine Finanzierung von relativ kleinen Beträgen realisiert werden soll, ist eine automatische Entscheidung über die Kreditwürdigkeit notwendig. Für bestimmte Kombinationen der Angaben eines Kreditantrages wird dieser dann genehmigt oder eben abgelehnt. Bei großen Datenmengen ist das Erkennen relevanter Kombinationen und damit eine Entscheidung über die Kreditwürdigkeit manuell kaum noch zeitnah durchführbar.
Es wird also ein Verfahren benötigt, das positive oder negative Kombinationen automatisch erkennt und dann auf neue Kreditanträge anwenden kann.”
Ein gängiges Verfahren für eine solche Scoring-Anwendung ist ein Entscheidungsbaum, bei dem auf Basis von verschiedenen Eingabe-Parametern aus historischen Daten formale Regeln abgeleitet werden und damit eine Prognose oder Entscheidung auf Basis von bereits bestehendem Wissen ermöglichen.
Entscheidungsbäume sind Bestandteil vieler Anwendungen im Bereich Data Mining oder Business Analytics. Für die Open-Source-Software „R“ (http://www.r-project.org) für statistisches Computing stehen unter anderem auch Algorithmen für Entscheidungsbäume zur Verfügung. Hier werden anhand bestimmter Fallunterscheidungen, ausgehend von einem einzelnen Wurzelknoten, Entscheidungspfade aufgebaut. Dabei lässt sich die Entwicklung eines Entscheidungsbaumes durch verschiedene Parameter beeinflussen – und daraus folgend auch die Güte der getroffenen Vorhersagen.
Wie wird die Kreditwürdigkeit eines Antragstellers prognostiziert?
Der umzusetzende Prozess unterteilt sich dabei in zwei wesentliche Aspekte: die Erstellung eines Entscheidungsbaumes auf Basis historischer Daten sowie die Anwendung des Entscheidungsbaumes im operativen Datenfluss. Die notwendigen Datensätze für das Training werden durch eine Abfrage der BI-Plattform definiert, diese enthält die notwendigen Eingabeparameter, die Kreditwürdigkeit und gegebenenfalls einen eindeutigen Schlüssel (ID). Mittels eines Samplings wird der Datensatz für die Generierung eines Entscheidungsbaumes eingeschränkt. Ist über die Variation von Parametern für den Entscheidungsbaum keine ausreichende Güte erzielbar, kann unter Umständen über eine Variation des Samplings eine Verbesserung möglich sein.
Nach dem Sampling wird mit Hilfe von „R“ der eigentliche Prozess zur Erstellung eines Entscheidungsbaumes initiiert. Um die Qualität zu steigern beziehungsweise die mögliche Fehlerrate zu senken, wird die volle „R“-Integration innerhalb der BI-Plattform genutzt, die verschiedene „R“-Verfahren abstrahiert und anwenderfreundlich präsentiert. Dazu gehören unter anderem die Definition der Daten für das Training, detaillierte statistische Informationen über die Trainingsdaten sowie die Auswertung der Trainingsergebnisse zur Bewertung der Güte des gewählten Verfahrens. Eine direkte Interaktion mit der Konsole von „R“ für eine Analyse oder Vorhersage ist nicht notwendig.
Nun kann der Entscheidungsbaum erstellt werden. Schon der erste Versuch hat eine Güte von rund 93 Prozent, also einen globalen Fehler von rund 7 Prozent. Anhand der Grafik des Entscheidungsbaumes können die Regeln der Kreditvergabe abgelesen werden.
Im vorliegenden Beispiel wird ein Kreditantrag bereits ab einem Einkommen von 33.000 US-Dollar positiv beschieden – in 85 Prozent aller Fälle. Auch für Einkommen unter 33.000 Dollar gibt es Kombinationen verschiedener Kriterien, die ebenfalls zu einem positiven Entscheid führen können.
Ein Entscheidungsbaum wird generiert
Nachdem ein Entscheidungsbaum generiert wurde, der den Ansprüchen an die Güte der Prognose zur Kreditwürdigkeit genügt, wird er als Modell exportiert. Hier wird die Variante als Quelltext in C gewählt; zusätzlich wird das eigentliche Projekt für die spätere Wiederverwendung gespeichert. Um den Entscheidungsbaum im operativen Betrieb für Berichte in WebFOCUS oder zur Selektion von Daten im ETL-Werkzeug Data Migrator verwenden zu können, wird der Quelltext kompiliert und daraus resultierend der Entscheidungsbaum als eine Bibliothek den entsprechenden Werkzeugen zur Verfügung gestellt.
Um eine erste Beurteilung über die Güte des Entscheidungsbaumes zu erhalten, wird das Ergebnis mit dem Trainingswert verglichen. Während die Masse der Datensätze zeigt, dass die Prognose des Entscheidungsbaums korrekt ist, so kann auch bei einigen wenigen Datensätzen eine abweichende Prognose festgestellt werden. Dies war aber auch nach der Gütebewertung im R-Wizard zu erwarten.
Wird die Scoring-Funktion auf Basis eines „Random Forest“-Algorithmus erstellt, bei dem mehrere unterschiedliche Entscheidungsbäume nach dem einfachen Mehrheitsprinzip über ein Scoring entscheiden, steigt die Güte des Scorings auf rund 97 Prozent. In jedem Fall ist aber zu vermeiden, dass ein Entscheidungsbaum durch falsche Wahl der Parameter zu komplex wird. Es besteht die Gefahr, dass der Baum zwar ein optimales Ergebnis für die Trainingsdaten liefert, aber bei unbekannten Daten versagt und schlechtere Ergebnisse liefert als ein vergleichsweise einfacher Entscheidungsbaum. In diesem Fall spricht man von Overfitting.
Prognose schon während der Datenbewirtschaftung
Ein weiteres Anwendungsgebiet für die zuvor erstellte Prognosefunktion ist die Nutzung innerhalb eines Datenstroms, zumeist in einem ETL-Prozess, bei dem schon während der Datenbewirtschaftung in Echtzeit oder echtzeitnah eine Prognose für ein bestimmtes Anwendungsszenario getroffen werden kann. Entsprechend auffällige Ergebnisse werden zur weiteren Bearbeitung an einen Mitarbeiter weitergegeben, der dann die weitere Bearbeitung übernimmt und gegebenenfalls Folgeaktionen auslösen kann, etwa das Übersteuern von automatisierten Entscheidungen zur Kreditvergabe in Grenzfällen. Eine Rückkopplung aus dem operativen Betrieb und damit verbunden ein wiederholtes Training der Prognosefunktion sichert eine gleichbleibend hohe Qualität auch unter sich ändernden Bedingungen.
Ein Entscheidungsbaum ist nur der Anfang
Mit dem freien Softwarepaket „R“ steht ein sehr leistungsfähiges und umfangreiches Paket zur Verfügung, das auch umfangreiche Lösungen für das Gebiet der „Predictive Analytics“ bietet. Mit Hilfe eines Wizard kann die Nutzung von R erheblich vereinfacht werden, trotzdem benötigt man ein Detailwissen über die zu verwendenden Verfahren und ihre Vor- und Nachteile. Nicht jedes Problem kann mit jedem beliebigen Verfahren gelöst werden.
Die Prognose mit R ist nicht auf Entscheidungsbäume begrenzt, es können auch statistische Verfahren wie Regressionsanalysen oder neuronale Netze genutzt werden. Es ist auch eine Kombination aus mehreren Verfahren denkbar, um die Güte der Prognose zu steigern. Wichtig ist, dass eine Integration von R in BI-Umgebungen auch den Einsatz von selbst entwickelten R Skripten ermöglicht, um bestehende und erprobte Verfahren zu nutzen.aj
Sie finden diesen Artikel im Internet auf der Website:
https://itfm.link/38204
Schreiben Sie einen Kommentar