STRATEGIE6. April 2016

Big-Data-Fallstricke: Der Amateur-Data-Scientist

Wael Elrifai, Director Enterprise Solutions bei PentahoPentaho
Wael Elrifai, Director Enterprise Solutions bei Pentaho Pentaho

Das große Potenzial von Big Data ist mittlerweile jedem Finanz­dienst­leister bekannt: Be­trugs­er­kenn­ung, Auffinden von unseriösen Ge­schäf­te­machern, Ermitteln von Upsell-Möglichkeiten – die Liste der Einsatzmöglichkeiten von Big Data ist scheinbar endlos. Für die einen ist Big Data der Schlüssel zum Erfolg, für die anderen eine Lösung auf der Suche nach ihrem Problem. Dabei fällt, wie bei allen großen Themen, die Antwort viel nuancierter aus.

von Wael Elrifai,
Director Enterprise Solutions bei Pentaho

Das Aufkommen sogenannter Big-Data-Explorationswerkzeuge gibt Grund zur Beunruhigung. Dabei geht es weniger um die zugrundeliegende Technologie an sich, an der mit ihren eleganten Visualisierungen, starker Leistung und der Möglichkeit Data Science zu betreiben, nichts auszusetzen ist. Vielmehr geht es darum, dass der Ansatz oftmals leider falsch ist.

Unsere wundersame Fähigkeit, Muster zu erkennen

Wir erkennen Muster, die es gar nicht gibt: Der "schwebende Löffel auf dem Mars"NASA/JPL-Caltech/MSSS
Wir erkennen Muster, die es gar nicht gibt: Der “schwebende Löffel auf dem Mars”NASA/JPL-Caltech/MSSS

Die Herausforderung von visuellen Daten-Explorationswerkzeugen ist folgende: Menschen sind großartig, wenn es um die Fähigkeit geht, Muster zu erkennen. Wir erkennen Freunde an ihren Hinterköpfen, aber eben genauso sehen wir schwebende Löffel auf dem Mars oder verwandeln Kleiderhaken in berauschte, angriffslustige Kraken. Anders ausgedrückt, wir Menschen sehen manchmal Dinge, die nicht wirklich existieren.

Hinzu kommt, dass komplexe und multi-dimensionale numerische Muster hinter unserer visuellen Auffassungsgabe zurückbleiben. Es ist schwer, mehr als vier Dimensionen oder Variablen visuell in einem Datenmodell (X, Y, Z Koordinaten + Farbabstufung) abzubilden. Menschen sind auch eingeschränkt in ihrer Fähigkeit, viele Datenpunkte gleichzeitig akkurat zu verarbeiten – man denke nur an die Kontroversen um Abseitsentscheidungen im Fußball. Um diese Einschränkungen zu überwinden, hat die Menschheit robuste mathematische Werkzeuge entwickelt, die ihnen mit deterministischen und probabilistischen Methoden helfen sollen, Muster korrekt zu erkennen. Allerdings sind diese nicht perfekt.

Deterministische Werkzeuge, die voraussetzen, dass alle Informationen bekannt sind, versagen oft bei komplexen Phänomenen. Probabilistische Werkzeuge setzen zwar unbekannte Größen voraus und besetzen sie mit Wahrscheinlichkeiten, dennoch ist die Nutzung solcher Modelle und die richtige Interpretation der Ergebnisse schwierig.

Die Programmierer und Wirtschaftsanalytiker, die sich aufmachen, die Data Science-Welt zu erobern, sollten aufpassen – sie haben genug Kompetenz, um gefährlich zu werden.

kotist/bigstock.com
kotist/bigstock.com

Die Kompetenzlücke

Ein Datenintegrationsspezialist ist kein Data Scientist und viele der selbsternannten Data Scientisten sind oftmals keine qualifizierten Statistiker.

Man stelle sich folgendes Szenario vor: Die Handelssparte eines Geldinstituts setzt auf Big Data und braucht eine skalierbare und hochverfügbare Plattform, die die „drei Vs“ Volumen, Velocity (Geschwindigkeit) und Variety (Vielfalt) unterstützt. Ein cleverer Programmierer, der davon ausgeht, dass Statistiker entweder faul sind oder sowieso vom Programmieren keine Ahnung haben, nimmt sich der Sache an. Er entwirft ein Programm, das jeden Datensatz nach Korrelationen mit den anderen Datensätzen des Geldinstitutes und mit externen öffentlichen Datenbeständen durchsucht, in der Hoffnung, das Geheimrezept für einen erfolgreichen Aktienhandel zu finden. Der Programmierer, der hier den Statistiker spielt, entscheidet sich für die Verwendung eines Konfidenzniveaus von 95% (oder 2-Sigma-Regel).

Heureka!

Unser Programmierer und Amateur-Data-Scientist hat vermutlich viele neue prognostische Variablen entdeckt und unter anderem herausgefunden, dass der Namibische Verbraucherpreisindex ein perfekter Indikator für die Stahlpreisentwicklung im US-Markt ist. Er geht davon aus, dass seine neue Formel für die Vorhersage der Preisentwicklung von Stahl in den USA zu 95% korrekt ist.

Ein großer Irrtum: Das Konfidenzniveau

Ohne zu sehr ins statistische Detail zu gehen, bedeutet die Annahme eines Konfidenzniveaus von 95%, dass man in 19 von 20 Fällen eine echte Korrelation findet, aber in einem von 20 Fällen eine falsch positive Klassifikation. Wenn man hunderte von Korrelationstests durchführt, erhält man also möglicherweise Dutzende falsch positive. Aus diesem Grund nutzen die Teilchenphysiker, die an CERNs großem Hadronen-Speicherring nach Higgs-ähnlichen Teilchen suchen, eine Methode, die sehr viele Testergebnisse voraussetzt und mit extrem hohen Wahrscheinlichkeiten im 7-Sigma Bereich arbeitet, bei dem die Wahrscheinlichkeit, einen Zufallstreffer gelandet zu haben, bei 0,0000000001% liegt.

Was zeigt uns das?

Explorationsforschung ist sicherlich wichtig und für viele grundlegende Erkenntnisse der Menschheit verantwortlich. Aber um sie zu nutzen, muss man die Methoden und Werkzeuge sehr gut kennen. Ansonsten kommt es schnell zu den oben beschriebenen Irrtümern. Viele gängige Datenexplorationswerkzeuge übernehmen diese Hauptarbeit, ohne dass der Anwender weiß, was er da eigentlich gerade macht und sich vermutlich schneller als ihm lieb ist in den Data-Science-Fallstricken verfängt.

Um dies zu umgehen, sollten Datenintegrationsexperten, Statistiker, Branchenkenner und Mitarbeiter des Finanzdienstleisters früh ins Big-Data-Projekt mit eingebunden werden.”

Statistik-Weiterbildungskurse sind sicherlich eine gute Investition, die sich in der Zukunft durch den Erfolg von Big-Data-Projekten auszahlen.Wael Elrifai

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert