Data Mining ist keine neue Erfindung.
Die Disziplin existiert bereits seit über einem Jahrhundert, rückte aber erst in den 1930er Jahren stärker in den Fokus der Öffentlichkeit.
Heutzutage nutzen Organisationen Data Mining um interne und externe Trends aufzudecken.
Das erlaubt ihnen, Entscheidungen zu beschleunigen, Probleme zu lösen, Risiken zu mindern und neue Chancen zu ergreifen.

Dieser Ratgeber gibt Ihnen einen tiefgreifenden Data-Mining-Überblick – von den unterschiedlichen Methoden bis zu den aktuellen Trends.
Shortcuts
Data Mining: Definition
Data Mining ist eine Disziplin, mit der enorm große Datenmengen analysiert werden können.
Um das zu stemmen, setzt Data Mining bei der Analyse auf ausgefeilte Algorithmen.
Die Analyse-Ergebnisse helfen Organisationen dabei, Muster zu entdecken, neue Erkenntnisse zu gewinnen und verborgene Zusammenhänge aufzudecken.
Das hilft ihnen dabei, interne und externe Trends besser zu verstehen.
So können Entscheidungen beschleunigt, Probleme gelöst, Risiken gemindert und neue Chancen ergriffen werden.
Data Mining: Methoden
Klassifikation
Bei der Klassifikation besteht die Aufgabe darin, Objekte aufgrund ihrer Merkmale einer bestimmten Klasse zuzuordnen.
Beispielfrage: Welche Kunden aus der Datenbank reagieren auf eine Postwurfsendung mit einem Kauf?
Anhand ihres vergangenen Kaufverhaltens (Merkmale) kann ein Klassifikationsmodell Kunden (Objekte) auf eine Adressaten-Liste (Klasse) setzen und andere gezielt ausschließen.
Prognose
Prognose-Aufgaben sind ähnlich gelagert, zielen jedoch auf die Vorhersage eines quantitativen Wertes ab.
Beispiel: Legt ein Neukunde ein Kundenkonto an, macht er seine persönlichen Daten zugänglich. Diese Informationen lassen Rückschlüsse auf sein Umsatzpotenzial zu.
Je höher das Potenzial ausfällt, desto sorgfältiger sollte die Kundenbeziehung gepflegt werden.
Gruppierung
Segmentierungen oder Gruppierungen haben das Ziel, Komplexität zu reduzieren.
Beispiel: Kunden können anhand ihrer Merkmalen in homogene Gruppen aufgeteilt werden.
Diese Gruppen oder Segmente können dann wiederum mit spezifischen Vertriebsmaßnahmen angesprochen werden.
Assoziation
Die Assoziation entdeckt starke Abhängigkeiten im Sinne einer Wenn-Dann-Verknüpfung.
Beispiel: Stellen wir uns einen Online-Shop vor, der von einer anonymen Interessentin besucht wird. In diesem Fall liegen kaum Informationen über die Merkmale der Person vor. Doch auf Basis der Artikel, die sich bereits im Warenkorb befinden, lassen sich weitere Produktempfehlungen aussteuern. Die Logik: Kunden, die Artikel A kaufen, interessieren sich besonders häufig auch für Artikel B.
Je relevanter diese Empfehlungen sind, desto positiver nimmt die Besucherin das Einkaufserlebnis im Online-Shop wahr und schließt den Kauf ab.

Data Mining: Algorithmen
Lineare Regression
Die lineare Regression eignet sich vor allem für die Vorhersage einer Dezimalzahl.
Bei dieser Systematik wird anhand eines Trainingsdatensatzes ein Regressionsmodell erstellt.
Dieses Modell kann den Zielwert für neue Objekte prognostizieren.
Vereinfacht gesagt können Sie mithilfe der linearen Regression beispielsweise die Informationen Ihrer Bestandskunden nutzen um den Umsatz eines Neukunden zu ermitteln.
Logistische Regression
Die logistische Regression funktioniert ähnlich wie die lineare Regression.
Sie unterscheidet sich jedoch darin, dass sie Objekte bestimmten Klassen zuordnet.
In der einfachsten Form sagt die logistische Regression eine binär kodierte Zielvariable voraus.
Auf die Frage, ob einer Ihrer Kunden einen bestehenden Vertrag demnächst kündigen wird, würde das Modell beispielsweise entweder mit 1 („Ja“) oder 0 („Nein“) antworten.
Entscheidungsbäume (C4.5)
Entscheidungsbäume sind besonders anschaulich.
Zu nennen ist vor allem der C4.5-Algorithmus, der aufgrund seiner Vorteile unter Datenwissenschaftlern immer beliebter wird.
Entscheidungsbäume können mithilfe von zwei Methoden kombiniert werden: Bagging und Boosting.
Bagging wird bei Random Forests eingesetzt, Boosting beim Gradient Boosting.
Random Forest
Random Forest kann sowohl für Klassifikations- als auch Regressionsaufgaben eingesetzt werden.
Der Algorithmus erstellt mehrere Entscheidungsbäume und fügt sie zusammen, um eine genauere und stabilere Vorhersage zu erhalten.
Der Random-Forest-Algorithmus wird in vielen verschiedenen Bereichen eingesetzt, z. B. im Bankwesen, an der Börse, im eCommerce und im Gesundheitswesen.
Im Gesundheitswesen wird der Algorithmus beispielsweise dazu verwendet, die richtige Inhaltsstoff-Kombination für ein Medikament zu bestimmen (Stichwort: Individualisierte Medizin).
Gradient Boosting
Beim Gradient Boosting handelt es sich ebenfalls um eine Zusammenstellung von Entscheidungsbäumen.
Gradient Boosting unterscheidet sich von Random Forests in zweierlei Hinsicht:
a) Bauweise: Der Random-Forest-Algorithmus baut jeden Entscheidungsbaum unabhängig voneinander auf, während der Gradient-Boosting-Algorithmus einen Baum nach dem anderen aufbaut.
b) Auswertung: Der Random-Forest-Algorithmus kombiniert die Ergebnisse am Ende des Prozesses („Bagging“), während der Gradient-Boosting-Algorithmus die Ergebnisse während des Prozesses kombiniert („Boosting“).
Grundsätzlich funktionieren Boosting-Algorithmen besser als Bagging-Algorithmen – aber nur, wenn es sich bei den zu bearbeitenden Daten nicht um verrauschten Daten handelt.
Ist das der Fall, eignen sich Bagging-Algorithmen tatsächlich am besten.
Gradient Boosting ist besonders beliebt in der Echtzeit-Risikobewertung – egal in welcher Branche.
Die am häufig verwendete Software in diesem Zusammenhang ist XGBoost.
Support Vector Machines (SVM)
Support Vector Machines (SVM) teilen Objektmengen so in Klassen ein, dass der Randbereich zwischen den Teilmengen möglichst groß wird.
Der Ansatz eignet sich demnach für die Klassifikation.
Der Algorithmus wird besonders oft dazu verwendet, um die Handschrift einer Person zu erkennen.
Hier muss das Modell etwa entscheiden, um welchen Buchstaben es sich in einer eingescannten Notiz handelt.
K-Nearest Neighbour (KNN)
Auch der K-Nearest-Neighbour-Algorithmus kann sowohl für Klassifikations- als auch Regressionsaufgaben eingesetzt werden.
Er geht davon aus, dass ähnliche Dinge in unmittelbarer Nähe existieren.
Mit anderen Worten: Ähnliche Dinge liegen meistens nahe beieinander.
Wenn ein Objekt in einem Streudiagramm eine unbekannte Klasse hat, geht der KNN-Algorithmus also davon aus, dass es dieselbe Klasse hat, wie seine Nachbarn.
Der Algorithmus findet somit häufig Anwendung in der statistischen Schätzung und Mustererkennung.
Clustering (k-Means)
Beim Clustering geht es um die Gruppierung von Objekten.
In diesem Zusammenhang wird oft der k-Means-Algorithmus verwendet.
Der Algorithmus ist in der Lage, ähnliche Objekte in verschiedene Cluster einzuteilen.
K-Means kann Ihnen somit beispielsweise in der Segmentierung von Bilddaten behilflich sein.
Der Algorithmus ist nämlich in der Lage, Vorder- und Hintergrund oder einzelne Objekte zu erkennen.
Künstliche Neuronale Netze (RNN)
Künstliche Neuronale Netze (KNN) imitieren die Funktion des menschlichen Gehirns.
Sie sind also in der Lage, komplexe und verknüpfte Informationen zu verarbeiten.
Unter ihnen sind die Recurrent Neural Networks (RNN) wahrscheinlich die wichtigsten.
RNNs sind vor allem nützlich bei der Arbeit mit sequenziellen Daten, die es dem Algorithmus erlauben, Vorhersagen zu treffen.
Ein Beispiel ist „Google Suggest“, die Funktion, die Ihnen im Google-Suchfeld bereits bei der Eingabe Suchvorschläge präsentiert.
Ein weiteres Beispiel ist „Smart Compose“, das Feature, welches Ihnen bei Gmail während des Schreibens ganze Sätze, passende Floskeln oder einzelne Wörter vorschlägt.
Assoziationsanalysen
Assoziationsanalysen werden häufig zur Analyse von Verkaufstransaktionen verwendet.
In den meisten Organisationen kommt im Zuge dessen der Apriori-Algorithmus zum Einsatz.
Er sucht logische Zusammenhänge zwischen verschiedenen Objekten.
So kann beispielsweise festgestellt werden, dass Kunden, die Müsli kaufen, in 85% der Fälle auch gleichzeitig Milch kaufen.
Assoziationsanalysen, und im speziellen der Apriori-Algorithmus, kommen somit oft im Zusammenhang mit Recommender Systemen zum Einsatz.
Recommender Systeme
Unter den Recommender Systemen ist besonders der Alternating-Least-Squares-Algorithmus beliebt.
Der Algorithmus hilft Online-Plattformen beispielsweise dabei, Interessenten relevante Kaufempfehlungen anzuzeigen.
Um das zu schaffen, analysiert der Algorithmus, welche Produkte und Dienstleistungen angesehen wurden, oder welche bereits im Warenkorb liegen.
Auf Basis dessen zeigt er dann weitere Kaufempfehlungen an, die genau auf das kundenseitige Kaufverhalten angepasst sind – wodurch die Kaufwahrscheinlichkeit gesteigert werden kann.
Data Mining: Spezialisierungen
Textmining
Als Datentyp liegen Texte meistens in einem unstrukturiert Format vor, wie 80 % der Daten auf der Welt.
Beim Textmining werden Texte mithilfe von Analysetechniken, wie Support Vector Machines (SVM) und anderen Algorithmen, in ein strukturiertes Format umgewandelt.
So können vor allem verborgene Beziehungen in den Daten untersucht und entdeckt werden.
Zudem ist es so möglich, sinnvolle Muster und neue Erkenntnisse zu identifizieren.
Webmining
Mit Webmining können Daten-Muster mithilfe von Content Mining, Structure Mining und Usage Mining aufgedeckt werden.
Content Mining wird verwendet, um Daten zu untersuchen, die von Suchmaschinen und Webspidern gesammelt werden.
Structure Mining wird verwendet, um Daten zu untersuchen, die sich auf die Struktur einer bestimmten Website beziehen.
Usage Mining wiederum wird verwendet, um Daten zu untersuchen, die sich auf den Browser bestimmter Benutzer beziehen, sowie Daten, die von Formularen gesammelt werden, die Benutzer bei Web-Transaktionen eingereicht haben.
Zeitreihenanalyse
Messungen werden oft über einen bestimmten Zeitraum durchgeführt.
Diese Beobachtungen führen zu einer Sammlung von organisierten Daten, die als Zeitreihen bezeichnet werden.
Im Data-Mining-Bereich konzentrieren sich Zeitreihenanalysen darauf, sinnvolles Wissen aus diesen historischen Daten zu extrahieren.
Zeitreihenanalysen sind besonders beliebt, da sie vielseitig eingesetzt werden können.
Beispielsweise sind sie in der Lage, Trends, Anomalien und unerwarteten Schwankungen frühzeitig zu erkennen, welches dabei hilft, Vorhersagen und Prognosen zu erstellen.
Data Mining: Prozess
Der Prozess-Standard wird durch das sechsstufige CRISP-DM-Vorgehensmodell festgelegt.
Aufgabendefinition
In dieser Phase geht es darum, die konkreten Ziele und Anforderungen für das Data Mining festzulegen.
Ergebnis dieser Phase ist die Formulierung der Aufgabenstellung und die Beschreibung der groben Vorgehensweise.
Datenauswahl
Bei der Auswahl der Datenbestände werden alle relevante Daten identifiziert und einer ersten Begutachtung unterzogen.
Dabei ergeben sich mögliche Zusammenhänge und Hypothesen.
In dieser Phase werden auch Probleme, wie fehlende oder falsche Daten, aufgedeckt.
Datenaufbereitung
Die Aufbereitung zielt auf die Behebung möglicher Qualitätsprobleme bei den Daten ab.
In diese Phase fallen also auch die Anpassungen von Datentypen oder der Ausschluss extremer Ausreißer.
Am Ende dieser Phase bleibt eine finale Datenmenge, auf die der gewählte Data-Mining-Algorithmus angewendet werden kann.
Modellierung
Nun folgt die eigentliche Modellierung, in der der ausgewählte Algorithmus zum Einsatz kommt.
An einem aufbereiteten Trainingsdatensatz muss der Algorithmus zeigen, wie präzise er funktioniert.
In dieser Phase werden auch die Parameter des Algorithmus optimiert und mehrere statistische Modelle erstellt.
Bewertung
Anschließend werden die Modelle anhand Fehlerraten und weiteren Kriterien bewertet.
Vor allem in dieser Phase kommt die iterative Natur des CRISP-DM-Vorgehensmodells zum Vorschein.
Erfüllen die Modelle die Erwartungen nämlich nicht, müssen weitere Anpassungen vorgenommen werden.
Implementierung
In dieser Phase werden die gewonnenen Erkenntnisse aufbereitet.
Ziel ist es, sie durch klare und unmissverständliche Visualisierungen auf den Punkt zu bringen.
Anschließend können diese Erkenntnisse für eine einmalige Entscheidung genutzt werden.
Alternativ können Organisationen sich aber auch dafür entscheiden, Data-Mining-Modelle dauerhaft zu integrieren.

Data Mining: Tools
Weka
Weka (Waikato Environment for Knowledge Analysis) wurde bereits 1997 von der Waikato Universität in Neuseeland entwickelt.
Das Tool glänzt bei der Klassifikation und wird über Packages aktuell gehalten.
RapidMiner
RapidMiner bringt sehr viele Schnittstellen für die Anbindung verschiedener Datenquellen mit.
Die umfangreiche Lösung hat ihre Stärken besonders in der Prognose und kommt vor allem in Startups zum Einsatz.
Orange
Das Ziel von Orange ist, vor allem Einsteigern intuitive Data-Mining-Workflows zur Verfügung zu stellen.
Selbst ohne Vorkenntnisse lassen sich so sehr ansprechende Visualisierungen erzeugen.
KNIME
KNIME (Konstanz Information Miner) ist eine Open-Source-Lösung.
Die Lösung ermöglicht eine kurze Einarbeitungszeit und ist so für Organisationen geeignet, die gerade mit Data Mining anfangen.
SAS Enterprise Miner
SAS (Statistical Analysis System) hat mit dem Enterprise Miner die kostenintensivste Data-Mining-Lösungen im Angebot.
SAS Enterprise Miner ist besonders leistungsstark und wird vor allem von große Finanz- und Pharmaunternehmen eingesetzt.

Data Mining: Vorteile
Prognostizierung
Wenn Sie vorhersagen können, welche Produkte oder Dienstleistungen in Zukunft gebraucht werden, können Sie Vorkehrungen treffen.
Durch diesen Wissensvorsprung profitieren Ihre Kunden und Sie von steigenden Absatzzahlen.
Audience Targeting
Data Mining ermöglicht es Ihnen auch, potenzielle Kunden in dynamische Segmente einzuteilen.
Anhand dieser Segmente können Sie Ihre Marketingmaßnahmen entsprechend ausrichten.
Die individuelle Ansprache macht es wahrscheinlicher, Interessenten in Kunden umzuwandeln.
Erkennung von Anomalien
Data Mining kann auch Anomalien in Ihren Daten aufdecken.
Extreme Ausreißer können auf Veränderungen im Nutzerverhalten oder einen Fehler im Prozess hindeuten.
Je schneller diese Muster auffallen, desto eher ist Ihre Organisation in der Lage, sich auf Ausnahmesituationen oder sich wandelnde Umstände einzustellen.
Kostenreduktion
Jeder dieser Vorteile bringt zusätzlich ein Potenzial zur Kostenreduktion mit sich.
Denken Sie an Marketing-Kampagnen, bei denen nur die Interessenten angesprochen werden, die mit hoher Wahrscheinlichkeit einen Kauf tätigen.
Auch in der Produktion können Sie Kosten sparen.
Sei es durch eine stabilere Produktionsprogrammplanung oder die Vermeidung von Maschinenausfällen.
Wettbewerbsvorteile
Data Mining wird zunehmend zur Pflicht, um den Anschluss an den Wettbewerb nicht zu verpassen.
Wenn Sie die Disziplin besonders effizient einsetzen, können Sie sich Wettbewerbsvorteile erschließen.
Das ist vor allem in Märkten ein Vorteil, in dem die Markteintrittsbarrieren niedrig, der Wettbewerbsdruck aber hoch ist.

Data Mining: Herausforderungen
Datenschutz
Der Datenschutz stellt gleich zwei Herausforderung dar.
Zum einen können Kunden sensibel auf die Verarbeitung ihrer persönlichen Daten reagieren.
Zum anderen finden viele Data-Mining-Prozesse in der Public Cloud statt (hier entlang für mehr zum Thema Cloud Computing).
Daher sollten Sie genau prüfen, welchem Cloud-Anbieter Sie Ihre kritischen Geschäftsinformationen anvertrauen.
Datenqualität
Die Verfügbarkeit hochwertiger Daten stellt die größte interne Hürde dar.
So kommt es nicht selten vor, dass relevante Daten gar nicht oder in einer schlechten Qualität erfasst werden.
Fehlende Daten, oder Daten, die mangelhaft sind, lassen sich zwar teilweise durch andere Beobachtungen vervollständigen, das sorgt jedoch für eine aufwendige Datenaufbereitung.
Verteilte Daten
Sind Datenbestände über mehrer Abteilungen verteilt, ist es schwer, eine einheitliche Datenbasis zu erschaffen.
Hierbei stellt besonders die präzise Zuordnung von Datensätzen eine Herausforderung dar.
In der Konsequenz kommt es oft zu fehlenden oder mangelhaften Daten.
Gemischte Datensätze
Wenn mehrere Datenbanksysteme mit unterschiedlichen Datentypen zusammenkommen, wird die Auswertung komplex.
Genau deshalb kommt es immer wieder vor, dass es beim Zusammentragen der Daten zu Informationsverlusten kommt.
Gemischte Datensätze stellen vor allem bei der Clusteranalyse eine Herausforderung dar.
Auswertung
Der Erfolg von Data-Mining-Projekten hängt stark von der Auswertung der Ergebnisse ab.
Hier spielen Visualisierungen, die komplexe Zusammenhänge anschaulich darstellen, eine wichtige Rolle.
Nur so können die Ergebnisse in der Organisation wirksam genutzt und kommuniziert werden.

Data Mining vs. Process Mining
Obwohl Data Mining und Process Mining ähnliche Methoden anwenden, gibt es doch einige Unterschiede.
Offen vs. Definiert
Data-Mining-Projekte beginnen in der Regel mit einer vergleichsweise offenen Fragestellung.
Muster und Trends, die aufgedeckt werden, werden anschließend weiterverfolgt.
Das Process Mining hingegen analysiert definierte Eingangsparameter.
Muster vs. Prozesse
Die Mustererkennung, die durch Data Mining entstehen, gehen in der Regel nicht automatisch in einen Geschäftsprozess über.
Das ist beim Process Mining anders.
Hier liegt der Fokus darauf, Erkenntnisse direkt in Prozesse zu integrieren um diese zu optimieren.
Ergebnisse vs. Ursachen
Daneben unterscheiden sich beide Disziplinen auch bei der Ausrichtung ihrer Analysen.
Beim Data Mining geht es vor allem um die Erkennung bestehender Muster.
Weniger wichtig ist, durch welchen Mechanismus diese Muster entstehen.
Genau darauf fokussiert sich das Process Mining.
Statische vs. Dynamische Daten
Beide Disziplinen benutzen unterschiedliche Daten.
Data Mining richtet den Blick in die Vergangenheit.
Das Process Mining hingegen arbeitet dagegen deutlich stärker mit Echtzeitdaten.
So können Prozesse nämlich mit minimalem Zeitverzug an sich verändernde Bedingungen angepasst werden.
Regelfälle vs. Sonderfälle
Dementsprechend legt das Data Mining seinen Schwerpunkt vor allem auf die größten Muster im Datensatz.
Das Process Mining fokussiert sich dagegen gezielt auf Ausreißer.
Diese deuten nämlich möglicherweise auf fehlerhafte Prozesse hin und sollten prozessual abgefangen werden.

Data Mining: Ausblick & Trends
Echtzeit-Data-Mining
Herkömmliche Ansätze im Data Mining beruhen darauf, dass ein vollständiger Datensatz existiert.
Auf diesen werden Algorithmen angewendet, wobei statische Modelle entsteht.
Neue Verfahren beim maschinellen Lernen ermöglichen es jedoch, dass diese statistischen Modelle sich kontinuierlich an wachsende Datenbestände anpassen können.
In 2022 und darüber hinaus wird Data Mining somit zunehmend verwertbare Erkentnisse in Echtzeit liefern können.
Web Data Mining
Der Onlinehandel erlebt einen Boom.
Heutzutage sind nämlich nicht nur etablierte Brands im Internet vertreten, sonder es kommen täglich kleine und unabhängige Brands hinzu.
Hier kommt Web Data Mining ins Spiel.
Mit Web Data Mining kann das Verhalten von Webseiten-Besuchern analysiert und ausgewertet werden.
In den nächsten Jahren wird das immer wichtiger, denn das hilft dabei, unvergleichliche Kundenerlebnisse zu schaffen, die Online-Brands letztendlich wettbewerbsfähiger machen.
Ubiquitous Data Mining
Ubiquitous Data sind asynchrone und dezentrale Daten, die aus lose gekoppelten, teilweise überlappenden, möglicherweise widersprüchlichen, Quellen hervorgehen.
Das Sammeln solcher Daten in einem zentralen Data Warehouse kann teuer sein.
Zudem kann dies für einige Anwendungen sogar unmöglich sein – besonders mit Hinblick auf Echtzeitdaten.
Deswegen richten Organisationen ihren Fokus zunehmend auf Datenströme, und nicht auf Daten Repositories.
Organisationen, die sich auf Datenströme konzentrieren, können zukünftig auch Data Mining einsetzen, um diese auszuwerten.
Distributed Data Mining
Die Analyse von verteilte Daten an einem zentralen Ort ist meistens ineffizient und kann zu Sicherheitsrisiken führen.
Das Distributed Data Mining entwickelt Algorithmen, die verteilte Daten analysieren können, ohne diese zuerst an einem zentralen Ort zusammen zu führen.
Da in Zukunft die zu verarbeitenden Datenmengen weiter wachsen werden, sollten auch Sie sich mit dem Thema Distributed Data Mining auseinandersetzen.
Data Mining im Gesundheitswesen
Daneben leistet das Data Mining zunehmend einen Beitrag für den wissenschaftlichen Fortschritt.
Beispiel Bioinformatik: Hier entstehen große Datenmengen, etwa bei der Analyse von DNA-Sequenzen oder bei der Bilderkennung von Krebs-Mutationen.
Data Mining macht diese Datenmengen handhabbar und deckt verborgene Zusammenhänge auf.
Das Auftreten neuartiger Erkrankungen macht das Data Mining zudem vor allem in der Molekularbiologie zu einem unverzichtbaren Werkzeug.

Fazit
Heutzutage nutzen Organisationen Data Mining um interne und externe Trends aufzudecken.
Das erlaubt ihnen, Entscheidungen zu beschleunigen, Probleme zu lösen, Risiken zu mindern und neue Chancen zu ergreifen.
Nichtsdestotrotz sollten Sie nicht nur die Vorteile, sondern auch die Herausforderungen abwägen, bevor Sie sich für eine Data-Mining-Lösung entscheiden.
Es ist aber sicher, dass zukünftige Data-Mining-Entwicklungen Ihnen ermöglichen werden, noch mehr aus Ihren Daten herauszuholen.
Das Ziel ist es, Daten in Informationen und Informationen in Erkenntnisse zu verwandeln.
Wir haben Ihr Interesse geweckt?
Hier finden Sie weitere Technologie-Ratgeber!