Data Mining

Mehrwert mit Ihren Daten erzeugen

(c) iStock.com, GreenPimp

Informationen aus Ihren Daten abzuleiten ist eine Sache. Die Daten zu nutzen, um daraus einen Mehrwert zu erzeugen eine andere. Mehrwert aus den Daten entsteht in der Regel durch die Ableitung eines Modells, einer operativen Zusammenfassung der Daten zu einer Struktur, mit der zukünftig Aussagen generierbar sind oder Entscheidungen getroffen werden können.

Modelle des überwachten Lernens reichen von einfachen Regressionsmodellen zur Vorhersage numerischer Größen, über Klassifikationsregeln und Erkennungsverfahren zur Einordnung von Daten in vorgegebene Klassen, bis hin zu probabilistischen Modellen, mit denen der Grad der Zugehörigkeit zu bekannten Kategorien bestimmt werden kann.

(c) iStock.com, tibu

Während bei Verfahren des überwachten Lernens die Art des Ergebnisses bereits bekannt ist, dienen Verfahren des nicht-überwachten Lernens der Exploration der Daten und der Entdeckung bisher unbekannter Zusammenhänge. Auch für das nicht-überwachte Data Mining stehen eine Vielzahl von Verfahren zur Verfügung, von Verfahren die die Daten in bisher unbekannte Klassen unterscheiden, über hierarchische und probabilistische Clustering-Verfahren, mit denen zusätzliche Strukturen in den Klassen identifizierbar werden oder der Grad der Zugehörigkeit der Daten zu einem Cluster ermittelbar ist, über Verfahren die zur Reduktion des Berechnungsaufwands Feature mit der besten Vorhersagequalität identifizieren, bis hin zu Verfahren, die die wahrscheinlichste Klassenstruktur und -zugehörigkeit für eine Datenmenge konstruieren.

Nebenbei: Eine Daumenregel im maschinellen Lernen besagt, dass mindestens 10-mal mehr Trainingsbeispiele benötigt werden, als die Trainingsmenge Feature besitzt. Besonders bei kleinen Trainingsmengen mit einer großen Anzahl von Featuren kann sich daher eine Reduktion der "Dimensionalität" der Trainingsbeispiele  als zweckmäßig erweisen. SVD (single value decomposition) oder PCA (principal component analysis) können dies leisten.