Hauptnavigation

Sampling

Bei der Wissensentdeckung in Datenbanken werden oft sehr große Datenvolumina verarbeitet. Die verwendeten Data Mining Algorithmen skalieren in aller Regel jedoch super-linear, sodass das Sampling in diesem Kontext einen unabdingbaren Vorverarbeitungsschritt darstellt. Intelligente Sampling-Verfahren analysieren die Stichprobenkomplexität der verwendeten Lernverfahren und erlauben es, auf Grundlage weniger Daten bereits Ergebnisse mit probabilitischen Garanitien zu liefern. Darüber hinaus stellen komplexere Sampling-Verfahren die Grundlage der meisten Ensemble-Lerner dar und erlauben die Berücksichtigung von Vorwissen und asymmetrischen Kostenfunktionen ohne jegliche Modifikation des verwendeten Basislerners.

Projekte

SFB 475 subproject A4

Software

RapidMiner (YALE)
RapidMiner Data Stream Plugin (formerly: YALE Concept Drift Plugin)

Personen

Scholz, Martin

Abgeschlossene Diplomarbeiten

Publikationen

Scholz/Klinkenberg/2006b Scholz, Martin and Klinkenberg, Ralf. Boosting Classifiers for Drifting Concepts. In Intelligent Data Analysis (IDA), Special Issue on Knowledge Discovery from Data Streams, Vol. 11, No. 1, Seiten 3--28, 2007.
Scholz/2005a Scholz, Martin. Knowledge-Based Sampling for Subgroup Discovery. In Morik, Katharina and Boulicaut, Jean-Francois and Siebes, Arno (editors), Local Pattern Detection, Vol. LNAI 3539, Seiten 171--189, Springer, 2005.
Scholz/2005b Scholz, Martin. Sampling-Based Sequential Subgroup Mining. In Grossman, R. L. and Bayardo, R. and Bennett, K. and Vaidya, J. (editors), Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '05), Seiten 265--274, Chicago, Illinois, USA, ACM Press, 2005.
Scholz/2005c Scholz, Martin. Comparing Knowledge-Based Sampling to Boosting. No. 26, Collaborative Research Center on the Reduction of Complexity for Multivariate Data Structures (SFB 475), University of Dortmund, Dortmund, Germany, 2005.
Scholz/Klinkenberg/2005a Scholz, Martin and Klinkenberg, Ralf. An Ensemble Classifier for Drifting Concepts. In Gama, J. and Aguilar-Ruiz, J. S. (editors), Proceedings of the Second International Workshop on Knowledge Discovery in Data Streams, Seiten 53--64, Porto, Portugal, 2005. Arrow Symbol
Wrobel/etal/2000a Wrobel, Stephan and Morik, Katharina and Joachims, Thorsten. Maschinelles Lernen und Data Mining. In Görz, G. and Rollinger, C.-R. and Schneeberger, J (editors), Einführung in die Künstliche Intelligenz, Seiten 517--597, Oldenburg, 2000.