Wissensentdeckung in Datenbanken
| Veranstaltung |
Wochentag |
Termin | Ort |
| 042213 |
Montag |
10.15 - 12.00 |
HG1/HS2 |
| 042213 |
Donnerstag |
14.15 - 16.00 |
HG1/HS2 |
4V + 2 Ü
Lehrverantwortliche
Prof. Dr. Katharina Morik
Prof. Dr. Claus Weihs
Inhalt
Die Vorlesung gibt einen Überblick über das Zusammenspiel von
Datenmanagement und Datenanalyse in großen Datenbanken. Der Prozess der
Datenanalyse wird
anhand des CRISP-Modells vorgestellt, eine Unterstützung der
Vorverarbeitungsschritte bietet das System MiningMart.
Für die einzelnen Schritte des Datenanalyseprozesses werden jeweils
typische Verfahren vermittelt. Die Verfahren reichen von einfachen
Datenbankoperationen, wie z.B. SQL-Anfragen an die Datenbank, bis zu
komplexen Datenanalyseverfahren aus Statistik oder Maschinellem Lernen.
Als besonders wichtige Data Mining Methoden werden Klassifikations- und
Clustering-Verfahren eingeführt, darunter die k-means-Methode, das
Bestimmen von Entscheidungsbäumen, Assoziationsregeln und logischer
Regeln, das Berechnen von DataCubes und die Stützvektormethode. Einen
Schwerpunkt bildet auch die Abschätzung der Glaubwürdigkeit der
Ergebnisse mit Hilfe von geeigneten Testdesigns wie z.B. Kreuzvalidierung
oder Bootstrapping.
In den Übungen wird Datenmanagement und Datenanalyse anhand von Daten
aus der Praxis eingeübt.
Interdisziplinäre Veranstaltung
Diese Veranstaltung finden im interdisziplinären Rahmen zusammen mit dem Fachbereich Statistik statt.
Vorlesungs- und Übungsmaterialien
Materialien zur Vorlesung wie Folien, Übungsblätter und Datensätze sind hier zu finden:
http://www.statistik.uni-dortmund.de/de/content/einrichtungen/lehrstuehle/computergestuetzt/veranstalt.html
Folien zur Vorlesung
Blatt 5 (vom 04.05.06) liegt hier.
Für Aufgabe 5.3 wird der mushrooms Datensatz benötigt.
Blatt 6 (vom 11.05.06) liegt hier.
Für Aufgabe 6.2 wird der Datensatz house-votes benötigt:
Attributbeschreibung, eigentliche Daten,
optionale textuelle Beschreibung,
oder einfach als eine ZIP-Datei
Hier befinden sich schlussendlich noch