Seminar Datamining

Diese Seite: inhaltliche Planung des Bachelor-Seminars WIF640; Thema dieses Semester: Datamining

Ort und Zeit:

Donnerstags, 16:10-17:40 Uhr
TI 109

Moodle:

https://moodle.haw-landshut.de/course/view.php?id=950 (Schlüssel: "Wissenschaft")

Vorbesprechung

~~KW 11 (erste Semesterwoche), also Do 2016-03-17 16:10 Uhr~~
NEU 14.3.2016: Vorbesprechung: Do 2016-03-31 T 14:30 Uhr TI 107

Datamining ist ein nicht nur ein hochaktuelles, sondern auch umfangreiches Gebiet. Im Bachlorstudiengang Informatik wird zurzeit keine Grundlagenveranstaltung angeboten, auf die das Seminar aufbauen könnte.

Gottseidank gibt es z.B. mit dem Buch "Data Mining" von Witten, Frank und Hall (2011) ein hervorragendes Lehrbuch incl. Software, das wunderbar gleichermaßen als Einführung und Vertiefung dienen kann:

Lehrbuch: Witten, Ian H.; Frank, Eibe; Hall, Mark A.: Data Mining. Practical Machine Learning Tools and Techniques. Amsterdam, Elsevier, 2011
Software: http://www.cs.waikato.ac.nz/ml/weka/index.html
Lehr-Videos auf youtube: http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/

In der Veranstaltung WIF 640 erarbeiten wir uns in Form eines Seminars die konzeptionellen Grundlagen dieses Themas.

NEU 2016-03-07:

Auch in diesem Semester werden insgesamt 3 Seminare WIF 640 angeboten:

Seminar von Kollege Prof. J.Staud, Thema "Geschäftsprozess-Management", Aushang mit Ort und zeit kommt noch
Seminar von Kollege Prof. J. Wunderlich, zum Thema "Künstliche Neuronale Netze"; Informationsveranstaltung mit Terminplanung und Themenvergabe: 31.03.16, ab 14:30 Uhr;
Dieses Seminar hier zum Thema "Data Mining"

Um den Studierenden zu ermöglichen, sich über alle 3 Seminare zu informieren und sich nach Interesse ein Thema zu suchen, wird mein Termin am Do 2016-03-17 16:10 Uhr eine Vor-Vorbesprechung sein; je nach Teilnehmerinteresse werden wir dann ab Ende März die eigentlichen verbindlichen Einschreibungen organisieren.

NEU 14.3.2016: Vorbesprechung: Do 2016-03-31 T 14:30 Uhr TI 107

Seminarinhalt

Wir werden uns in den ersten 2 Wochen des Semesters die Grundlagen von Datamining durch ein diszipliniertes Literatur-Selbststudium aneignen. Die Inhalte dieser Lektüre sind:

Chapter 1-3 (pp. 1-83): gründlich und z.T. auch im Detail verstehen
Chapter 4, für jeden Abschnitt 4.1 bis 4.10 jeweils die Grundidee des Modells aus den einleitenden Absätzen verstehen (aber keine Details)
Chapter 5 (pp. 147-187): Grundideen verstehen
Part 3 (Software): Weka downloaden, damit spielen; nach Bedarf in die Präsentationen einbinden

In den KW 13, 14 und 15 hält jeder TN einen 5-Minuten Kurzvortrag zu den Grundlage und Grundbegriffen seines individuellen Themas.

Nach diesen 5 Einstiegswochen werden wir eine Wissensgrundlage geschaffen haben, von der aus wir in den folgenden Präsentationen arbeitsteilig in die Tiefe gehen können.

In den Fach-Vorträgen werden die einzelnen Inhalte aus den Kapiteln 1-4 dargestellt, wobei sich die Themen je nach Interesse durch die Überschriften aus Kapitel 6-9 ergeben:

Chapter 6: Implementations: Real machine learning schemes

6.1 Decision Trees
6.2 Classification Rules
6.3 Association Rules
6.4 Extending Linear Models: nur Support Vector Machines SVM
6.5 Instance-Based Learning
6.8 Clustering
6.9 Semisupervised Learning

Chapter 7: Data Transformations

7.1 Attribute Selection
7.2 Discretizing Numeric Attributes
7.3 Projections
7.4 Sampling
7.5 Cleansing
7.6 Transforming Multiple Classes to Binary Ones

Chapter 9: Moving on: Applications and Beyond, z.B.

9.2 Learning from Massive Datasets
9.3 Data Stream Learning
9.4 Incorporating Domain Knowledge
9.5 Text Mining
9.6 Web Mining
im Web: Mining Big Data using Weka 3

Inhalt des Vortrags:

Sachdarstellung auf Basis von Kapitel 1-4
bei Bedarf inhaltlich ergänzt durch Vertiefungen aus Kapitel 6, 7 und/oder 9
ergänzt durch Screeshots oder Live-Vorführung eines didaktischen Beispiels des Themas mit der Weka- Software

Bitte beachten Sie: Auch wenn wir Chapter 6 und 7 je nach Interesse der TN arbeitsteilig behandeln geht das nicht ohne ein gründliches Verständnis der (und nicht ohne Rückbezüge auf die) o.A. Grundlagen. Sich lediglich auf ein Detail zu konzentrieren, ohne es in das große Ganze einzuordnen führt nicht zu einer guten Präsentation.

Aus dem gleichen Grund werden wir - unabhängig von der tatsächlichen Anzahl von Seminarteilnehmern - alle Vertiefungsthemen vernetzt behandeln; jeder Teilnehmer sollte also in seiner Präsentation je einen Aspekt aus Chapter 7 und Chapter 9 zur Sprache bringen.

Bewertungsgrundlagen

Laut Modulhandbuch ist eine Präsentation vorgesehen. Ich bewerte eine Präsentation auf Grundlage der Inhalte (statt z.B. der Rhetorik); die Inhalte wiederum setze ich vorwiegendst als medial-schriftlich (statt rhein mündlich) codiert voraus. Bewertungsgrundlage sind also insbesondere Präsentationsmedien wie z.B. Slides und Teilnehmer-Handout.

Text-Typ für die Präsentation:

informatives, didaktisiertes Lang-Referat mit Visualisierungen (slides, Poster etc.); Priorität hat eine fundierte Sachdarstellung;

eine diskursive Auseinadersetzung mit einer konkreten, auf einen konkreten Fall bezogenen Fragestellung, wie ich es in anderen Seminaren einfordere, ist in dieser Veranstaltung zwar möglich, aber nicht zwingend erforderlich: zuerst müssen wir uns um die Grundlagen kümmern!

Bewertung: http://www.jbusse.de/traktate/KriterienPraesentation.html

Interessante Aspekte

Grundidee des Algorithmus

an einem einfachen didaktischen Beispiel
in der Realität?

Algorithmus (ggf. incl. Komplexität)

um das Modell zu bauen
um eine Instanz zu klassifizieren
um das Modell zu validieren (z.B. Kreuzvalidierung)

interessante Überlegungen

Visualisierung des Modells
Modelltyp
Test des Modells: support, confidence, coverage, accuracy
Trainingsset
(un)überwachtes Lernen
Umgang mit overfitting
eager vs. lazy
top down oder bottom up
Verhalten bei
- "unpassenden" (numerischen, kardinalen etc.) Attributen
- fehlenden Attributen
- Rauschen
- Ausreißer, Extremwerte
Verhalten bei neuen (Lern-) Instanzen
indirekte Methode vs. direkte Methode
Algorithmus tauglich für Big Data?

Vergleich von unterschiedlichen Modellen

Performance
- lernen
- klassifizieren
- big data: weiterlernen
Robustheit gegenüber Ausreißern
Skalierbarkeit
Interpretierbarkeit
Komplexität des Modelltests

klassische Anwendungen für diesen Algorithmus