Seminar Datamining (WIF 640, IM 820)

Diese Seite: Information und inhaltliche Planung von zwei inhaltlich ähnlichen, bzgl. Ort, Zeit und Anspruch aber verschiedenen Veranstaltungen im WS 2017: das Bachelor-Seminar WIF640 und Master-Seminar IM820. Für eine Definition der Inhalte, Lernziele der Seminare WIF640 und IM820 siehe die Modulbeschreibungen im jeweiligen Modulhandbuch.

WIF640

Vorbesprechung und Einführung JB:

Do 2017-10-05, 08:45 Uhr, TI 103

Moodle:

WIF640 - Bachelor-Seminar Datamining (Busse) WS 17/18, Einschreibeschlüssel: Wissenschaft

Abgabe:

Sa 3.3.2018 12:00 Uhr über Moodle 85816

IM820

Vorbesprechung:

Fr 2017-10-06, 10:30-12:00 Uhr IF008

Moodle:

IM820 - Masterseminar Datamining (Busse) WS 17/18, Einschreibeschlüssel: Wissenschaft

Abgabe:

Sa 3.3.2018 12:00 Uhr über Moodle 85327

Es herrscht Anwesenheitspflicht. Bei mehr als zwei Abwesenheitsterminen (egal ob mit oder ohne Attest) kann leider kein Schein erworben werden.

Seminarinhalt

Datamining ist ein nicht nur ein hoch aktuelles, sondern auch umfangreiches Gebiet. Im Bachlorstudiengang Informatik wird zurzeit keine Grundlagenveranstaltung angeboten, auf die das Seminar aufbauen könnte. Gottseidank gibt es z.B. mit dem Buch "Data Mining" von Witten, Frank und Hall (2011) ein hervorragendes Lehrbuch incl. Software, das wunderbar gleichermaßen als Einführung und Vertiefung dienen kann:

unser Lehrbuch:
- Witten2011 (in der HAW LA als pdf Volltext verfügbar)
aktueller (und in verschiedenen Bayerischen Unibibliotheken als Volltext verfügbar) wäre Witten2017, aber die 3. Aufage Witten 2011 ist auch ok.
Website: http://www.cs.waikato.ac.nz/ml/weka/
Software:
- http://www.cs.waikato.ac.nz/ml/weka/index.html
Lehr-Videos auf youtube:
- http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/

Grundlagenstoff im Weka-Buch, *von jedem TN* zu erarbeiten:

Chapter 1-3 (pp. 1-82): gründlich und z.T. auch im Detail verstehen
Chapter 4, für jeden Abschnitt 4.1 bis 4.10:
- Aus den einleitenden Absätzen jeweils die Grundidee des Modells verstehen
- einmal grob darüberschauen, worin sich die Inhalte von Chapter 4 von Chapter 1-3 unterscheiden
Chapter 5 (pp. 147-187): Grundideen verstehen
Part 3 (Software): Weka downloaden, damit spielen; nach Bedarf in die Präsentationen einbinden

Die Vorträge bauen auf o.a. Grundlagenstoff auf und orientieren sich an folgenden Kapiteln aus Witten2001 resp. Witten2017:

Modelltyp	Witten2011	Witten2017
Decision Trees	6.1	6.1
Classification Rules	6.2	6.2
Association Rules	6.3	6.3
Extending Linear Models	6.4	7.2
Instance-Based Learning	6.5	7.1
Numeric Prediction with Local Linear Models	6.6	7.3
Bayesian Networks	6.7	9.2
Clustering	6.8	9.3
Semisupervised Learning	6.9	11.1
Multi-Instance Learning	6.10	11.2

In jedem Vortrag soll außerdem klar werden, welcher der Aspekte aus dem Kapitel "Data Transformations" (Witten2001: Kap. 7; Witten2017: Kap. 8) für das jeweilige Modell relevant ist:

7.1 Attribute Selection
7.2 Discretizing Numeric Attributes
7.3 Projections
7.4 Sampling
7.5 Cleansing
7.6 Transforming Multiple Classes to Binary Ones
7.7 Calibrating Class Probabilities

Bitte beachten Sie: Auch wenn wir Chapter 6 und 7 arbeitsteilig behandeln geht das nicht ohne ein gründliches Verständnis der (und nicht ohne Rückbezüge auf die) o.A. Grundlagen. Sich lediglich auf ein Detail zu konzentrieren, ohne es in das große Ganze einzuordnen führt nicht zu einer guten Präsentation.

Wer bereits Vorkenntnisse im Bereich Data Mining vorweisen kann (hallo Master-Studierende?), kann auch sehr gerne ein Vertiefungsthema aus "Chapter 9: Moving on: Applications and Beyond" wählen, z.B.:

9.2 Learning from Massive Datasets
9.3 Data Stream Learning
9.4 Incorporating Domain Knowledge
9.5 Text Mining
9.6 Web Mining
im Web:
- Mining Big Data using Weka 3

Bewertungsgrundlagen

Um Chancengleichheit zu wahren, muss jeder seine vorläufigen Präsentationsmedien (Slides, vorläufiger Text) bis zum allerersten Vortrag auf Moodle hochgeladen haben. Der Vortrag dient dann der mündlichen Darstellung der vorläufigen Präsentationsmedien. Dann gibt es Feedback, aufgrund dessen dann die Präsentationsmedien überarbeitet und zum Semesterende in Form einer schriftlichen Ausarbeitung abgegeben werden können.

Bewertungsgrundlage ist dann die schriftliche Ausarbeitung vom Text-Typ eines informativen, didaktisierten schriftlichen Lang-Referats, in welchem die selbst erstellten Visualisierungen enthalten sind. Also: Ich bewerte eine Präsentation auf Grundlage der Inhalte (statt z.B. der Rhetorik). Die Inhalte setze ich vorwiegend als medial-schriftlich (statt rein mündlich) codiert voraus. Bewertungskriterien siehe http://www.jbusse.de/traktate/KriterienPraesentation.html

Präsentation

Idee für WIF640 und IM820: Ein kleines Handbuch, das die einzelnen Machine Learning Schemes aus Kap. 6 für Bachelor-Studierende im 6. Semester bescheibt.

Äußerliche Unterschiede

	WIF640	IM820
Vortrag	30 Minuten +- 10%	45 Minuten +-10%
	maximal 20 Slides	dito
	mindestens 10, darunter mindestens 5 selbst erstellte Abbildungen	dito
schriftliche Ausarbeitung	enthält die Abbildungen aus dem Vortrag	dito
	1500 Wörter +- 10%	2000 Wörter +- 10%
	Schwerpunkt didaktische Aufbereitung, Wort-Bild-Text Präsentation	Schwerpunkt Theorie, incl. Komplexitäts-Abschätzung etc.

Aufbau WIF640

Inhalt von Vortrag und Ausarbeitung: eine didaktische, anschauliche Beschreibung

des Modellaufbaus
der Modellverwendung
an einem Beispiel-Datensatz aus Weka
incl. Screenshots, wie das in der Weka-Software praktisch aussieht
ggf. Abschätzung Komplexität

Aufbau IM820

Inhalt von Vortrag und Ausarbeitung: eine didaktische, anschauliche Beschreibung ähnlich WIF640, zusätzlich z.B.:

Lernverfahren
- Komplexität, Performance
- Weiter-Lernen bei neuen Trainings-Datensätzen
- geeignet für Big Data?
- Interpretierbarkeit des Modells
Verhalten bei problematischen Attributen (vgl. auch Weka Kap. 7):
- "unpassende" (numerische, kardinale etc.) Attribut-Typen
- fehlende Attributwerte
- Ausreißer
- zusätzliches Attribut
  - hoch korreliert abhängig von einem gegebenen Attribut
  - unabhängig, zufällig
Klassifikations-Verfahren
- Komplexität, Performance
an einem Datensatz aus Weka, besser aber in R

Literatur

Witten2011 Witten, Ian H.; Frank, Eibe; Hall, Mark A.: Data Mining. Practical Machine Learning Tools and Techniques. Amsterdam, Elsevier, 2011 Witten2017 Ian H. Witten, Eibe Frank, Mark A. Hall, Christopher J. Pal: Practical Machine Learning Tools and Techniques (Morgan Kaufmann Series in Data Management Systems). 4th Edition 2017 Website: http://www.cs.waikato.ac.nz/ml/weka/book.html