Seminar Datamining (WIF 640, IM 820)
Diese Seite: Information und inhaltliche Planung von zwei inhaltlich ähnlichen, bzgl. Ort, Zeit und Anspruch aber verschiedenen Veranstaltungen im WS 2017: das Bachelor-Seminar WIF640 und Master-Seminar IM820. Für eine Definition der Inhalte, Lernziele der Seminare WIF640 und IM820 siehe die Modulbeschreibungen im jeweiligen Modulhandbuch.
WIF640
Vorbesprechung und Einführung JB:
- Do 2017-10-05, 08:45 Uhr, TI 103
Moodle:
- WIF640 - Bachelor-Seminar Datamining (Busse) WS 17/18, Einschreibeschlüssel: Wissenschaft
Abgabe:
- Sa 3.3.2018 12:00 Uhr über Moodle 85816
IM820
Vorbesprechung:
- Fr 2017-10-06, 10:30-12:00 Uhr IF008
Moodle:
- IM820 - Masterseminar Datamining (Busse) WS 17/18, Einschreibeschlüssel: Wissenschaft
Abgabe:
- Sa 3.3.2018 12:00 Uhr über Moodle 85327
Es herrscht Anwesenheitspflicht. Bei mehr als zwei Abwesenheitsterminen (egal ob mit oder ohne Attest) kann leider kein Schein erworben werden.
Seminarinhalt
Datamining ist ein nicht nur ein hoch aktuelles, sondern auch umfangreiches Gebiet. Im Bachlorstudiengang Informatik wird zurzeit keine Grundlagenveranstaltung angeboten, auf die das Seminar aufbauen könnte. Gottseidank gibt es z.B. mit dem Buch "Data Mining" von Witten, Frank und Hall (2011) ein hervorragendes Lehrbuch incl. Software, das wunderbar gleichermaßen als Einführung und Vertiefung dienen kann:
- unser Lehrbuch:
- Witten2011 (in der HAW LA als pdf Volltext verfügbar)
- aktueller (und in verschiedenen Bayerischen Unibibliotheken als Volltext verfügbar) wäre Witten2017, aber die 3. Aufage Witten 2011 ist auch ok.
- Website: http://www.cs.waikato.ac.nz/ml/weka/
- Software:
- Lehr-Videos auf youtube:
Grundlagenstoff im Weka-Buch, *von jedem TN* zu erarbeiten:
- Chapter 1-3 (pp. 1-82): gründlich und z.T. auch im Detail verstehen
- Chapter 4, für jeden Abschnitt 4.1 bis 4.10:
- Aus den einleitenden Absätzen jeweils die Grundidee des Modells verstehen
- einmal grob darüberschauen, worin sich die Inhalte von Chapter 4 von Chapter 1-3 unterscheiden
- Chapter 5 (pp. 147-187): Grundideen verstehen
- Part 3 (Software): Weka downloaden, damit spielen; nach Bedarf in die Präsentationen einbinden
Die Vorträge bauen auf o.a. Grundlagenstoff auf und orientieren sich an folgenden Kapiteln aus Witten2001 resp. Witten2017:
Modelltyp | Witten2011 | Witten2017 |
Decision Trees | 6.1 | 6.1 |
Classification Rules | 6.2 | 6.2 |
Association Rules | 6.3 | 6.3 |
Extending Linear Models | 6.4 | 7.2 |
Instance-Based Learning | 6.5 | 7.1 |
Numeric Prediction with Local Linear Models | 6.6 | 7.3 |
Bayesian Networks | 6.7 | 9.2 |
Clustering | 6.8 | 9.3 |
Semisupervised Learning | 6.9 | 11.1 |
Multi-Instance Learning | 6.10 | 11.2 |
In jedem Vortrag soll außerdem klar werden, welcher der Aspekte aus dem Kapitel "Data Transformations" (Witten2001: Kap. 7; Witten2017: Kap. 8) für das jeweilige Modell relevant ist:
- 7.1 Attribute Selection
- 7.2 Discretizing Numeric Attributes
- 7.3 Projections
- 7.4 Sampling
- 7.5 Cleansing
- 7.6 Transforming Multiple Classes to Binary Ones
- 7.7 Calibrating Class Probabilities
Bitte beachten Sie: Auch wenn wir Chapter 6 und 7 arbeitsteilig behandeln geht das nicht ohne ein gründliches Verständnis der (und nicht ohne Rückbezüge auf die) o.A. Grundlagen. Sich lediglich auf ein Detail zu konzentrieren, ohne es in das große Ganze einzuordnen führt nicht zu einer guten Präsentation.
Wer bereits Vorkenntnisse im Bereich Data Mining vorweisen kann (hallo Master-Studierende?), kann auch sehr gerne ein Vertiefungsthema aus "Chapter 9: Moving on: Applications and Beyond" wählen, z.B.:
- 9.2 Learning from Massive Datasets
- 9.3 Data Stream Learning
- 9.4 Incorporating Domain Knowledge
- 9.5 Text Mining
- 9.6 Web Mining
- im Web:
Bewertungsgrundlagen
Um Chancengleichheit zu wahren, muss jeder seine vorläufigen Präsentationsmedien (Slides, vorläufiger Text) bis zum allerersten Vortrag auf Moodle hochgeladen haben. Der Vortrag dient dann der mündlichen Darstellung der vorläufigen Präsentationsmedien. Dann gibt es Feedback, aufgrund dessen dann die Präsentationsmedien überarbeitet und zum Semesterende in Form einer schriftlichen Ausarbeitung abgegeben werden können.
Bewertungsgrundlage ist dann die schriftliche Ausarbeitung vom Text-Typ eines informativen, didaktisierten schriftlichen Lang-Referats, in welchem die selbst erstellten Visualisierungen enthalten sind. Also: Ich bewerte eine Präsentation auf Grundlage der Inhalte (statt z.B. der Rhetorik). Die Inhalte setze ich vorwiegend als medial-schriftlich (statt rein mündlich) codiert voraus. Bewertungskriterien siehe http://www.jbusse.de/traktate/KriterienPraesentation.html
Präsentation
Idee für WIF640 und IM820: Ein kleines Handbuch, das die einzelnen Machine Learning Schemes aus Kap. 6 für Bachelor-Studierende im 6. Semester bescheibt.
Äußerliche Unterschiede
WIF640 | IM820 | |
Vortrag | 30 Minuten +- 10% | 45 Minuten +-10% |
maximal 20 Slides | dito | |
mindestens 10, darunter mindestens 5 selbst erstellte Abbildungen | dito | |
schriftliche Ausarbeitung | enthält die Abbildungen aus dem Vortrag | dito |
1500 Wörter +- 10% | 2000 Wörter +- 10% | |
Schwerpunkt didaktische Aufbereitung, Wort-Bild-Text Präsentation | Schwerpunkt Theorie, incl. Komplexitäts-Abschätzung etc. |
Aufbau WIF640
Inhalt von Vortrag und Ausarbeitung: eine didaktische, anschauliche Beschreibung
- des Modellaufbaus
- der Modellverwendung
- an einem Beispiel-Datensatz aus Weka
- incl. Screenshots, wie das in der Weka-Software praktisch aussieht
- ggf. Abschätzung Komplexität
Aufbau IM820
Inhalt von Vortrag und Ausarbeitung: eine didaktische, anschauliche Beschreibung ähnlich WIF640, zusätzlich z.B.:
- Lernverfahren
- Komplexität, Performance
- Weiter-Lernen bei neuen Trainings-Datensätzen
- geeignet für Big Data?
- Interpretierbarkeit des Modells
- Verhalten bei problematischen Attributen (vgl. auch Weka Kap. 7):
- "unpassende" (numerische, kardinale etc.) Attribut-Typen
- fehlende Attributwerte
- Ausreißer
- zusätzliches Attribut
- hoch korreliert abhängig von einem gegebenen Attribut
- unabhängig, zufällig
- Klassifikations-Verfahren
- Komplexität, Performance
- an einem Datensatz aus Weka, besser aber in R