Seminar Datamining (WIF 640, IM 820)

Diese Seite: Information und inhaltliche Planung von zwei inhaltlich ähnlichen, bzgl. Ort, Zeit und Anspruch aber verschiedenen Veranstaltungen im WS 2017: das Bachelor-Seminar WIF640 und Master-Seminar IM820. Für eine Definition der Inhalte, Lernziele der Seminare WIF640 und IM820 siehe die Modulbeschreibungen im jeweiligen Modulhandbuch.

WIF640

Vorbesprechung und Einführung JB:

  • Do 2017-10-05, 08:45 Uhr, TI 103

Moodle:

Abgabe:

IM820

Vorbesprechung:

  • Fr 2017-10-06, 10:30-12:00 Uhr IF008

Moodle:

Abgabe:

Es herrscht Anwesenheitspflicht. Bei mehr als zwei Abwesenheitsterminen (egal ob mit oder ohne Attest) kann leider kein Schein erworben werden.

Seminarinhalt

Datamining ist ein nicht nur ein hoch aktuelles, sondern auch umfangreiches Gebiet. Im Bachlorstudiengang Informatik wird zurzeit keine Grundlagenveranstaltung angeboten, auf die das Seminar aufbauen könnte. Gottseidank gibt es z.B. mit dem Buch "Data Mining" von Witten, Frank und Hall (2011) ein hervorragendes Lehrbuch incl. Software, das wunderbar gleichermaßen als Einführung und Vertiefung dienen kann:

Grundlagenstoff im Weka-Buch, *von jedem TN* zu erarbeiten:

  • Chapter 1-3 (pp. 1-82): gründlich und z.T. auch im Detail verstehen
  • Chapter 4, für jeden Abschnitt 4.1 bis 4.10:
    • Aus den einleitenden Absätzen jeweils die Grundidee des Modells verstehen
    • einmal grob darüberschauen, worin sich die Inhalte von Chapter 4 von Chapter 1-3 unterscheiden
  • Chapter 5 (pp. 147-187): Grundideen verstehen
  • Part 3 (Software): Weka downloaden, damit spielen; nach Bedarf in die Präsentationen einbinden

Die Vorträge bauen auf o.a. Grundlagenstoff auf und orientieren sich an folgenden Kapiteln aus Witten2001 resp. Witten2017:

Modelltyp Witten2011 Witten2017
Decision Trees 6.1 6.1
Classification Rules 6.2 6.2
Association Rules 6.3 6.3
Extending Linear Models 6.4 7.2
Instance-Based Learning 6.5 7.1
Numeric Prediction with Local Linear Models 6.6 7.3
Bayesian Networks 6.7 9.2
Clustering 6.8 9.3
Semisupervised Learning 6.9 11.1
Multi-Instance Learning 6.10 11.2

In jedem Vortrag soll außerdem klar werden, welcher der Aspekte aus dem Kapitel "Data Transformations" (Witten2001: Kap. 7; Witten2017: Kap. 8) für das jeweilige Modell relevant ist:

  • 7.1 Attribute Selection
  • 7.2 Discretizing Numeric Attributes
  • 7.3 Projections
  • 7.4 Sampling
  • 7.5 Cleansing
  • 7.6 Transforming Multiple Classes to Binary Ones
  • 7.7 Calibrating Class Probabilities

Bitte beachten Sie: Auch wenn wir Chapter 6 und 7 arbeitsteilig behandeln geht das nicht ohne ein gründliches Verständnis der (und nicht ohne Rückbezüge auf die) o.A. Grundlagen. Sich lediglich auf ein Detail zu konzentrieren, ohne es in das große Ganze einzuordnen führt nicht zu einer guten Präsentation.

Wer bereits Vorkenntnisse im Bereich Data Mining vorweisen kann (hallo Master-Studierende?), kann auch sehr gerne ein Vertiefungsthema aus "Chapter 9: Moving on: Applications and Beyond" wählen, z.B.:

  • 9.2 Learning from Massive Datasets
  • 9.3 Data Stream Learning
  • 9.4 Incorporating Domain Knowledge
  • 9.5 Text Mining
  • 9.6 Web Mining
  • im Web:

Bewertungsgrundlagen

Um Chancengleichheit zu wahren, muss jeder seine vorläufigen Präsentationsmedien (Slides, vorläufiger Text) bis zum allerersten Vortrag auf Moodle hochgeladen haben. Der Vortrag dient dann der mündlichen Darstellung der vorläufigen Präsentationsmedien. Dann gibt es Feedback, aufgrund dessen dann die Präsentationsmedien überarbeitet und zum Semesterende in Form einer schriftlichen Ausarbeitung abgegeben werden können.

Bewertungsgrundlage ist dann die schriftliche Ausarbeitung vom Text-Typ eines informativen, didaktisierten schriftlichen Lang-Referats, in welchem die selbst erstellten Visualisierungen enthalten sind. Also: Ich bewerte eine Präsentation auf Grundlage der Inhalte (statt z.B. der Rhetorik). Die Inhalte setze ich vorwiegend als medial-schriftlich (statt rein mündlich) codiert voraus. Bewertungskriterien siehe http://www.jbusse.de/traktate/KriterienPraesentation.html

Präsentation

Idee für WIF640 und IM820: Ein kleines Handbuch, das die einzelnen Machine Learning Schemes aus Kap. 6 für Bachelor-Studierende im 6. Semester bescheibt.

Äußerliche Unterschiede

WIF640 IM820
Vortrag 30 Minuten +- 10% 45 Minuten +-10%
maximal 20 Slides dito
mindestens 10, darunter mindestens 5 selbst erstellte Abbildungen dito
schriftliche Ausarbeitung enthält die Abbildungen aus dem Vortrag dito
1500 Wörter +- 10% 2000 Wörter +- 10%
Schwerpunkt didaktische Aufbereitung, Wort-Bild-Text Präsentation Schwerpunkt Theorie, incl. Komplexitäts-Abschätzung etc.

Aufbau WIF640

Inhalt von Vortrag und Ausarbeitung: eine didaktische, anschauliche Beschreibung

  • des Modellaufbaus
  • der Modellverwendung
  • an einem Beispiel-Datensatz aus Weka
  • incl. Screenshots, wie das in der Weka-Software praktisch aussieht
  • ggf. Abschätzung Komplexität

Aufbau IM820

Inhalt von Vortrag und Ausarbeitung: eine didaktische, anschauliche Beschreibung ähnlich WIF640, zusätzlich z.B.:

  • Lernverfahren
    • Komplexität, Performance
    • Weiter-Lernen bei neuen Trainings-Datensätzen
    • geeignet für Big Data?
    • Interpretierbarkeit des Modells
  • Verhalten bei problematischen Attributen (vgl. auch Weka Kap. 7):
    • "unpassende" (numerische, kardinale etc.) Attribut-Typen
    • fehlende Attributwerte
    • Ausreißer
    • zusätzliches Attribut
      • hoch korreliert abhängig von einem gegebenen Attribut
      • unabhängig, zufällig
  • Klassifikations-Verfahren
    • Komplexität, Performance
  • an einem Datensatz aus Weka, besser aber in R

Literatur

Witten2011 Witten, Ian H.; Frank, Eibe; Hall, Mark A.: Data Mining. Practical Machine Learning Tools and Techniques. Amsterdam, Elsevier, 2011 Witten2017 Ian H. Witten, Eibe Frank, Mark A. Hall, Christopher J. Pal: Practical Machine Learning Tools and Techniques (Morgan Kaufmann Series in Data Management Systems). 4th Edition 2017 Website: http://www.cs.waikato.ac.nz/ml/weka/book.html