Kickoff_2018-10-05

Intro JB

Worum geht es in der Veranstaltung?

  • (1) Wissen und Können aneignen: Mit einer wichtigen Modellfamilie in ausgewählten Kaggle-Competitions im Mittelfeld mithalten können
    • Grundlagenwissen: fundierte Übersicht über die Begriffswelt
    • LARS, Lasso. ridge, ElasticNet auch im Detail verstehen
    • Kaggle-Kernel schreiben und deployen
  • (2) "Etüden" für selbstgesteuertes Lernen (SGL) entwerfen

Studienarbeit

  • Ausarbeitung eines Kaggle-Kernels zu einem unbekannten Datensatz
  • Ergänzend: Einreichung exemplarischer Etüden für die Folgeveranstaltung

Veranstaltungs-Konzept

  • Selbstgesteuertes Lernen (SGL): Jeder erarbeitet sich den Stoff selbst in seinem eigenen Lerntempo
  • Workshops: soziales miteinander Arbeiten und Essen in der Gruppe
  • TBD: Lernerfolgskontrollen und Feedback

Forschungskontext

Einführung in die Lerngegenstände

  • Exposition: Bücher, Tutorials etc.: siehe Quellen
  • Werkstücke: fertige komplexere Datenanalysen - u.a. auch die Abschlussarbeit
  • Etüden: kleinteilige Aufgaben incl. Lösungen im Kontext
    • FAQ
    • MC-Tests
    • typische Python-Bausteine
  • Experiment: Selbstkontrollfragen zum Stoff in 2 Etherpads Fragen | Antworten
    • JSON documents

Abendessen

Arbeitsfähig werden

Moodle

Kaggle

Installation anaconda

Planung Workshop W1

  • Essen?!

Präsentation Kickoff

Plattform

  • JupyterNotebook
    • Version 5.7, also ausgereift
    • Kaggle u.V.m.
  • JupyterLab
    • Version 0.3, also experimentell

Portale

  • https://www.kaggle.com/
  • https://www.analyticsvidhya.com/

Dateien

  • .py
    • ausführbarer Python Code
  • .ipynb
    • JSON document
    • Text, Code, Ausgabe in einem Dokument
      • Markdown
      • Python, R etc.
      • Ausgaben (auch images) etc.

Python

  • verwenden wir fast nur als Skriptsprache

Bibliothken, Algorithmen und Datentypen

  • Python
    • Liste
    • Dictionary
  • numpy
    • ndarray
  • pandas
    • frame
    • describe
    • normalize
  • scikit
    • ndarray
    • elasticnet

Markdown

  • bekannt aus GitHub, Wiki etc.

Grundbegriffe

Skalenniveau

  • mit Abstand
    • numerisch
    • kategorial mit semantisch sinnvoller Abbildung auf Nat
  • ohne Abstand
    • kategorial
      • https://de.wikipedia.org/wiki/Kategoriale_Variable
      • nominal
        • EX
          • KFZ-Kennzeichen
      • ordinal
        • DEF
          • nominal mit Rangordnung
          • Leutnant > Feldwebel > Unteroffizier > Gefreiter
      • metrische Variablen, die nur wenige Ausprägungen haben

Lernverfahren

  • überwachtes Lernen
    • Label ist teilweise vorgegeben / soll vorhergesagt werden
    • Regression
      • auf dem Label ist ein Abstand definiert
      • normalerweise numerisch
      • kann aber auch ein Faktor sein, mit Abstand
      • Performance: MSE
    • Klassifikation
      • kein Abstand auf dem Label
      • 0/1 oder 1 gegen alle anderen
      • Performance: https://en.wikipedia.org/wiki/Confusion_matrix
      • ROC, AUC etc
        • nur hier, oder auch bei Regression?
  • unüberwachtes Lernen
    • gar keine Labels verfügbar
    • Ziel:Strukturen finden, z.B. Cluster
  • semiüberwachtes Lernen
    • sehr wenige, aber "gute" Labels sind verfügbar
    • https://en.wikipedia.org/wiki/Semi-supervised_learning