Kickoff_2018-10-05
Intro JB
Worum geht es in der Veranstaltung?
- (1) Wissen und Können aneignen: Mit einer wichtigen Modellfamilie in ausgewählten
Kaggle-Competitions im Mittelfeld mithalten können
- Grundlagenwissen: fundierte Übersicht über die Begriffswelt
- LARS, Lasso. ridge, ElasticNet auch im Detail verstehen
- Kaggle-Kernel schreiben und deployen
- (2) "Etüden" für selbstgesteuertes Lernen (SGL) entwerfen
Studienarbeit
- Ausarbeitung eines Kaggle-Kernels zu einem unbekannten Datensatz
- Ergänzend: Einreichung exemplarischer Etüden für die Folgeveranstaltung
Veranstaltungs-Konzept
- Selbstgesteuertes Lernen (SGL): Jeder erarbeitet sich den Stoff selbst in seinem eigenen Lerntempo
- Workshops: soziales miteinander Arbeiten und Essen in der Gruppe
- TBD: Lernerfolgskontrollen und Feedback
Forschungskontext
- VHB-Kursentwicklung: Evidenzbasierte Entscheidungen auf der Grundlage von Big Data Analytics
- Studienprojekt WS 2018: Data Science Wiki (dscw)
- http://www.jbusse.de/projekte/Python-Bridge.html
Einführung in die Lerngegenstände
- Exposition: Bücher, Tutorials etc.: siehe Quellen
- Werkstücke: fertige komplexere Datenanalysen - u.a. auch die Abschlussarbeit
- Etüden: kleinteilige Aufgaben incl. Lösungen im Kontext
- FAQ
- MC-Tests
- typische Python-Bausteine
- Experiment: Selbstkontrollfragen zum Stoff in 2 Etherpads Fragen | Antworten
- JSON documents
Abendessen
Arbeitsfähig werden
Moodle
Kaggle
Installation anaconda
Planung Workshop W1
- Essen?!
Präsentation Kickoff
Plattform
- JupyterNotebook
- Version 5.7, also ausgereift
- Kaggle u.V.m.
- JupyterLab
- Version 0.3, also experimentell
Portale
- https://www.kaggle.com/
- https://www.analyticsvidhya.com/
Dateien
- .py
- ausführbarer Python Code
- .ipynb
- JSON document
- Text, Code, Ausgabe in einem Dokument
- Markdown
- Python, R etc.
- Ausgaben (auch images) etc.
Python
- verwenden wir fast nur als Skriptsprache
Bibliothken, Algorithmen und Datentypen
- Python
- Liste
- Dictionary
- numpy
- ndarray
- pandas
- frame
- describe
- normalize
- scikit
- ndarray
- elasticnet
Markdown
- bekannt aus GitHub, Wiki etc.
Grundbegriffe
Skalenniveau
- mit Abstand
- numerisch
- kategorial mit semantisch sinnvoller Abbildung auf Nat
- ohne Abstand
- kategorial
- https://de.wikipedia.org/wiki/Kategoriale_Variable
- nominal
- EX
- KFZ-Kennzeichen
- EX
- ordinal
- DEF
- nominal mit Rangordnung
- Leutnant > Feldwebel > Unteroffizier > Gefreiter
- DEF
- metrische Variablen, die nur wenige Ausprägungen haben
- kategorial
Lernverfahren
- überwachtes Lernen
- Label ist teilweise vorgegeben / soll vorhergesagt werden
- Regression
- auf dem Label ist ein Abstand definiert
- normalerweise numerisch
- kann aber auch ein Faktor sein, mit Abstand
- Performance: MSE
- Klassifikation
- kein Abstand auf dem Label
- 0/1 oder 1 gegen alle anderen
- Performance: https://en.wikipedia.org/wiki/Confusion_matrix
- ROC, AUC etc
- nur hier, oder auch bei Regression?
- unüberwachtes Lernen
- gar keine Labels verfügbar
- Ziel:Strukturen finden, z.B. Cluster
- semiüberwachtes Lernen
- sehr wenige, aber "gute" Labels sind verfügbar
- https://en.wikipedia.org/wiki/Semi-supervised_learning