Veranstaltungs-Konzept (Skizze Sept 2018)
K: Kickoff
Durchführung siehe Kickoff_2018-10-05
ggf. Vortrag externer Gast
Einführung JB
Einführung und Auftrag in SGL aus Runde 1
Klärung Verpflegung Workshop 1
K und W1, wichtige Elemente: sozialen Zusammenhang schaffen, Lerner als Gruppe zusammenbringen, die auch außerhalb der strukturierten Lernangebot untereinander Kontakt haben ... Am Kickoff eine Kontaktliste erstellen, incl. Policy: Die Liste darf / darf nicht verwendet werden für ...
Setup
- lokal: Anaconda-Installation seht
- ausgewählte PY3-Listings laufen lokal in Jupyther Notebook 5.x
- Paste & Copy aus den -py Dateien in ein neu geöffnetes Notebook
- kaggle Bowles_ch2_mashup ist geforked und läuft
- Cloud: Account auf Kaggle ist eingerichtet
SGL1: selbstgesteuertes Lernen 1
Setup-Workshop (optional, Tutor), Ziel: jeder ist arbeitsfähig
- sicherstellen, Ziel: jeder ist arbeitsfähig
Theorie bekannt, nach Bedarf auffrischen oder nachlernen
- grundlegendes Python
- Jake VanderPlas: A Whirlwind Tour of Python
- A. Lindenberg u.A.: Statistik macciatio, Pearson 2011
- TBD: Python-Tutorials danach bewerten, ob sie genau diejenigen Elemente lehren, die wir für dsci brauchen
Theorie Neu
- Bowles Kap 1 und 2
- wichtige Bibliotheken
- bsp: numpy | pandas | matplotbib | Scikit-learn (sklearn)
- Übersicht gewinnnen: Wofür verwendet sie Bowles wann? | Welche wichtigsten Funktionen / Datenstrukturen stellen sie bereit? | über welchen Datenstrukturen arbeten sie? Bsp: sklearn nutzt numpy arrays
- Datasets verstehen: Die begleiten uns im ganzen Kurs
- alle auch als CSV bereitstellen
- file open statt urllib2
- alternativ mit pandas einlesen und in plain python listen zurückwandeln
- Wine
- Rocks
- auch Original-Beschreibung anschauen
- hat auch Elemente von Time Series, die wir aber in unserem Kurs nicht berücksichtigen
- Abalone
- Glass
- alle auch als CSV bereitstellen
- Grundlagen aus Pandas
- numpy ndarray
- pandas frame
- Zugriff auf Zeilen, Spalten
- describe
- was man damit datenbankartiges machen kann
- Grundbegriffe des Data Mining
Lernumgebung
- annotierfähige Lese-Umgebung schaffen: auf Papier ausdrucken oder pdf-Annotator
- Offene Fragen zur Selbstkontrolle
- Grundbegriffe auswendig lernen: Anki-Stapel
- Etherpad ... "sehr gute Erfahrungen gemacht"
Ergebnissicherung:
- Moodle MC-Test 5 Tage vor W1
W1: Workshop 1
Durchführung: siehe Workshop W1 2018-10-26
Ziele
- minimal
- vollständig arbeitsfähig sein: "Hello World" auf Kaggle
- Rocks aus ch2 nachvollziehen, läuft auf Kaggle (Bowles_ch2_mashup)
- Ergebnissicherung SGL 1
- Norm
- Transfer von ch2/Rocks auf Titanic mit Kaggle als kommentiertes Notebook
- TRT: Kernel in Kaggle bauen
- Transfer von ch2/Rocks auf Titanic mit Kaggle als kommentiertes Notebook
- maximal
- Vergleich mit anderen (ausgewählen) Titanic-Tutorials aus Kaggle
SGL2
Ergebnissicherung aus W1: Das Gelernte auf Titanic übertragen
- dadurch Wdh. und Festigung Bowles Kap 1-2
Theorie Neu:
- Bowles Kap 3-5
Lernumgebung: s.o.
W2
Ergebnissicherung: Ergebnisse aus der Case Study
Neu: Anwendung von Kap 3-5 auf Titanic
- TRT: Kernel in Kaggle bauen
Elemente
- mehrere Datensätze zur Auswahl 'raussuchen,
- mehrere kleine existierende Kaggle-Competitions in Kleingruppen analysieren und vorstellen lassen?
Der zweite Hackathon Termin sollte zum Resümee ziehen genutzt werden, indem jeder Student für sich rausfindet was dieser noch Lernen will um optimal für den letzten Hackathon Termin vorbereitet zu sein.
SGL3
Ergebnssicherung von Workshop 2, Nachvollziehen, vollständig verstehen
NEU Theorie
- eher nicht: Bowles Kap 6-7
- Vertiefung des Gelernten
- ggf. Querbezüge zu anderen Primärquellen
- Data Wrangling mit pandas
- Einsatz von regex bei Titanic
- insbes. union und inner join verschiedener Excel-Tabellen
Kür: eigene Experimente
- Rocks: delta X zwischen aufeinanderfolgenden Attributen
- Basis-Erweiterungen (Google: Feature Crosses, synthetic Attributes)
W3
Rückblick: Was haben wir gelernt?
Anwendung auf einen neuen Datensatz
- z.B. Prediction of House Prices in Iowa (user: Serigne)
- aufwändiger als Titanic
- incl. Data Wrangling?
- missing values etc.