Veranstaltungs-Konzept (Skizze Sept 2018)

K: Kickoff

Durchführung siehe Kickoff_2018-10-05

ggf. Vortrag externer Gast

Einführung JB

Einführung und Auftrag in SGL aus Runde 1

Klärung Verpflegung Workshop 1

K und W1, wichtige Elemente: sozialen Zusammenhang schaffen, Lerner als Gruppe zusammenbringen, die auch außerhalb der strukturierten Lernangebot untereinander Kontakt haben ... Am Kickoff eine Kontaktliste erstellen, incl. Policy: Die Liste darf / darf nicht verwendet werden für ...

Setup

  • lokal: Anaconda-Installation seht
  • ausgewählte PY3-Listings laufen lokal in Jupyther Notebook 5.x
    • Paste & Copy aus den -py Dateien in ein neu geöffnetes Notebook
  • kaggle Bowles_ch2_mashup ist geforked und läuft
  • Cloud: Account auf Kaggle ist eingerichtet

SGL1: selbstgesteuertes Lernen 1

Setup-Workshop (optional, Tutor), Ziel: jeder ist arbeitsfähig

  • sicherstellen, Ziel: jeder ist arbeitsfähig

Theorie bekannt, nach Bedarf auffrischen oder nachlernen

  • grundlegendes Python
    • Jake VanderPlas: A Whirlwind Tour of Python
  • A. Lindenberg u.A.: Statistik macciatio, Pearson 2011
  • TBD: Python-Tutorials danach bewerten, ob sie genau diejenigen Elemente lehren, die wir für dsci brauchen

Theorie Neu

  • Bowles Kap 1 und 2
  • wichtige Bibliotheken
    • bsp: numpy | pandas | matplotbib | Scikit-learn (sklearn)
    • Übersicht gewinnnen: Wofür verwendet sie Bowles wann? | Welche wichtigsten Funktionen / Datenstrukturen stellen sie bereit? | über welchen Datenstrukturen arbeten sie? Bsp: sklearn nutzt numpy arrays
  • Datasets verstehen: Die begleiten uns im ganzen Kurs
    • alle auch als CSV bereitstellen
      • file open statt urllib2
      • alternativ mit pandas einlesen und in plain python listen zurückwandeln
    • Wine
    • Rocks
      • auch Original-Beschreibung anschauen
      • hat auch Elemente von Time Series, die wir aber in unserem Kurs nicht berücksichtigen
    • Abalone
    • Glass
  • Grundlagen aus Pandas
    • numpy ndarray
    • pandas frame
      • Zugriff auf Zeilen, Spalten
      • describe
      • was man damit datenbankartiges machen kann
  • Grundbegriffe des Data Mining

Lernumgebung

  • annotierfähige Lese-Umgebung schaffen: auf Papier ausdrucken oder pdf-Annotator
  • Offene Fragen zur Selbstkontrolle
  • Grundbegriffe auswendig lernen: Anki-Stapel
  • Etherpad ... "sehr gute Erfahrungen gemacht"

Ergebnissicherung:

  • Moodle MC-Test 5 Tage vor W1

W1: Workshop 1

Durchführung: siehe Workshop W1 2018-10-26

Ziele

  • minimal
    • vollständig arbeitsfähig sein: "Hello World" auf Kaggle
    • Rocks aus ch2 nachvollziehen, läuft auf Kaggle (Bowles_ch2_mashup)
    • Ergebnissicherung SGL 1
  • Norm
    • Transfer von ch2/Rocks auf Titanic mit Kaggle als kommentiertes Notebook
      • TRT: Kernel in Kaggle bauen
  • maximal
    • Vergleich mit anderen (ausgewählen) Titanic-Tutorials aus Kaggle

SGL2

Ergebnissicherung aus W1: Das Gelernte auf Titanic übertragen

  • dadurch Wdh. und Festigung Bowles Kap 1-2

Theorie Neu:

  • Bowles Kap 3-5

Lernumgebung: s.o.

W2

Ergebnissicherung: Ergebnisse aus der Case Study

Neu: Anwendung von Kap 3-5 auf Titanic

  • TRT: Kernel in Kaggle bauen

Elemente

  • mehrere Datensätze zur Auswahl 'raussuchen,
  • mehrere kleine existierende Kaggle-Competitions in Kleingruppen analysieren und vorstellen lassen?

Der zweite Hackathon Termin sollte zum Resümee ziehen genutzt werden, indem jeder Student für sich rausfindet was dieser noch Lernen will um optimal für den letzten Hackathon Termin vorbereitet zu sein.

SGL3

Ergebnssicherung von Workshop 2, Nachvollziehen, vollständig verstehen

NEU Theorie

  • eher nicht: Bowles Kap 6-7
  • Vertiefung des Gelernten
    • ggf. Querbezüge zu anderen Primärquellen
  • Data Wrangling mit pandas
    • Einsatz von regex bei Titanic
    • insbes. union und inner join verschiedener Excel-Tabellen

Kür: eigene Experimente

  • Rocks: delta X zwischen aufeinanderfolgenden Attributen
  • Basis-Erweiterungen (Google: Feature Crosses, synthetic Attributes)

W3

Rückblick: Was haben wir gelernt?

Anwendung auf einen neuen Datensatz

  • z.B. Prediction of House Prices in Iowa (user: Serigne)
    • aufwändiger als Titanic
    • incl. Data Wrangling?
    • missing values etc.

Data Science Workshop 2019-01-11

siehe http://jbusse.de/lasig-ds/lasig-ds_2019-01-11.html