Workshop W1 2018-10-26

Themenspeicher

  • Erwartungen
  • Anfangs-Diskussion
    • Bowles
      • zu theoretisch
      • wie macht man es praktisch besser?
      • Ziel: Kaggle Mittelfeld
      • mehr Übungsaufgaben, die man selbstständig lösen könnte

Eingrooven: MC-Fragen in Moodle besprechen

Grundbegriffe des Data Mining

  • Karten auf dem Fußboden gruppieren
  • Gedankenexperiment: daraus Tabu-Karten erstellen?

"Python lernen"

  • Diskussion: Was von Python braucht man für Data Science / für unser Buch, was nicht?
  • Interviews mit Jane O. N.

Code in Bowles bewerten

  • Was davon ist rein didaktisch, was können wir anwenden?
  • Worin unterstützen uns die Bibliotheken?
    • http://scikit-learn.org/stable/
      • Preprocessing, Regression
    • Welche Rolle spielen Numpy, Pandas?

Überblick über typische Arbeitsschritte laut Bowles (vgl. auch Wikipedia > CRISP)

  • kollektive Mindmap über Beamer (Bsp. JB zeigen?)
  • Grundbegriffe (s.o.) einordnen
  • muss JB tippen, oder kann das jemand anderes machen?

größere Pausen mit gemeinsamen Essen

  • Mitbringen Sa Mittagessen?

Vorbereitung SGL 2

misc Standard-Aufgaben mit Python

Vorgehensmodell

Fragen

  • Warum machen wir das?
  • Wie machen wir das (Bibliotheken)?
  • sinnvolle Datenstrukturen?

Schritte und Bibliotheken

  • CSV anschauen
    • welche Spalten haben wir?
      • numerisch
      • kategorial
        • #einzigartig
        • #categorial values
        • m / f / i
      • ordinal
        • Schulnoten
    • deskriptive Statistik
      • #Anzahl absolut
      • Standardabweichung = Wurzel ( Varianz )
      • Mittelwert / Median
      • Perzentilen
        • Quartile Viertel
        • Quintile
        • Dezile zehntel
      • Spannweite
        • max - min
        • BoxPlot
      • Verteilung
        • Normal
        • Eigenschaften
          • diskret, stetig
          • schief
        • Gleichverteilung
        • Poisson
    • allgemein
      • wie viele Einträge gibt es?
        • 100.000 Zeilen
        • Rocks: 208 Zeilen, 61 Spalten
      • Verhältnis #Zeilen / #Spalten
        • "breit": mehr Spalten als Zeilen
          • Gen-Daten
        • "hoch": so hätten wir es gerne
      • vollständig ausgefüllt
        • missing values
        • dünnbesetzt / sparse
    • Wine Taste CSV
  • Exploration
    • Visualisieren
      • heat map
        • S.50
        • S.61
        • S.67
    • BoxPlot
      • outlier
    • missing values
    • outlier
      • passen nicht zun Graphen
      • 'rausschmeißen?
      • Messfehler - oder Hinweis auf die Intrusion?
      • ist unser Problem ein outlier detection problem?
    • wrong values, errors
  • Data Wrangling
  • Modell bauen
  • Performanz messen
    • beste Vorhersage: wie die Qualität messen?
  • Deployen

Sa Mittag: spielen!

Methode: spielerisch mit dem Datensatz spielen

Sonar-Daten

Pandas lernen

https://www.w3resource.com/python-exercises/, dort:

https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf