Workshop W1 2018-10-26

Themenspeicher

Erwartungen
Anfangs-Diskussion
- Bowles
  - zu theoretisch
  - wie macht man es praktisch besser?
  - Ziel: Kaggle Mittelfeld
  - mehr Übungsaufgaben, die man selbstständig lösen könnte

Eingrooven: MC-Fragen in Moodle besprechen

Grundbegriffe des Data Mining

Karten auf dem Fußboden gruppieren
Gedankenexperiment: daraus Tabu-Karten erstellen?

"Python lernen"

Diskussion: Was von Python braucht man für Data Science / für unser Buch, was nicht?
Interviews mit Jane O. N.

Code in Bowles bewerten

Was davon ist rein didaktisch, was können wir anwenden?
Worin unterstützen uns die Bibliotheken?
- http://scikit-learn.org/stable/
  - Preprocessing, Regression
- Welche Rolle spielen Numpy, Pandas?

Überblick über typische Arbeitsschritte laut Bowles (vgl. auch Wikipedia > CRISP)

kollektive Mindmap über Beamer (Bsp. JB zeigen?)
Grundbegriffe (s.o.) einordnen
muss JB tippen, oder kann das jemand anderes machen?

größere Pausen mit gemeinsamen Essen

Mitbringen Sa Mittagessen?

Vorbereitung SGL 2

misc Standard-Aufgaben mit Python

http://scikit-learn.org/stable/modules/preprocessing.html
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html
pandas
- dataf=((data-data.min())/(data.max()-data.min()))*20
https://stackoverflow.com/questions/12525722/normalize-data-in-pandas
https://web.archive.org/web/20160520170701/http://chrisalbon.com:80/python/pandas_normalize_column.html

Vorgehensmodell

Fragen

Warum machen wir das?
Wie machen wir das (Bibliotheken)?
sinnvolle Datenstrukturen?

Schritte und Bibliotheken

CSV anschauen
- welche Spalten haben wir?
  - numerisch
  - kategorial
    - #einzigartig
    - #categorial values
    - m / f / i
  - ordinal
    - Schulnoten
- deskriptive Statistik
  - #Anzahl absolut
  - Standardabweichung = Wurzel ( Varianz )
  - Mittelwert / Median
  - Perzentilen
    - Quartile Viertel
    - Quintile
    - Dezile zehntel
  - Spannweite
    - max - min
    - BoxPlot
  - Verteilung
    - Normal
    - Eigenschaften
      - diskret, stetig
      - schief
    - Gleichverteilung
    - Poisson
- allgemein
  - wie viele Einträge gibt es?
    - 100.000 Zeilen
    - Rocks: 208 Zeilen, 61 Spalten
  - Verhältnis #Zeilen / #Spalten
    - "breit": mehr Spalten als Zeilen
      - Gen-Daten
    - "hoch": so hätten wir es gerne
  - vollständig ausgefüllt
    - missing values
    - dünnbesetzt / sparse
- Wine Taste CSV
Exploration
- Visualisieren
  - heat map
    - S.50
    - S.61
    - S.67
- BoxPlot
  - outlier
- missing values
- outlier
  - passen nicht zun Graphen
  - 'rausschmeißen?
  - Messfehler - oder Hinweis auf die Intrusion?
  - ist unser Problem ein outlier detection problem?
- wrong values, errors
Data Wrangling
- missing values
  - 'rauswerfen
  - 'reinschreiben / imputation
    - Durchschittswert
    - Modell bauen
- Normalisierung
  - http://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html#sphx-glr-auto-examples-preprocessing-plot-all-scaling-py
- Diskretisierung?
  - Weka Orange Book Ch. 7.2
- Extraktion strukturierter Daten aus String Attributen
  - Titanic
    - gender
    - Beruf etc.
    - Kind / Erwachsen / Senior
- data preparation
  - normalization
  - binning
  - sampling
Modell bauen
Performanz messen
- beste Vorhersage: wie die Qualität messen?
Deployen

Sa Mittag: spielen!

Methode: spielerisch mit dem Datensatz spielen

Sonar-Daten

https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data
- im Dateisystem speichern, umbennen: .csv-Endung hinzufügen!
- kann man jetzt z.B. in LibreCalc öffnen
Verteilung einer Spalte (z.B. Spalte 20) visualisieren
- "as is"
- nach der Normalisierung
- es gibt 1001 verschiedene Visualisierungs-Funktionen

Pandas lernen

https://www.w3resource.com/python-exercises/, dort:

https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf