Workshop W1 2018-10-26
Themenspeicher
- Erwartungen
- Anfangs-Diskussion
- Bowles
- zu theoretisch
- wie macht man es praktisch besser?
- Ziel: Kaggle Mittelfeld
- mehr Übungsaufgaben, die man selbstständig lösen könnte
- Bowles
Eingrooven: MC-Fragen in Moodle besprechen
Grundbegriffe des Data Mining
- Karten auf dem Fußboden gruppieren
- Gedankenexperiment: daraus Tabu-Karten erstellen?
"Python lernen"
- Diskussion: Was von Python braucht man für Data Science / für unser Buch, was nicht?
- Interviews mit Jane O. N.
Code in Bowles bewerten
- Was davon ist rein didaktisch, was können wir anwenden?
- Worin unterstützen uns die Bibliotheken?
- http://scikit-learn.org/stable/
- Preprocessing, Regression
- Welche Rolle spielen Numpy, Pandas?
- http://scikit-learn.org/stable/
Überblick über typische Arbeitsschritte laut Bowles (vgl. auch Wikipedia > CRISP)
- kollektive Mindmap über Beamer (Bsp. JB zeigen?)
- Grundbegriffe (s.o.) einordnen
- muss JB tippen, oder kann das jemand anderes machen?
größere Pausen mit gemeinsamen Essen
- Mitbringen Sa Mittagessen?
Vorbereitung SGL 2
misc Standard-Aufgaben mit Python
- http://scikit-learn.org/stable/modules/preprocessing.html
- http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html
- pandas
- dataf=((data-data.min())/(data.max()-data.min()))*20
- https://stackoverflow.com/questions/12525722/normalize-data-in-pandas
- https://web.archive.org/web/20160520170701/http://chrisalbon.com:80/python/pandas_normalize_column.html
Vorgehensmodell
Fragen
- Warum machen wir das?
- Wie machen wir das (Bibliotheken)?
- sinnvolle Datenstrukturen?
Schritte und Bibliotheken
- CSV anschauen
- welche Spalten haben wir?
- numerisch
- kategorial
- #einzigartig
- #categorial values
- m / f / i
- ordinal
- Schulnoten
- deskriptive Statistik
- #Anzahl absolut
- Standardabweichung = Wurzel ( Varianz )
- Mittelwert / Median
- Perzentilen
- Quartile Viertel
- Quintile
- Dezile zehntel
- Spannweite
- max - min
- BoxPlot
- Verteilung
- Normal
- Eigenschaften
- diskret, stetig
- schief
- Gleichverteilung
- Poisson
- allgemein
- wie viele Einträge gibt es?
- 100.000 Zeilen
- Rocks: 208 Zeilen, 61 Spalten
- Verhältnis #Zeilen / #Spalten
- "breit": mehr Spalten als Zeilen
- Gen-Daten
- "hoch": so hätten wir es gerne
- "breit": mehr Spalten als Zeilen
- vollständig ausgefüllt
- missing values
- dünnbesetzt / sparse
- wie viele Einträge gibt es?
- Wine Taste CSV
- welche Spalten haben wir?
- Exploration
- Visualisieren
- heat map
- S.50
- S.61
- S.67
- heat map
- BoxPlot
- outlier
- missing values
- outlier
- passen nicht zun Graphen
- 'rausschmeißen?
- Messfehler - oder Hinweis auf die Intrusion?
- ist unser Problem ein outlier detection problem?
- wrong values, errors
- Visualisieren
- Data Wrangling
- missing values
- 'rauswerfen
- 'reinschreiben / imputation
- Durchschittswert
- Modell bauen
- Normalisierung
- Diskretisierung?
- Weka Orange Book Ch. 7.2
- Extraktion strukturierter Daten aus String Attributen
- Titanic
- gender
- Beruf etc.
- Kind / Erwachsen / Senior
- Titanic
- data preparation
- normalization
- binning
- sampling
- missing values
- Modell bauen
- Performanz messen
- beste Vorhersage: wie die Qualität messen?
- Deployen
Sa Mittag: spielen!
Methode: spielerisch mit dem Datensatz spielen
Sonar-Daten
- https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data
- im Dateisystem speichern, umbennen: .csv-Endung hinzufügen!
- kann man jetzt z.B. in LibreCalc öffnen
- Verteilung einer Spalte (z.B. Spalte 20) visualisieren
- "as is"
- nach der Normalisierung
- es gibt 1001 verschiedene Visualisierungs-Funktionen