Themen und Termine

Themen und Termine#

KW 40 Übungsbeginn mit dem Python Crashkurs#

Zeit: Mo 29.9 und Di 30.9.2025
Homepage Crashkurs: https://www.jbusse.de/python-101/python-101-crashkurs.html

KW 41: Orga#

KW 42: Einführung#

Voraussetzung: das dsci-lab ist installiert (oder Alternativen sind gefunden), die virtuelle Maschine startet

Das Data Science Lab https://www.jbusse.de/dsci-lab/ in den nächsten 2 Tagen downloaden und installieren, und bei Problemen sofort nachfragen
oder eine entsprechende Alternative (Conda, Miniconda, Anaconda, Online etc.) realisieren.

Reflexion in Bezug auf Python:

Übersicht über die Lernmaterialien aus dem Crashkurs Python sowie http://jbusse.de/jvdp-jb/
Wo stehen Sie individuell?
detaillierte Besprechung von http://jbusse.de/jvdp-jb/e_r1b.html

KW 43: Intro to ml#

Gemeinsame Arbeitsweise ausprobieren: Wir erarbeiten uns in Einzel- oder Kleingruppenarbeit die Inhalte des aktuellen Kaggle-Moduls, nämlich KL > Intro to Machine Learning

Schritt 1, Input: Das Kaggle-Modul durcharbeiten
Schritt 2, Rekapitulation: Anhand der Zusammenfassung Zusammenfassung: intro to ml ein eigenes Notebook erstellen.

KW 44#

Kaggle-Modul: KL > Intermediate Machine Learning

KW 45: Praktikum in Präsenz#

Notebooks als Lernjournal: Stand der Dinge?

~~Einführung in den Datensatz synthetische_daten_3bis40_mit_BMI_Kategorien.csv (WS 2025), Teildatensatz “Kinder”~~

KW 46: Data Visualization#

Kaggle-Modul: KL > Data Visualization

Einführung in Bowles und die Bowles-Datensätze:

Bowles, Michael: Machine learning in Python. Essential Techniques for Predictive Analysis. Wiley 2015. Bibliothek der HAW LA: https://flatp20.bib-bvb.de/search?bvnr=BV043397686
Ort der Dateien siehe Bowles Notebooks

Hausaufgabe#

Sich im Moodle Etherpad Bowles-Datensätze: Wer macht was? für einen Datensatz entscheiden, Name eintragen … und als Markdown-Datei einen Steckbrief erstellen:

Wo in Bowles (Kapitel, Seiten, Notebooks etc.) schreibt Bowles etwas zu dem Datensatz?
recherchieren (z.B. googeln): Wo kommt der Datensatz her, wo ist er schon beschrieben?
Welche Art von ML-Problem haben wir?
Inhaltsangabe für hypothetischeS Notebook:
- Schritte, um mit Regression / logistischer Regression ein Modell zu erstellen und zu testen?
- Welches Feature Engineering ist hilfreich?
Dateiformat: .md oder .ipynb
Abgabe bis So 2025-11-23 auf Moodle > Beschreibung Bowles Datensatz

KW 47#

heute wieder “hybrid”:

vozugsweise in Präsenz, Treffpunkt wieder J2.01 (und dann schauen wir mal, welcher Raum Frei ist)
Zoom läuft am Anfang mit

Themen:

Kaggle-Modul: KL > Pandas
ggf. Einführung JB in Multi-Index
Pandas auch praktisch ausprobieren

KW 48#

~~Kurzdarstellung der Ergebnisse der Datensätze aus der vergangenen Woche~~

Einführung in den aktuellen Datensatz “Schuhgröße”:

Rückblick auf WS 2022:

Empfohlene Ergebnissicherung: Zu den einzelnen Schritten in der dsci-Mindmap die entsprechenden Quellen in den Kaggle-Modulen suchen, und sich einen Plan erarbeiten, wie man die Regression und die Klassifikation bearbeiten könnte.

KW 49#

Kaggle-Modul: KL > Feature Engineering

KW xx#

Zum Beispiel Klassifikation für den Glas-Datensatz

bei Bowles z.B.

Bowles_5.5_glass: Multiclass Classification: Classifying Crime Scene Glass Samples
Listing 5-7: Multiclass Classification with Penalized Linear Regression - Classifying Crime Scene Glass Samples—glassENetRegCV.py

Doku auf scikit-learn: https://scikit-learn.org/stable/supervised_learning.html , dort:

BUJ: Für uns als Klassifikatoren vor allem interessant, weil anschlussfähig an Bowles 2015:

https://scikit-learn.org/stable/modules/multiclass.html:

Inherently multiclass:

linear_model.LogisticRegression (setting multi_class=”multinomial”)
linear_model.LogisticRegressionCV (setting multi_class=”multinomial”)
linear_model.RidgeClassifier
linear_model.RidgeClassifierCV

Multiclass as One-Vs-The-Rest:

linear_model.LogisticRegression (setting multi_class=”ovr”)
linear_model.LogisticRegressionCV (setting multi_class=”ovr”)
linear_model.SGDClassifier

Support multilabel:

linear_model.RidgeClassifier
linear_model.RidgeClassifierCV

KW xx + 1#

Logistic Regression im Detail

Logistic Regression gibt es “pur”:

API: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
Read more in the User Guide: https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression

und als “Komplettpaket” incl. Cross Validation:

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegressionCV.html

Parameter von sklearn.linear_model.LogisticRegression

multi class schemes:

one-vs-rest (OvR)
cross-entropy loss

Problemtypen:

binär
multinominal: (one of) k classes
- true multinomial (multiclass)
- one-vs-rest: binary classifiers are trained for all classes
multilabel: (some of) k classes

solvers:

lbfgs: approximates the Broyden–Fletcher–Goldfarb–Shanno algorithm
sag
saga
newton-cg
liblinear : https://www.csie.ntu.edu.tw/~cjlin/liblinear/
newton-cholesky

regularization, penalty:

L1 Abstand Manhattan, Betrag des Abstands
L2 Euklidische Norm
Elastic-Net: L1 und L2-Regularisierung gleichzeitig, mit variablem Parameter … bestens beschreben bei BOWLES

fit_intercept: sind die daten zenriert?

Datensatz anschauen: Verhältnis von Zeilen zu Spalten?

n_samples >> n_features, oder andersrum?

Stratified K-Folds:

https://scikit-learn.org/stable/modules/cross_validation.html#stratified-k-fold

L1, Lasso:

https://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_coordinate_descent_path.html

Beispiel- Kaggle-Notebook:

https://www.kaggle.com/code/tugcekiziltepe/glass-classification-models

KW xy#

Stylometrie?