Studienprojekt WS 2018: Data Science Wiki (dscw)

Im Studienprojekt "Data Science Wiki (dscw)" erstellen wir praxistaugliche Dokumentationen für die Analyse von ausgewählten Datensätzen (u.A. auch aus der HAW LA) mit Regressions-Verfahren wie Lars, Ridge, Lasso und ElasticNet. Projektziele:

  • Erstellung eines kleinen Baukastens von Python3-Codesnippets zur prädiktiven Datenanalyse (Sprache: EN)
  • Exemplarische Analysen von Datensätzen aus Projekten der HAW LA
  • Dokumentation von Herangehensweisen, Code, Datensätzen und exemplarischen Analysen in einem Doku-Wiki (Sprache: DE)
  • Als Ergebnis soll man nach dem Studienprojekt eine praktische Materialsammlung für Bachelor-Studierende im 3. Studiensemester in den Händen halten können.

Wir arbeiten mit Python. Das ist kein Bug, sondern ein Feature: Im Studienprojekt kann man schon im Bachelorstudium ganz praktisch eine der wichtigsten Sprachen nicht nur für Data Science, sondern auch für IoT, Web u.V.m niedrigschwellig kennenlernen. Manche halten Python für eine ideale Einsteiger-Sprache. Wer später mal mit Google-Technologien (z.B. TensorFlow) arbeiten will, kommt sowieso nicht ohne sie aus. Wir verwenden Python hauptsächlich als Skript-Sprache, mit der wir leistungsfähige Bibliotheken wie Pandas oder Scikit-learn ansprechen können.

Voraussetzungen

Von den Teilnehmern des Studienprojektes wird erwartet, dass sie gerne programmieren, sich insbesondere selbstständig anhand von Online-Tutorials in die für Data Science erforderlichen Grundlagen von Python einarbeiten wollen.

Um die Einarbeitung in die Theorie zur Data Science im Rahmen eines Studienprojekts überhaupt zu ermöglichen, konzentrieren wir uns auf das sehr praxisrelevante und extrem leistungsfähig Regressions-Verfahren ElasticNet. Dieses Verfahren wird in Bowles (Machine Learning in Python, Wiley 2015) didaktisch ausführlichst beschrieben und kommt auch im Master-Modul "Data Science" zur Anwendung.

Im Studienprojekt muss man EN flüssig lesen können, sämtliche Literatur zum Thema liegt ausschließlich auf EN vor.

Schritte

Einarbeitung in Python 3 anhand bereits ausgewählter Online-Tutorials

Bowles, Kapitel 1-5

  • Lektüre; Verstehen der Theorie (auch ohne Statistik-Kenntnisse möglich)
  • Codesnippets: Rekonstruieren, Nach-Programmieren und ggf. Alternativen finden zum Code aus Bowles

Anwenden der Code-Snippets auf neue Datensätze insbes. auch aus Projekten der HAW LA

  • muss: die 4 Beispiele aus Bowles
  • kann: Kaggle Titanic u.a.
  • soll: exemplarische eigene Datensätze aus Projekten der HAW LA

Dokumentieren des Codes in einem Dokuwiki, Ausführen in einem Jupyter Notebook

email 2018-10-05T113 ans schwarze Brett

Liebe Studierende,

wer nach "Studienprojekt Busse" googelt, stößt schnell auf http://www.jbusse.de/projekte/Studienprojekt_WS2018.html

Weil es dazu Anfragen gab folgenden Hinweis: Von Ihnen als Projekt-Teilnehmer wird erwartet, dass sie selbstständig anhand vorgeschlagener Tutorials auf grundlegendem Niveau Python erlernen. Sie müssen kein Nerd in Sachen Programmierung sein - Eigenmotivation und Interesse müssen Sie allerdings mitbringen.

FAQ: Wie tief gehen wir in Python 'rein? A: Schauen Sie sich bitte das folgende Buch an:

Falls die ersten 50 Seiten dieses Büchlein unangenehme Gefühle in Ihnen auslösen, wird Ihnen Data Science (noch) keinen Spaß machen. Wenn Sie aber Lust auf diese Programmiersprache haben, sind Sie im Studienprojekt herzlich willkommen.

herzliche Grüße, Johannes Busse