Data Science / Text Mining (dsci-txt)

Neu 2020-11-25: Diese Modulbeschreibung war experimentell und ist veraltet, aktuell siehe

FWP vorrangig für WIF, nach Absprache auch andere Studiengänge

Qualifikationsziel

Die TN können unter Linux in Python mit einschlägigen Bibliotheken (wie z.B. scikit-learn, SpaCy, Gensim, NLTK) schwach strukturierte Texte sowie Tabellendaten aus dem Bereich der Wirtschaftsinformatik mit Verfahren des Machine Learning analysieren, Textähnlichkeit feststellen, klassifizieren, korrelierte Daten vorhersagen.

Wir diskutieren exemplarisch Anwendungsfälle wie die Bepreisung von Immobilien (Boston Housing Dataset); Text-Klassifikation (20 Newsgroups Dataset) oder Sentiment Analysis aufgrund von Produktbewertungen.

Die hier vermittelte Technologie bildet eine Grundlage für jede weiterführende KI-Anwendung in der Wirtschaftsinformatik.

Inhalte

  • Grundlagen des dsc-lab: Linux, bash, Jupyter Notebook, Publizieren mit Jupyterbook etc.
  • Grundlagen der Informationsextraktion aus Text: Regex, NLP mit Spacy etc.
  • Grundlagen des Machine Learning : Klassifikation, Regression, Modellevalution, Confusion Matrix etc.

Medien

Die Veranstaltung beruht auf einem virtuellen Data Science Laboratory (dsci-lab), das den Studierenden unter VirtualBox als virtuelle Xubuntu-Maschine zur Verfügung gestellt wird.