Data Science Lab (dsci-lab)

Contents

Data Science Lab (dsci-lab)#

Data Science Lab von Prof. Dr. Johannes Busse, Fakultät für Informatik, HAW Landshut

Versionen:

_images/IMG_2249.JPG

(vorangehende Version WS 2023: http://jbusse.de/dsci-lab_ws2023/ )

Note

Die Seite dsci-lab wird jedes Semester neu aufgebaut. Hinweise auf tote Links, Fehler, Verbesserungsvorschläge etc. sind willkommen, bitte einfach email an mich. Danke!

Mit dem dsci-lab steht den Studierenden eine fertig installierte Virtuelle Maschine bereit, in der die für meine Lehre wichtigsten Dats Science Anwendungen, Datensätze und exemplarische Python Notebooks bereits fertig installiert sind - also ein virtuelles Labor “to go”!

Diskussion#

Warum Jupyter etc. nicht einfach auf dem eigenen Rechner installieren?

Es beginnt damit: Windows oder Linux? Letztlich verwendet man als DataScientist nicht einzelne Software, sondern eine Plattform. Ein Profi verwendet Linux. Wir nutzen unsere Veranstaltung, um auch reinen Windows-Nutzern in einer sicheren Umgebung authentische Linux-Erfahrung zu ermöglichen.

  • Ein weit verbreitetes, weil auf Enduser zugeschnittenes Linux ist das Debian-Derivat Ubuntu, das in unserer Hochschule in dem leichtgewichtigen, auch auf auf langsamen Rechnern noch performanten Flavor Xubuntu zum Einsatz kommt. Konsequenterweise baut auch unser dsci-lab auf Xubuntu auf.

Es geht weiter mit: Welches Python verwenden wir? Python 2.7 ist nicht kompatibel mit Python 3.x. Viele Linux-Anwendungen werden intern noch über längere Zeit noch Python 2.7 verwenden, aktuelle DataScience-Bibliotheken haben längst auf Python 3.x umgestellt. Bibliotheken wie scikit-learn oder pandas versionieren halbjährlich.

  • Die Conda-Python-Distribution bringt für die Versionsverwaltung seiner Bibliotheken eine eigene Paketverwaltung mit, mit eigenem Python (!), eigener Virtualisierung etc., innerhalb der man untergeordnet mit der konkurrierenden Bibliotheksverwaltung pip Pakete verwalten kann (umgekehrt geht das nicht): Das ist alles nicht ganz trivial.

Der wichtigste Grund, mit der von uns zur Verfügung gestellten virtuellen Maschine zu arbeiten ist aber der:

  • Wir - die Gruppe von Lernenden als User und ich als Hersteller des dsci-lab - kennen die die installierte Software und die Konfiguration des dsci-lab sehr gut, und können deshalb bei Problemen oder Fehlern leichter helfen.

Auch mit umfassenden Distributionen wie Anaconda alleine ist es nicht wirklich getan: Wer praktisch als DataScientist arbeitet, verwendet in der Regel auch einige andere Tools. Solche, die auch außerhalb von Anaconda ihre eigene Berechtigung haben (z.B. Jupyterbook, Zotero, LaTeX), müssen i.A. extra installiert und mit der anderen Software über z.T. komplexere Konfigurationen integriert werden. Auch hier können wir innerhalb der virtuellen Maschine sehr leicht Unterstützung anbieten.