Data Science Training: Ressourcen
Diese Seite kommentiert ausführlich einige Bücher, Tutorials und andere Online-Ressourcen, die mir im Rahmen von Recherchen besonders aufgefallen sind.
Die Kürzel wie "E1", "L2" etc. werden in Exposition (E), Lernen (L), Training (T) erklärt.
Detaillierte, gute Erklärung des Gesamtbildes
- Bowles
-
Michael Bowles: Machine learning in Python: essential techniques for predictive analysis. Wiley 2015
Bibliothek: https://opac.haw-landshut.de/search?bvnr=BV043397686 | pdf: https://bibaccess.fh-landshut.de:3159/doi/book/10.1002/9781119183600
In den letzten 2-3 Jahren sind dutzende Bücher zum Thema Data Science erschienen. Mir (JBusse) gefällt das Buch von Bowles trotz seiner Schwächen immer noch sehr gut. (Dass die Code-Beispiele noch in Python 2.7 sind ist unerheblich, da der Code ohnehin nur exemplarischen Charakter hat: In der Praxis benutzt man Bibliotheken statt den Code von Bowles.)
- MLPC
-
Chris Albon: Machine Learning with Python. O'Reilly 2018
auch in DE erhältlich, O'Reilly 2019
- python-data-science-handbook
-
Jake VanderPlas: Python Data Science Handbook.
https://jakevdp.github.io/PythonDataScienceHandbook/
The content is available on GitHub in the form of Jupyter notebooks: https://github.com/jakevdp/PythonDataScienceHandbook
DE aus der Bibliothek: Data Science mit Python: Das Handbuch für den Einsatz von IPython, Jupyter, NumPy, Pandas, Matplotlib, Scikit-Learn.
Vorgehensmodell CRISP-DM
- CRISP-DM
-
CRISP-DM: Cross-industry standard process for data mining
CRISP-DM 1.0 Step-by-step data mining guide Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR), Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler), Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler). © 2000 SPSS Inc. CRISPMWP-1104
Python
Python ist eine sehr schöne und moderne Sprache, die man sowieso lernen will.
(Ohne Python geht es nicht. Früher war bisweilen noch R wichtig, tritt aber in der Praxis von Informatikern zunehmend zurück. Bitte aber selbst ein Bild machen: google nach "R versus Python", finde z.B. hier oder hier oder hier).
- python-whirlwind
-
Jake Vanderplas: A Whirlwind Tour of Python, O’Reilly 2016. 978-1-491-96465-1
als pdf https://jakevdp.github.io/WhirlwindTourOfPython/ > "The content is also available [...] from O'Reilly site as a free e-book or free pdf": http://www.oreilly.com/programming/free/files/a-whirlwind-tour-of-python.pdf
Code bei github: https://github.com/jakevdp/WhirlwindTourOfPython | https://jakevdp.github.io/WhirlwindTourOfPython/
Lizenz: CC0, d.h. fast beliebige (!) Wiederverwendung erlaubt
Python für Quereinsteiger, die schon Java oder C gelernt haben:
- python-learnxinyminutes
-
Learn X in Y minutes, where X=python3. https://learnxinyminutes.com/docs/python3/
JB: Kommentierter Python-Code, kurz und knapp.
- python-for-java-developers
-
Python Primer for Java Developers. https://lobster1234.github.io/2017/05/25/python-java-primer/
JB: gut für schnelles Umsteige-Lernen.
Die Bibliotheken: numpy, pandas, scikit-learn
Data Science in Python besteht vor allem in der genauen Kenntnis der Bibliotheken Pandas und Scikit-learn, und zwar (a) exemplarisch in Details, aber auch (b) bzgl. dem Aufbau der Dokumenation an sich, um schnelles Nachschlagen zu ermöglichen.
- pandas
- scikit-learn
- pandas-cheat-sheet
-
https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf.
google nach "pandas cheat sheet", finde z.b. die Übersicht https://pbpython.com/pages/resources.html#cheat-sheets.
Im Prinzip ist auch NumPy wichtig, vor allem die Datenstruktur ndarray. Aber wir lernen NumPy eher ergänzend, durch Nachschlagen bei Bedarf.
- numpy
Die Community der großen Bibliotheken stellt selbst viele praxisorientierte, didaktisierte Einführungen in ihre Bibliotheken an.
- scipy-lectures-scikit-learn
Pandas ist sicherlich die wichtigste Grundlage. Interessant ist z.B. die Lernpfad-Empfehlung How to Learn Pandas von Ted Petrou.
Software
- anaconda
-
Download: https://www.anaconda.com/download/
Anaconda bietet Jupyter Notebooks und JupyterLab an
optional:
/misc
Viele Autoren, öffentliche Organisationen (Hochschulen) oder private Bildungsanbieter bieten z.T. sehr umfangreiche Tutorials für alle Aspekte der Data Science an.
Tutorials für Menschen, die gerne mit Tutorials lernen:
- L1: python-datacamp
-
https://www.datacamp.com/courses/intro-to-python-for-data-science
4 hours | 11 Videos | 57 Exercises | (mit Anmeldung)JB: 4h = ein Nachmittag: Warum nicht mal machen?
Ein schönes Beginners Level Python-Tutorial, das auch schon in NumPy einführt
- machine-learning-tutorial-python-introduction
-
https://pythonprogramming.net/machine-learning-tutorial-python-introduction/ 66 Abschnitte Tabelle TRT auf Moodle
- data-analysis-python-pandas-tutorial-introduction
-
https://pythonprogramming.net/data-analysis-python-pandas-tutorial-introduction/ 16 * 15 min pro Abschnitt
- w3resource-python-exercises
-
interaktive Lernerfolgskontrollen bei w3resources
https://www.w3resource.com/python-exercises/numpy/index.php, dort insbesondere NumPy Basic [40 exercises with solution] NumPy arrays [100 exercises with solution]
https://www.w3resource.com/python-exercises/pandas/index.php, dort insbesondere Python Pandas Data Series [15 exercises with solution] Python Pandas DataFrame [63 exercises with solution]
Plattformen und Communities
- kaggle
-
(Kaggle ist eine Google-Company)
- google-datalab
- kdnuggets
- analyticsvidhya
- arxiv-sanity
- github
-
Standard-Plattform, die man als Informatiker kennen muss.
Sonstige Online-Tutorials
- google-ml-crashcourse
-
Machine Learning Crash Course with TensorFlow APIs. Google's fast-paced, practical introduction to machine learning.
https://developers.google.com/machine-learning/crash-course/
- python-codeacademy
-
https://www.codecademy.com/learn/learn-python
Von Kaggle empfohlen, von uns aber abgewertet wegen zu strikter Lernpfad-Vorgabe
- git-book
-
Scott Chacon, Ben Straub: Pro Git book. Apress 2014.
Glossare
- analyticsvidhya-machine-learning-glossary
-
https://www.analyticsvidhya.com/glossary-of-common-statistics-and-machine-learning-terms/
- google-machine-learning-glossary
- http://www.datascienceglossary.org/
Curricula
- edison
-
Edison Curriculum Data Science
http://edison-project.eu/data-science-model-curriculum-mc-ds