RDF Linked Open Data mit GenDifS#

Diese Seite: Text und weitere Informationen zum Poster von J.Busse auf dem Forum Digitalisierung am 26. Oktober 2023 an der HAW Landhut.

Was ist GenDifS?#

Konventionell wird eine Semantic Web Ontologie verstanden als eine Axiomatisierung von Begriffen.

Seit Aristoteles kann man Begriffe unterscheiden nach dem Muster Genus Proximum, Differentia Specifica, das auch unserer neuen Taxonomiesprache den Namen gegeben hat: GenDifS

Unsere Einsicht:

  • Die Kunst liegt in der richtigen Unterscheidung von Begriffen.

  • Insbesondere macht es einen Unterschied, ob man nach Begriffen oder nach Unterschieden sucht.

  • Wichtiger als die Begriffe selbst sind ihre Unterschiede: Primat der Unterschiede.

Mit GenDifS systematisiert man Unterschiede, mit denen man dann kontextorientiert und aufgabenspezifisch Begriffe konstruieren kann. Ziel ist eine sog. postkoordinierende Taxonomie.

Digitalisierungsproblem: proprietäre Datensilos#

Daten liegen

  • unstrukturiert und in proprietären Formaten;

  • verteilt, redundant, veraltet, konkurrierend;

  • datenbanktechnisch nicht normalisiert vor.

Größtes Problem: Die Bedeutung der Daten ist oft nur „in den Köpfen“, kontextspezifisch und informell bekannt.

Beispiel: CSV-Datei über die Herkunft von Schnitzelfleisch in der Gastronomie; einlesen mit Pandas:

Lösung: Semantische Datenintegration#

Lösung: „Digitalisierung“ durch Semantische Datenintegration. Stand der Technik ist Linked Open Data 5 Star:

  • mindestens ★★★ non-proprietary format (e.g. CSV instead of excel)

  • besser ★★★★ open standards from W3C (RDF and SPARQL)

  • idealerweise ★★★★★ link your data to other people’s data to provide context

Existierende Standards (z.B. rdb2rdf) sind oft keine Lösung: schwergewichtig und für die Praxis zu komplex; erfordern tiefgehendes Expertenwissen; setzen relationale Datenhaltung in 3NF voraus; sind nicht anwendbar bei denormalisierten Tabellen. Hier setzt GenDifS an.

GenDifS-Ontologie zur CSV-Tabelle als Mindmap:

partieller Lösungsansatz mit der Ontologiesprache GenDifS:

  • niedrigschwellige Formalismen: Modellierung einer Ontologie (T-Box) in einer Mindmap

  • Integration: Einlesen von Fakten (A-Box) aus CSV-Tabellen

  • Open Data: Unternehmensintern möglichst offene Bereitstellung des Knowledge Graphs in verschiedenen Formaten; Standard heute ist Turtle

  • einfache Abfrage: Erzeuge aktuelle Tabellen „on the fly“ durch vordefinierte SPARQL-Abfragen

Fokus auf Schnitzel_1: Von gd05.py im Format Turtle erzeugter Knowledge Graph, in rdflib eingelesen und wieder exportiert:

Inferencing mit OWL-RL#

Dieser Graph von owlrl entsprechend der GenDifS-Ontologie ausmaterialisiert, Fokus wieder auf Schnitzel_1:

Ist das KI? EU Entwurf AI Act, Anhang I: Techniken und Konzepte der Künstlichen Intellizenz, Artikel 3, Absatz 1:

b) Logik- und wissensgestützte Konzepte, einschließlich Wissensrepräsentation, induktiver (logischer) Programmierung, Wissensgrundlagen, Inferenz- und Deduktionsmaschinen, (symbolischer) Schlussfolgerungs- und Expertensysteme;

Mit GenDifS erstellen wir nicht nur ein konventionelles Datenbank-Schema, sondern eine Semantic Web Ontologie, mit der wir mit einem Standard-Reasoner Objekte anhand ihrer Eigenschaften durch symbolisches Schlussfolgern klassifizieren können.

Diskussion#

Hindernisse der Nutzung von GenDifS:

  • keine Fachkräfte bzgl. Semantic Web Technologien

  • Terminologiearbeit, Data Dictionary, systematisches Datenmanagement wenig verbreitet

  • abteilungsübergreifende Kommunikation „lohnt“ sich oft nicht

Über dieses Projekt#

Projektziel: Exploration einer innovativen Idee; praxisbezogene Grundlagenforschung; TRL 3 funktionaler Prototyp. Publikation als Open Source Code und als Buch in Planung.

Publikationen

  • Busse, Johannes: Kernkonzepte der Taxonomiesprache GenDifS. In: Tagungsband zur 35. Jahrestagung des Arbeitskreises Wirtschaftsinformatik, HTW Berlin, HWR Berlin. S. 214–231. DOI: https://doi.org/10.30844/AKWI_2022_14

  • Busse, Johannes: Terminologie und Ontologie: WordNet trifft SKOS. In: Petra Drewer, Felix Mayer, Donatella Pulitano (Hrsg.)(2023): Terminologie: Tools und Technologien. Akten des Symposions des Deutschen Terminologie-Tags e.V. (DTT). Mannheim, 2.–4. März 2023. München, Köln, Bern: DTT e.V., S. 31-42.

  • Busse, Johannes: Prä- versus postkoordinierende Ontologien. In: C. Czarnecki u.A. (Hrsg): Tagungsband zur 36. AKWI-Jahrestagung, TH Wildau. DOI: https://doi.org/10.15771/1794

  • Busse, Johannes: Semantische Modelle Mit Mindmaps. In Stefan Andreas Keller, René Schneider, and Benno Volk, editors, Wissensorganisation und -Repräsentation mit digitalen Technologien, S. 115–127. DE Gruyter 2014. doi:10.1515/9783110312812.115.

Dieses Poster online: http://jbusse.de/gendifs/forum-digitalisierung-2023.html. QR-Code dieser Seite:

_images/QR_jbusse.de_gendifs_forum-digitalisierung-2023.png

Prof. Dr. Johannes Busse, Fakultät für Informatik, HAW Landshut, http://www.jbusse.de