Semantische Dekomposition von Konglomeraten#
Diese Seite:
Funktion: Zur eigenen Vergewisserung über ein alltägliches Phänomen, das aber für die formale Modellierung eine gewisse Herausforderung darstellt
Stil: frühe Skizzen, Rohtext, zur Diskussion mit Kollegen, “Release early, release often”; Erklärungen fehlen, nicht self containing.
Adressaten:
kurzfristig die Kollegen auf dem Dagstuhl-Forschungstreffen Applied Machine Intelligence 2024
Zum Begriff Konglomerat: Hier vorläufig ein Platzhalter für eine später noch zu wählende, besser passende Benennung für ein Phänomen, das es genauer zu beschreiben gilt. Aus Darstellungssicht ungut wäre es gewesen, für das noch nicht klar und deutlich vorliegende Phänomen eine scheinbar naheliegendere Bennnung (wie z.B. “compound”) zu verwenden – zu leicht könnte dann der Eindruck enstehen, dass ein fachsprachlicher Begriff referenziert wird, also auf eine eingeführte Bedeutung bezug genommen wird. Denn letzteres ist nicht der Fall; statt dessen geht es in diesem Text darum, einem Phänomen nachzuspüren und es als Begriff erst noch zu entwickeln. Darum also hier eine neue, ungewohnte Benennung für einen Begriffsinhalt, der erst noch entwickelt werden muss.
Hint
Kontext
Welt A (z.B. “Allgemeinwissen”): Ein Ding “Publikation”, im Lit.-Verzeichnis, Datenbanken wie Zotero oder BibTeX etc. … hat Autor, Sprache, Erscheinungsort und -Jahre u.s.w … Welt B (insbesondere “Bibliothek”): In einem Ding “Publikation” kommen (hier vier) verschiedene Dinge zusammen (nämlich FRBR WEMI) … “Teile”, die in der “Summe” etwas Eigenes ergeben … wobei “Teil” und “Summe” hier nur metaphorisch zu verstehen ist … Welt B sieht professionelle Differenzierungen, macht Unterscheidungen und hat Begriffe entwickelt, die aus der Welt A nicht unmittelbar zugänglich sind … das ist in A normalerweise kein Problem, auch keine Notwendigkeit … aber bisweilen dann schon: Dann nämlich, wenn sich jemand aus Welt A einem Problem gegenüber sieht (für das in der Welt B die Lösung vorliegt) und dafür eine Ontologie entwickelt … Ideale Lösung: A konsultiert B, holt sich aus B Experten ins Projektteam … was aber, wenn A kein Wissen der Existenz von B hat? Dann wird A mit einer suboptimalen Sachkenntnis selbst eine Lösung entwickeln, die vermutlich nicht den professionellen Entwicklungsstand wie die Begrifflichkeit in B aufweist.
INHO stellt FRBR WEMI (Google hilft) Unterscheidungen bereit, die bahnbrechend sind, um Polysemien und komplexe Diskussionen durch fundierten Theoriebezug aufzulösen:
insbesondere bei der HTTPRange-14-Grundlagenkrise des Semantic Web;
aktuell auch in DCAT
IMHO ist z.B. auch iiRDS ein Beispiel dafür, dass mit oder ohne Kenntnis von FRBR entsprechende WEMI-Strukturen (nach-) entwickelt wurden (TBD, prüfen: An welchen Stellen und wie wird in der iiRDS-Doku WEMI referenziert?)
Aktuell laufende Bachelorarbeit: Nehme einen DCAT-Datensatz, und überführe ihn in einen Datensatz, der nach WEMI aufgebaut ist, siehe anwendung-buch-nach-wemi-dcat-nach-wemi
; Python-Code zu diesem Beispiel (Modell in Turtle, rdflib, in Arbeit): Verpackte Milch
Dieser Text: Das Phänomen an einem möglichst einfachen Beispiel aus der nichtfachlichen Alltagswelt deutlich machen, hier: verpackte Milch.
Konglomerat#
Bild: Ein Berg aus den Allgäuer Alpen, der sog. Nagelfluhkette, die aus dem Gesteinen Nagelfluh besteht.
Nagelfluh:
ein physikalisches Konglomerat: “Nagelfluh, scherzhaft auch als Herrgottsbeton bezeichnet, erinnert an schlecht sortierten bzw. gerüttelten Waschbeton: In einer verbackenen Masse sind mäßig gut abgerundete Gesteinsbrocken eingeschlossen”
ein semantisches Konglomerat: Um Nagelfuh zu beschreiben, benötigen wir weitere Begriffe wie “verbackene Masse” oder “Gestein”
Das Phänomen:
Grundlage: “Das Ganze ist mehr als die Summe seiner Teile”; hier neu eingeführt: Konglomerat
hier Fokus auf das Phänomen: Manchmal wird solch ein Ganzes (ein Konglomerat) mit Attributen beschrieben, die eigentlich nur für die einzelnen Teile sinnvoll sind
Manchmal sehen wir nur das Ganze, haben aber für einzelnen assoziierten Bestandteile keine eigenen Begriffe; oder wir identifizieren einen Teil mit dem Ganzen, ohne für das Ganze einen eigenen Begriff zu haben.
Problem:
mangelndes analytisches Differenzierungsvermögen
mangelndes Ausdrucksvermögen
mangelhafte Schemata und Modelle
Dieser Text: Ausfühliche Erläuterung des Phänomens an einem Sandkasten-Beispiel mit EAN, hier “verpackte Milch”; Eigentliche Anwendung: Überführung einer RDA 17.4.2.3 composite description in FRBR WEMI in Reinform.
8.2.2 Zusammengesetzte Beschreibung. Die dritte Möglichkeit zur Abbildung der Primärbeziehungen ist die sogenannte zusammengesetzte Beschreibung (RDA 17.4.2.3). Dabei wird eine gemischte Beschreibung angelegt, die Informationen aus den drei Ebenen Werk, Expression und Manifestation miteinander kombiniert. […] Hier gibt es nur einen einzigen Datensatz für die drei Entitäten Werk, Expression und Manifestation. (Heidrun Wiesenmüller: Basiswissen RDA, https://www.degruyter.com/document/doi/10.1515/9783110544725/html, S. 132)
Zusammengesetzte Beschreibung (= Composite Description). Eine Beschreibung, die ein Element oder mehrere Elemente, das/die ein Werk und/oder eine Expression identifiziert/identifizieren, das/die in einer Manifestation verkörpert ist/sind, mit einer Beschreibung der Manifestation kombiniert. (https://wiki.dnb.de/download/attachments/99090660/02_Block_Block_RDA_FRBR_Endfassung.pdf), Folie 16 und 17
Wir verwenden hier den neuen metaporischen Begriff “Konglomerat”, weil “composite” in der Linguistik schon ähnlich, im Detail aber dann doch anders besetzt ist.
zum Beispiel verpackte Milch#
Zwei alltägliche Situationen.
Es ist keine Milch mehr im Haus, wir klingeln bei der freundlichen Nachbarin, nehmen ein gefülltes Milchkännchen (und auch gleich die Nachbarin?) mit nach Hause: Alles gut, der Kaffee schmeckt wieder!
Es ist keine Milch mehr im Haus, wir schreiben “Milch” auf den Einkaufszettel, beim nächsten Einkauf tun wir auch Milch in den Einkaufswagen (analog oder digital), räumen zuhause die Milch an ihren Platz: Alles gut, der Kaffee schmeckt wieder!
Von der Nachbarin erhalten wir: Milch. Im Shop kaufen wir: nicht Milch, sondern etwas anderes. Was ist es, was wir kaufen, wenn nicht Milch? Das, was wir kaufen, ist ein Exemplar einer Klasse von Dingen, die eine Europäische Artikelnummer (EAN) haben, und zwar hier konkret die EAN 4101530003106.
Diese EAN können wir nachschauen, eine Abfrage in der Open EAN/GTIN Database > “EAN/GTIN Barcodenummer” 4101530003106 liefert:
Hauptkategorie: Milchprodukte
Unterkategorie: Milch
Name: Milch
Detailname: Haltbare Bergbauern Milch Fettarm (gesponserter Link)
Beschreibung: 1 Liter Tetrapack, fettarm (1.5% Fett)
Hersteller: Berchtesgadener Land
Eine Abfrage bei GS1 liefert:
Haltbare Berg- und Alpenmilch 1,5% 1l Tetra VLOG
Brand name (de) Berchtesgadener Land
Product description (de) Haltbare Berg- und Alpenmilch 1,5% 1l Tetra VLOG
Product image URL (de) https://cd.bergbauernmilch.de/gs1/04101530003106A00101.jpg
Global product category 10000026 Milk (Shelf Stable)
Net content 1.0 Litre
Country of sale Germany
This data has been provided by Milchwerke Berchtesgadener Land-Chiemgau eG and was last updated on 6 Apr 2023.
This GTIN record has complete data.
Was haben wir im Laden gekauft, wenn nicht Milch? Gekauft haben wir nicht nur Milch, die “wie früher” in ein selbst mitgebrachtes Gefäß eingefüllt wurde. Sondern gekauft haben wir eine integrierte, für eine industrielle Ernährungslogistik geeignete Handelsware, die wir im folgenden mit VerpackteMilch (CamelCase Schreibweise) bezeichnen wollen. (Und ja Wir können uns VerpackteMilch auch einen neuen Begriff vorstellen, in diesen Zeilen hier findet Begriffsbildung statt).
Das Phänomen, das uns interessiert, ist dieses:
einerseits reden wir von Milch_1 im Sinne einer Flüssigkeit
gleichzeitig reden wir von Milch_2 i.S. im Sinne eines Handelsgutes, das integral aus Milch_1 und einer bestimmten Verpackung zusammengesetzt ist.
Welchen Typ hat ean:4101530003106
, was für ein Ding ist das? Nicht Milch_1 im Sinne von Flüssigkeit, und natürlich nicht eine bestimmte Karton-Verpackung. Unser Griff ins Regal gilt einem Exemplar der Klasse VerpackteMilch, die zwar Milch_1 und eine Verpackung als assoziierten Bestandteil hat, aber nicht identisch ist (und auch keine Subklasse ist) von Milch. Wer verpackte Milch kauft, kauft nicht eine Flüssigkeit oder eine Verpackung oder beides, sondern ein eigenes Ding, das mehr ist als die Summe seiner Teile (und das im Falle eines Handelsgutes meist auch eine EAN hat). Natürlich kann man VerpackteMilch auch bei
A***** bestellen – aber interessanterweise nicht Milch_1: Wer wirklich Milch_1 kaufen will, muss zum Bauer gehen oder auf einer auf Milch spezialisierten Warenterminbörse ([DLG]) Gebote abgeben.
Die Attribute sind sehr unterschiedlich:
In unserem Beispiel wird die Milch_1 (die Flüssigkeit) u.A. durch ihren Fettgehalt beschrieben, auch durch das Pasteurisierungsverfahren, ggf. auch das Herkunftstier (hier Kuh, auch Ziege)
Das Handelsgut Milch_2 wird durch den Hersteller beschrieben, der aus einzelnen assoziierten Teilen erst zu einem neuen Ganzen zusammenfügt.
Konglomerat#
Wir wollen solch ein Konglomerat nennen:
Gemisch [aus sehr Verschiedenartigem]; Zusammenballung https://www.duden.de/rechtschreibung/Konglomerat:
eine Zusammenballung verschiedener Materialien im allgemeinen Sprachgebrauch, siehe Gemisch https://de.wikipedia.org/wiki/Konglomerat
Ein Konglomerat ist ein selbstständiges Ganzes betrachten, das mehr ist als die Summe seiner Teile. Dieses Konzept ist mehr als 2k Jahre alt:
Das, was aus Bestandteilen so zusammengesetzt ist, dass es ein einheitliches Ganzes bildet – nicht nach Art eines Haufens, sondern wie eine Silbe –, das ist offenbar mehr als bloß die Summe seiner Bestandteile. Eine Silbe ist nicht die Summe ihrer Laute: ba ist nicht dasselbe wie b plus a […]. (Aristoteles, Metaphysik VII 17, 1041b, zitiert nach https://de.wikiquote.org/wiki/Aristoteles)
Mit welcher Relation beschreiben wir den Zusammenhang zwischen dem Ganzen und seinen Teilen? Die zitierte Aristoteles-Übersetzung verwendet die Wörter “Bestandteil” (und damit implizit auch die Beziehung “ist Teil von”) und “Summe” damit seinerseits sehr breit interpretierbare, mithin auch metaphorisch interpretierbare Begiffe. In unserem Beispiel VerpackteMilch könnten wir zwar Milch_2 und den Tetrapack-Behälter durchaus als “Teile” von VerpackteMilch bezeichnen. Wir würden das aber eher in einem sehr weitem Sinn tun. Um zu vermeiden, an dieser Stelle metaphysische Betrachtungen über die Ontologie von “Teil” zu spekulieren, machen wir es uns einfach: Es genügt uns festzustellen, dass Milch_2 und eine bestimmte Verpackung mit unserer Milch_1 in irgend einer Weise assoziiert sind; wir wollen dann von assoziierten Bestandteilen sprechen.
Mit diesen neu geprägten Begriffen können wir nun formulieren: Bei einem Konglomerat kann es vorkommen, dass man das Konglomerat mit Attributen beschreibt, die genauer eigentlich den assoziierten Bestandteilen zugeordnet sind.
Wir modellieren solch einen Sachverhalt als RDF-Graph im Format Turtle (*.ttl):
@prefix ean: <http://www.opengtindb.org/index.php?cmd=ean1&ean=>
@prefix ex: <http://my.example.com/ex#>
ean:4101530003106
rdf:type ex:VerpackteMilch ;
ex:hatBeschreibung "Haltbare Berg- und Alpenmilch 1,5% 1l Tetra VLOG"@de ;
ex:hatFettgehalt "0.15"^^xsd:float ;
ex:hatHersteller ex:Berchtesgadener_Land .
Lebenspraktisch besteht in obigem Milch-Beispiel kein Problem, unser Gehirn weiß genau, dass sich der Fettgehalt auf die Milch_1, der Hersteller auf die Milch_2 bezieht.
Was aber, wenn wir Attribute haben, die sich in gleichermaßen auf das Konglomerat und/oder die einzelnen assozierten Bestandteile beziehen kann, wie z.B. ex:hat_CO2_Bilanz
? Eine CO2-Bilanz kann sich gleichermaßen auf das Gesamtprodukt, nur die Milch oder nur die Verpackung beziehen. Das Beispiel ist hypothetisch, aber plausibel: Zunehmend mehr Verbraucher achten bei der Auswahl eines Produktes auf Nachhaltigkeit bzgl. des primären Inhalts (Ressourceneinsatz bei der Herstellung), der Verpackung (z.B. Recycling), und auch des Gesamtprpduktes (z.B. Transportwege).
Wir sind daran interessiert zu modellieren
wie sich ein Konglomerat im Detail aus assoziierten Bestandteilen zusammensetzt,
welche scheinbaren Attribute des Konglomerats eigentlich solche der assoziierten Bestandteile sind
welche Attribute tatsächlich nur das Konglomerat und nicht einen einzelnen assoziierten Bestandteil beschreiben
Wie könnte eine Modellierung aussehen, die die beschriebenen Mehrdeutigkeiten auflöst?
Semantische Dekomposition von Konglomeraten#
Wenn wir analytisch streng sein wollen,
legen wir zu einer bestehenden Entität des Typs ex:VerpackteMilch eine neue Entität des Typs ex:Milch an;
assoziieren wir die neue Entität mit der bestehenden Entität;
verschieben Eigenschaften wie
ex:hatFettgehalt
auf die neu eingeführte Entität.
@prefix ean: <http://www.opengtindb.org/index.php?cmd=ean1&ean=>
@prefix ex: <http://my.example.com/ex#>
# aus dem Original-Datensatz immer noch gültig
ean:4101530003106
rdf:type ex:verpackteMilch ;
ex:hatBeschreibung "Haltbare Berg- und Alpenmilch 1,5% 1l Tetra VLOG"@de ;
ex:hatHersteller ex:Berchtesgadener_Land .
# neu
ean:4101530003106
ex:hat_assoziiertenTeil
ex:Milch_4 101530003106,
ex:Verpackung_4101530003106 .
ex:Milch_4101530003106
rdf:type ex:Milch ;
ex:MilchHatFettgehalt 0.15 .
ex:Verpackung_4101530003106 .
rdf:type ex:Verpackung ;
ex:hatVerpackungsHersteller ex:Tetrapack .
Technisches Problem 1: Die Entailment-Regeln in RDFS können zwar zwischen existierenden Entitäten neue Beziehungen herstellen (genauer: implizit enthaltene Beziehungen explizit machen), nicht aber neue Entitäten einführen …(NACHPRÜFEN: wie sieht das in OWL aus, in F-Logik? Technik: Skolemisierung) … technische Lösung: Wir fragen den Graphen nach Entitäten vom Typ verpackteMilch an (SPARQL query), und werden die neuen Entitäten dann selbst erzeugen und in einen (möglicherweise anderen) RDF-Graphen initial einfügen (SPARQL update)
Technisches Problem 2: “verschieben” wäre schön, ist aber nicht möglich. Wenn in einer Datenbank, die irgendwann schon einmal in die Welt entlassen wurde, unserer Meinung nach “falsche” Fakten enthalten sind, dann lassen sich diese nicht mehr löschen. … Lösung (?): Wir erzeugen aus dem existierenden, “fehler”-behafteten Graphen einen neuen, verfeinerten Graphen; in diesen kopieren wir die für die neuen Entitäten charakteristischen Eigenschaften einfach ‘rüber.
Damit dieses Verfahren funktioniert, benötigen wir insbesondere die Information, welche Eigenschaften des Konglomerats eigentlich die einzelnen assoziierten Bestandteile oder genuin das Konglomerat selbst beschreiben.
Anwendung: “Buch” nach WEMI; DCAT nach WEMI#
Verpackte Milch ist ein Beispiel aus dem Alltag, bei dem wir zwar den neuen Begriff VerpackteMilch erst definieren mussten, der hinter diesem Begriff stehende Inhalt “Handelsgut” aber ebenfalls schon bekannt war.
Ist die Idee “Konglomerat” sowie die Herausforderungen einer semantischen Konglomeratdekomposition einmal verstanden, können wir den Transfer angehen:
Transfer 1:
Gegeben:
ein Koglomerat “Buch”, das beschrieben wird durch Autor, Sprache, Anzahl der Seiten, einen Rotweinfleck auf dem Einband
siehe z.B. WEMI-Bsp: Mord im Labyrinth
Gesucht ist eine semantische Dekomposition dieses Konglomerats in die WEMI-Klassen aus FRBR, also die folgenden vier zum “Buch” assoziierten Bestandteile:
Werk, beschrieben durch den Autor;
Expression, beschrieben u.A. durch die Sprache;
Manifestation, beschrieben u.A. durch die Anzahl der Seiten;
Item (Exemplar), beschrieben u.A. durch den Rotweinfleck.
Transfer 2:
Gegeben:
ein Metadatensatz aus govdata.de nach dem Schema DCAT-AP – nach unserer Meinung ein Konglomerat
Gesucht:
eine semantische Dekomposition dieses Konglomerats in entsprechende digitale WEMI-Klassen aus einem entsprechenden digitalen FRBR
Diese Aufgabe wird derzeit (Stand Sommer 2024) in Form einer Bachelorarbeit explorativ bearbeitet, siehe https://www.jbusse.de/logd/dcat2frbr.
Session 2024-06-27, 10:30 Uhr#
Vortrag 20 Min https://www.jbusse.de/lovs/semantische-dekomposition-konglomerat.html
offene Dikussion läuft, hier unstraukturiertes … Sabine: information for use vs. information product … Qualität von Daten, Informationsqualität … Informationsqualität vs. Informationsproduktqualität Qualität von Expressionen vs. Qualität von Manifestationen ist semantisch und ontologisch fundamemtal unterschiedlich
Anfrage an ChatGPT: Ist das Ergebnis ein Werk, eine Expression etc?
Alphabet des Denkens: Was ist relevanter für das Denken: Vokabular oder Grammatik? … Kollege aus Spanien: Zeit als Zeitstrahl? Als Volumen?
Architekt, macht Entwürfe, lauter verschiedene Expressionen, lauter verschiedene teils sich ergänzende, teils Darstellungen
WEMI auch unter Provenance betrachten … senkrecht: W -> E -> M
Übertragung auf reale Dinge? … an Person anknüpfen …
“Wir dürfen nicht auf Bennungsebene bleiben, wir müssen auf Konzeptebene gehen” …
Autoren ändern ihren Namen: Wie findet man ihre Werke?
Die Diskussion nimmt unerwartete Züge an, ich lasse es laufen, Unerwartetes ist immer interessant: Die TN wenden die WEMI-Idee an auf analoge Produkte: das war mit WEMI vermutlich so nicht gedacht, erscheint mir innovativ … Wo ist der Zusammenhang? technische Doku in Verbindung mit digitaler Zwilling … Digitaler Produktpass, digitale Zwillinge … es wird keine rein analogen Produkte mehr geben … Industrie 4.0, Orchestrierung
… Europäische Elektronikschrott-Abgabe: das kann pauschaliert sehr teuer werden, wenn man nicht genau weiß, was ‘drinn ist …
Bsp. Rose, Züchtung, ein Item?
analoge Items: Solche mit individueller ID:
Rinder, Laptop-Akkus
Pflastersteine, einzelne Schnitzel
Einzelprodukt vs. Massenprodukt vs. Charge
Mähdrescher … unterschiedliche Manifestationen, dazu jeweils einige Items …