Strukturierte Duck.ai-Chats in einer Präsenzprüfung

Strukturierte Duck.ai-Chats in einer Präsenzprüfung#

Setting#

Situation:

Präsenzprüfung ca 60 Minuten, eigener Laptop Open Internet
Die Nutzung von KI ist nicht nur erlaubt, sondern sogar ausdrücklich erwünscht.

Die Klausur

besteht auf mehreren Einzelaufgaben, die unabhängig voneinander bearbeitet werden können
vom Typ “LLM”
~~auch noch vom Typ “konventionell”? Eigentlich nur, falls auch “Wissen” geprüft werden soll.~~

2025-07-10: etki Klausurchat#

Ort und Zeit

2025-07-10: der Pool wird noch bekanntgegeben
2025-07-10: vermutlich Prüfung verschoben auf 14:30 Uhr

Technische Umgebung:

eigener Laptop oder Pool-Rechner, offenes Internet
genutzt werden soll Duck.ai mit dem Modell Mistral
das Prüfungs-Moodle der HAW LA: https://exams.haw-landshut.de/course/view.php?id=542
- Token erforderlich!

Prüfungs-Artefakte:

einer oder mehrere Chats mit Duck.ai, auf Moodle hochgeladen
eigenes Klausur-Protokoll auf Papier
- Name, MatNr
- ~~herkömmliche Wissensfrage~~
- Kurze Beschreibung (“Metadaten”) zu den hochgeladenen Dateien: Dateiname, Thema in Stichworten

Das in der Klausur zu erstellende Artefakt sind mehrere primäre Chats:

zu erzeugen mit dem Tool duck.ai
muss einem vorgegebenen, bekannten Gesprächsprotokoll folgen
muss lokal abgespeichert und bis 5 Min nach Klausurende als Prüfungsergebnis auf Moodle hochgeladen werden

Zusätzlich kann es sekundäre Chats geben:

das sind erlaubte Hilfsmittel
und müssen in unserer Prüfung nicht dokumentiert werden.

Die Nutzung von KI muss laut KI-Leitlininen weitgehend dokumentiert werden – ABER die Doumentationspflicht bzgl. sekundärer Chats ist nicht vollständig durchsetzbar und auch nicht überprüfbar, auch nicht in einer Open Internet Präsenzprüfung (denn wir können und wollen die Studierenden nicht engmaschig überwachen).

Metapher Eisberg: Der primäre Chat ist der Teil über dem Wasser, den wir sehen und bewundern, und den wir als Prüfungsergebnis bewerten. Und wir vemuten und erlauben Sekundär-Chats, auch wenn wir hier die Dokumentation nicht überprüfen.

Wir probieren das aus:

Aufgabe im Lehrveranstaltungs-Moodle: https://moodle.haw-landshut.de/mod/assign/view.php?id=604951
Kurs im Prüfungs-Moodle: https://exams.haw-landshut.de/mod/assign/view.php?id=8169 (neu aufgesetzt 2025-07-29)

Aufgabe: Medikament

initialer Prompt

Klassisches Heinz-Dilemma. Die Frau von Heinz will, dass Heinz das Medikament stiehlt.

Das LLM wird in der Voreinstellung eine ausgewogene Abwägung von Pro- und Contra liefern.

Ihre Aufgabe: Diskutieren Sie mit dem LLM und überzeugen Sie es, dass Heinz das Medikament (a) stehlen soll, oder auch (b) NICHT stehlen soll.

NEU 2025-07-30: aktualisierte konkrete Form dieser Aufgabe in Klausur-TEST Mi 2025-07-30.

Aufgabe: LLM als moralischer Berater?#

initialer Prompt

Ethik der KI (etki). KI heißt heute LLM. Unser Thema: LLM als Berater für die Lösung von moralischen Problemen.

Das LLM wird vermutlich einige typische Aspekte der Problematik liefern.

Ihre Aufgabe: Identifizieren Sie Aspekte, bei denen man den Einsatz von LLM als Berater für moralischen Probleme kritisch sehen kann.

Beispiel-Lösung#

anschauen, diskutieren: ../duck.ai/duck.ai_2025-07-09_09-38-25.txt

Tool: Duck.ai #

ChatGPT ist eigentlich besser – jedenfalls dann, wenn man angemeldet ist, noch besser bei Bezahl-Abo. Login wird gelegentich durch Zweifaktor überprüft, d.h. email an Account-Inhaber. Datenschutz unklar. Vollständige Dokumentation der Chats per Hand aufwändig, technisch nicht trivial, insgesamt fehleranfällig. Zusendung des vollständigen Chatverlaufs erzeugt komplexes Format, ungeeignet für Prüfungs-Dokumentation. Nicht geeignet in unserem Prüfungskontext.

Duck.ai:

hoher Datenschutz: ohne Anmeldung, anonym, keine dauerhafte Speicherung persönlicher Daten beim Provider
Download des Chats und hochladen auf Moodle techisch einfach machbar
Chat liegt als einfache Markdown-Datei vor
- gut strukturiert, Promt, LLM-Antwort sind klar dokumentiert
- Interaktionen sind durch Zeitstempel dokumentiert
- Chats könnten gerendert, aber auch im Rohformat unverändert gelesen und ggf. auch ausgedruckt werden –> einfache Archivierung

Duck.ai greift auf Modell 4o zu, liegt also ca 1 Jahr hinter dem Stand von ChatGPT 4 turbo: Ein Problem? Nein, sondern wir interpretieren die nicht optimale Qualität des LLM als Feature. Ein Lernziel unseres Moduls besteht u.A. auch darin, die Grenze zwischen “guten” und “schlechten” LLM-Antworten auszuloten. In Lehr- und Lernkontexten sind suboptimale Modelle dazu besser geeignet als überwältigend guten Modelle, die (scheinbar) keinen Wunsch offen lassen.

Markdown#

Markdown ist das derzeit am weitesten verbreitete Plaintext Markup Format. Sowohl ChatGPT wie auch Duck.ai exportiren ihre Antworten in Markdown.

Export Duck.ai

 User prompt 1 of 1 - 5/22/2025, 8:16:28 AM:
 Lehrveranstaltung "Ethik der KI". wie könnte eine Open Book, Open Internet Prüfung aussehen, in der explizit die Nutzung von duck.ai erlaubt und erwünscht ist?
 
 GPT-4o mini:
 Eine Open Book, Open Internet Prüfung zur "Ethik der KI", bei der die Nutzung von DuckDuckGo (oder einer ähnlichen Plattform) erlaubt und erwünscht ist, könnte folgendermaßen gestaltet werden:
 
 ### Prüfungsformat
 
 1. **Fragenformat**:
    - **Essayfragen**: Die Studierenden müssen ausführliche Antworten auf komplexe ethische Fragestellungen geben.
    - **Fallstudien**: Analyse von realen oder hypothetischen Szenarien, in denen ethische Entscheidungen im Zusammenhang mit KI getroffen werden müssen.
    - **Diskussionsfragen**: Offene Fragen, die zur kritischen Reflexion anregen und verschiedene Perspektiven erfordern.

 ... 

Unterschleif#

Unterschleif erkunden, diskutieren, TBD.

Wir vermuten sehr viel weniger Unterschleif, weil im ggs. zu konventionellen Prüfungen Spickzettel und LLM-Nutzung als Unterschleif-Techniken wegfallen.

Klar ist aber auch: Täuschung kann nicht zuverlässig verhindert werden. TBD: Aufwand und Nutzen bewerten ähnlich Sicherheitsstufen bei Einbruch-Sicherungen der Haustüre: Sicher gegen Schraubenzieher; 3 Minuten sicher gegen Brechstange; unsicher gegen Baggerschaufel.

Beispiel für neu hinzukommende Unterschleif-Möglichkeit bei Open Internet:

Die Klausurfragen werden (z.B. per Chat, email, Screen-Sharing, remote Zugriff etc.) an einen externen menschlichen Experten übermittelt, der zeitsynchron die eigentliche Klausur anfertigt und wieder zurücksendet.
- Das ist eine Gefahr, wenn die Klausur so allgemein gestellt ist, dass sie auch ohne Teilnahme an der Veranstaltung bestanden werden kann.
- In unserem Fach “Ethik der KI” wird eine Klausurteilnahme ohne regelmäßige Anwesenheit kaum zu einem befriedigenden Ergebnis führen, den externen Experten gibt es nicht.
unzulässige technische Koopertation zwischen Klausurteilnehmern, insbesondere durch Zusenden von Chats
- technisch bei der Korrektur leicht nachzuweisen, wir raten davon ab ;-)

Verworfen / DEPRECATED#

Einzelaufgabe konventionell#

2025-07-10: spielt keine Rolle, organisatorisch nicht sinnvoll bei einer Open Internet Klausur

Eine herkömmliche Wissenfrage
zu beantworten handschriftlich auf Papier
zu bearbeiten in den ersten 10 Min der Prüfung, dann Abgabe
im Anschluss dann die Open Internet-Aufgaben

Chat-Strukturierung (DEPRECATED)#

2025-07-10: Veraltet, DEPRECATED

Idee:

Herzustellen ist ein Primär-Chat mit einer relativ genau vorgebenen Chat-Struktur
Wir gehen davon aus, dass auch nicht dokumentierte Sekundär-Chats genutzt werden – das ist ok.

Phase 1: Was “weiß” das LLM? Hintergundwissen feststellen

Kennt das LLM die für unser Thema relevanten Begriffe?
Benutzt es die Begriffe richtig?
Sind alle für uns wichtigen Aspekte anthalten?

Phase 2: Wir erstellen einen ausführlichen Prompt zur ausführlichen Textgenerierung

Ziel: das LLM erzeugt einen Text, der in einem konventionellen Setting als Klausur-Antwort hätte gelten können.

Phase 3: generierten LLM-Text ergänzen