Strukturierte Duck.ai-Chats in einer Präsenzprüfung#
Setting#
Situation:
Präsenzprüfung ca 60 Minuten, eigener Laptop Open Internet
Die Nutzung von KI ist nicht nur erlaubt, sondern sogar ausdrücklich erwünscht.
Die Klausur
besteht auf mehreren Einzelaufgaben, die unabhängig voneinander bearbeitet werden können
jedenfalls vom Typ “LLM”
ggf. auch noch vom Typ “konventionell”? Eigentlich nur, falls auch “Wissen” geprüft werden soll.
Einzelaufgabe konventionell#
Eine herkömmliche Wissenfrage
zu beantworten handschriftlich auf Papier
zu bearbeiten in den ersten 10 Min der Prüfung, dann Abgabe
im Anschluss dann die Open Internet-Aufgaben
Einzelaufgabe LLM#
Das in der Klausur zu erstellende Artefakt ist ein primärer Chat:
zu erzeugen mit dem Tool duck.ai
muss einem vorgegebenen, bekannten Gesprächsprotokoll folgen
muss lokal abgespeichert und bis 5 Min nach Klausurende als Prüfungsergebnis auf Moodle hochgeladen werden
Zusätzlich kann es sekundäre Chats geben:
das sind erlaubte Hilfsmittel
die Nutzung sollte grundsätzlich weitgehend dokumentiert werden
ABER die Doumentationspflicht bzgl. sekundärer Chats ist weder durchsetzbar noch überprüfbar – schon gar nicht in einer asynchron anzufertigenden Studienarbeit, und auch nicht in einer Open Internet Präsenzprüfung (denn wir können und wollen die Studierenden nicht engmaschig überwachen).
Wir gehen also davon aus, dass sekundäre Chats ggf. benutzt werden und dokumentiert werden sollten, wir aber hier mit einem großen unsichtbaren Bereich rechnen müssen. Metapher Eisberg: der primäre Chat ist der Teil über dem Wasser, den wir sehen und bewundern, und als Prüfungsergebnis bewerten. Und wir vemuten und erlauben Sekundär-Chats, auch wenn wir hier die Dokumentation nicht überprüfen.
Chat-Strukturierung#
Idee:
Herzustellen ist ein Primär-Chat mit einer relativ genau vorgebenen Chat-Struktur
Wir gehen zunächst einmal davon aus, dass keine Sekundär-Chats genutzt werden.
Phase 1: Was “weiß” das LLM? Hintergundwissen feststellen
Kennt das LLM die für unser Thema relevanten Begriffe?
Benutzt es die Begriffe richtig?
Sind alle für uns wichtigen Aspekte anthalten?
Phase 2: Wir erstellen einen ausführlichen Prompt zur ausführlichen Textgenerierung
Ziel: das LLM erzeugt einen Text, der in einem konventionellen Setting als Klausur-Antwort hätte gelten können.
Phase 3: generierten LLM-Text ergänzen
misc#
Tools#
ChatGPT: Eigentlich besser – jedenfalls dann, wenn man angemeldet ist, noch besser bei Bezahl-Abo. Login wird gelegentich durch Zweifaktor überprüft, d.h. email an Account-Inhaber. Datenschutz unklar. Vollständige Dokumentation der Chats per Hand aufwändig, technisch nicht trivial, insgesamt fehleranfällig. Zusendung des vollständigen Chatverlaufs erzeugt komplexes Format, ungeeignet für Prüfungs-Dokumentation. Nicht geeignet in unserem Prüfungskontext.
hoher Datenschutz: ohne Anmeldung, anonym, keine dauerhafte Speicherung persönlicher Daten beim Provider
Download des Chats techisch einfach machbar
Chat liegt als einfache Textdatei vor
Interaktionen sind durch Zeitstempel dokumentiert
Markdown
Prüfungs-Chats können im Rohformat unverändert ausgedruckt werden –> Archivierung
Modell 4o, also ca 1 Jahr hinter dem Stand von ChatGPT 4 turbo
Wir erachten die nicht optimale Qualität des LLM als Feature: Denn ein Lernziel unseres Moduls besteht u.A. auch darin, die Grenze zwischen “guten” und “schlechten” LLM-Antworten auszuloten. In Lehr- und Lernkontexten sind suboptimale Modelle dazu besser geeignet als überwältigend guten Modelle, die (scheinbar) keinen Wunsch offen lassen.
Markdown#
Markdown ist das derzeit am weitesten verbreitete Plaintext Markup Format. Sowohl ChatGPT wie auch Duck.ai exportiren ihre Antworten in Markdown.
Export Duck.ai
User prompt 1 of 1 - 5/22/2025, 8:16:28 AM:
Lehrveranstaltung "Ethik der KI". wie könnte eine Open Book, Open Internet Prüfung aussehen, in der explizit die Nutzung von duck.ai erlaubt und erwünscht ist?
GPT-4o mini:
Eine Open Book, Open Internet Prüfung zur "Ethik der KI", bei der die Nutzung von DuckDuckGo (oder einer ähnlichen Plattform) erlaubt und erwünscht ist, könnte folgendermaßen gestaltet werden:
### Prüfungsformat
1. **Fragenformat**:
- **Essayfragen**: Die Studierenden müssen ausführliche Antworten auf komplexe ethische Fragestellungen geben.
- **Fallstudien**: Analyse von realen oder hypothetischen Szenarien, in denen ethische Entscheidungen im Zusammenhang mit KI getroffen werden müssen.
- **Diskussionsfragen**: Offene Fragen, die zur kritischen Reflexion anregen und verschiedene Perspektiven erfordern.
Unterschleif#
Unterschleif erkunden, diskutieren, TBD.
Gut: weniger Unterschleif, weil im ggs. zu konventionellen Prüfungen Spickzettel und LLM-Nutzung als Unterschleif-Techniken wegfallen.
Klar ist aber auch: Täuschung kann nicht zuverlässig verhindert werden. TBD: Aufwand und Nutzen bewerten ähnlich Sicherheitsstufen bei Einbruch-Sicherungen der Haustüre: Sicher gegen Schraubenzieher; 3 Minuten sicher gegen Brechstange; unsicher gegen Baggerschaufel.
Beispiel für neu hinzukommende Unterschleif-Möglichkeit bei Open Internet:
Die Klausurfragen werden (z.B. per Chat, email, Screen-Sharing, remote Zugriff etc.) an einen externen menschlichen Experten übermittelt, der zeitsynchron die eigentliche Klausur anfertigt und wieder zurücksendet.
Das ist eine Gefahr, wenn die Klausur so allgemein gestellt ist, dass sie auch ohne Teilnahme an der Veranstaltung bestanden werden kann.
In unserem Fach “Ethik der KI” wird eine Klausurteilnahme ohne regelmäßige Anwesenheit kaum zu einem befriedigenden Ergebnis führen, den externen Experten gibt es nicht.
unzulässige technische Koopertation zwischen Klausurteilnehmern, insbesondere zusenden von Ergebnissen
technisch bei der Korrektur leicht nachzuweisen