Strukturierte Duck.ai-Chats in einer Präsenzprüfung

Strukturierte Duck.ai-Chats in einer Präsenzprüfung#

Setting#

Situation:

  • Präsenzprüfung ca 60 Minuten, eigener Laptop Open Internet

  • Die Nutzung von KI ist nicht nur erlaubt, sondern sogar ausdrücklich erwünscht.

Die Klausur

  • besteht auf mehreren Einzelaufgaben, die unabhängig voneinander bearbeitet werden können

  • jedenfalls vom Typ “LLM”

  • ggf. auch noch vom Typ “konventionell”? Eigentlich nur, falls auch “Wissen” geprüft werden soll.

Einzelaufgabe konventionell#

  • Eine herkömmliche Wissenfrage

  • zu beantworten handschriftlich auf Papier

  • zu bearbeiten in den ersten 10 Min der Prüfung, dann Abgabe

  • im Anschluss dann die Open Internet-Aufgaben

Einzelaufgabe LLM#

Das in der Klausur zu erstellende Artefakt ist ein primärer Chat:

  • zu erzeugen mit dem Tool duck.ai

  • muss einem vorgegebenen, bekannten Gesprächsprotokoll folgen

  • muss lokal abgespeichert und bis 5 Min nach Klausurende als Prüfungsergebnis auf Moodle hochgeladen werden

Zusätzlich kann es sekundäre Chats geben:

  • das sind erlaubte Hilfsmittel

  • die Nutzung sollte grundsätzlich weitgehend dokumentiert werden

  • ABER die Doumentationspflicht bzgl. sekundärer Chats ist weder durchsetzbar noch überprüfbar – schon gar nicht in einer asynchron anzufertigenden Studienarbeit, und auch nicht in einer Open Internet Präsenzprüfung (denn wir können und wollen die Studierenden nicht engmaschig überwachen).

Wir gehen also davon aus, dass sekundäre Chats ggf. benutzt werden und dokumentiert werden sollten, wir aber hier mit einem großen unsichtbaren Bereich rechnen müssen. Metapher Eisberg: der primäre Chat ist der Teil über dem Wasser, den wir sehen und bewundern, und als Prüfungsergebnis bewerten. Und wir vemuten und erlauben Sekundär-Chats, auch wenn wir hier die Dokumentation nicht überprüfen.

Chat-Strukturierung#

Idee:

  • Herzustellen ist ein Primär-Chat mit einer relativ genau vorgebenen Chat-Struktur

  • Wir gehen zunächst einmal davon aus, dass keine Sekundär-Chats genutzt werden.

Phase 1: Was “weiß” das LLM? Hintergundwissen feststellen

  • Kennt das LLM die für unser Thema relevanten Begriffe?

  • Benutzt es die Begriffe richtig?

  • Sind alle für uns wichtigen Aspekte anthalten?

Phase 2: Wir erstellen einen ausführlichen Prompt zur ausführlichen Textgenerierung

  • Ziel: das LLM erzeugt einen Text, der in einem konventionellen Setting als Klausur-Antwort hätte gelten können.

Phase 3: generierten LLM-Text ergänzen

misc#

Tools#

ChatGPT: Eigentlich besser – jedenfalls dann, wenn man angemeldet ist, noch besser bei Bezahl-Abo. Login wird gelegentich durch Zweifaktor überprüft, d.h. email an Account-Inhaber. Datenschutz unklar. Vollständige Dokumentation der Chats per Hand aufwändig, technisch nicht trivial, insgesamt fehleranfällig. Zusendung des vollständigen Chatverlaufs erzeugt komplexes Format, ungeeignet für Prüfungs-Dokumentation. Nicht geeignet in unserem Prüfungskontext.

Duck.ai:

  • hoher Datenschutz: ohne Anmeldung, anonym, keine dauerhafte Speicherung persönlicher Daten beim Provider

  • Download des Chats techisch einfach machbar

  • Chat liegt als einfache Textdatei vor

    • Interaktionen sind durch Zeitstempel dokumentiert

    • Markdown

    • Prüfungs-Chats können im Rohformat unverändert ausgedruckt werden –> Archivierung

  • Modell 4o, also ca 1 Jahr hinter dem Stand von ChatGPT 4 turbo

  • Wir erachten die nicht optimale Qualität des LLM als Feature: Denn ein Lernziel unseres Moduls besteht u.A. auch darin, die Grenze zwischen “guten” und “schlechten” LLM-Antworten auszuloten. In Lehr- und Lernkontexten sind suboptimale Modelle dazu besser geeignet als überwältigend guten Modelle, die (scheinbar) keinen Wunsch offen lassen.

Markdown#

Markdown ist das derzeit am weitesten verbreitete Plaintext Markup Format. Sowohl ChatGPT wie auch Duck.ai exportiren ihre Antworten in Markdown.

Export Duck.ai

 User prompt 1 of 1 - 5/22/2025, 8:16:28 AM:
 Lehrveranstaltung "Ethik der KI". wie könnte eine Open Book, Open Internet Prüfung aussehen, in der explizit die Nutzung von duck.ai erlaubt und erwünscht ist?
 
 GPT-4o mini:
 Eine Open Book, Open Internet Prüfung zur "Ethik der KI", bei der die Nutzung von DuckDuckGo (oder einer ähnlichen Plattform) erlaubt und erwünscht ist, könnte folgendermaßen gestaltet werden:
 
 ### Prüfungsformat
 
 1. **Fragenformat**:
    - **Essayfragen**: Die Studierenden müssen ausführliche Antworten auf komplexe ethische Fragestellungen geben.
    - **Fallstudien**: Analyse von realen oder hypothetischen Szenarien, in denen ethische Entscheidungen im Zusammenhang mit KI getroffen werden müssen.
    - **Diskussionsfragen**: Offene Fragen, die zur kritischen Reflexion anregen und verschiedene Perspektiven erfordern.

Unterschleif#

Unterschleif erkunden, diskutieren, TBD.

Gut: weniger Unterschleif, weil im ggs. zu konventionellen Prüfungen Spickzettel und LLM-Nutzung als Unterschleif-Techniken wegfallen.

Klar ist aber auch: Täuschung kann nicht zuverlässig verhindert werden. TBD: Aufwand und Nutzen bewerten ähnlich Sicherheitsstufen bei Einbruch-Sicherungen der Haustüre: Sicher gegen Schraubenzieher; 3 Minuten sicher gegen Brechstange; unsicher gegen Baggerschaufel.

Beispiel für neu hinzukommende Unterschleif-Möglichkeit bei Open Internet:

  • Die Klausurfragen werden (z.B. per Chat, email, Screen-Sharing, remote Zugriff etc.) an einen externen menschlichen Experten übermittelt, der zeitsynchron die eigentliche Klausur anfertigt und wieder zurücksendet.

    • Das ist eine Gefahr, wenn die Klausur so allgemein gestellt ist, dass sie auch ohne Teilnahme an der Veranstaltung bestanden werden kann.

    • In unserem Fach “Ethik der KI” wird eine Klausurteilnahme ohne regelmäßige Anwesenheit kaum zu einem befriedigenden Ergebnis führen, den externen Experten gibt es nicht.

  • unzulässige technische Koopertation zwischen Klausurteilnehmern, insbesondere zusenden von Ergebnissen

    • technisch bei der Korrektur leicht nachzuweisen