ADR 0001: Inhaltliche Qualitätsprüfung der Detektoren¶

Status: Proposed
Datum: 2026-05-22
Autoren: Thorsten Dittmar

Kontext¶

klartext.jetzt nutzt KI-gestützte Detektoren, um Texte automatisch zu analysieren. Der erste Detektor ist der ClaimExtractor, der Claims (Behauptungen) aus Szenen eines Narrativs extrahiert und epistemisch klassifiziert.

Diese Detektoren können durch automatisierte Unit-Tests auf ihr technisches Funktionieren geprüft werden:

Gibt der Detektor das erwartete Format zurück?
Werden Fehler korrekt behandelt?
Schlägt der Detektor bei ungültigen Eingaben fehl?

Was automatisierte Tests nicht leisten können: die Prüfung der inhaltlichen Korrektheit. Zum Beispiel:

Extrahiert der ClaimExtractor tatsächlich alle Claims aus einem Text – auch implizite?
Klassifiziert er kausal vs. normativ korrekt bei ambigen Formulierungen?
Verhält er sich robust bei verschachtelten Konditionalsätzen oder rhetorischen Fragen?
Bleibt seine Qualität stabil wenn das zugrundeliegende KI-Modell wechselt?

Diese Fragen können nur von Domänenexperten beantwortet werden – Linguisten, Fachexperten für die jeweiligen Rechtsräume und erfahrene Nutzer der Plattform.

Entscheidung¶

Wir etablieren eine gesonderte Qualitätssicherungsinfrastruktur für Detektoren, die von der normalen technischen Testinfrastruktur (pytest, CI) getrennt ist.

1. Kuratierte Testkorpora¶

Für jeden Detektor gibt es ein Testkorpus aus konstruierten Texten:

Texte sind bewusst gewählt, um Grenzfälle und verzwickte Formulierungen abzudecken
Zu jedem Text gibt es erwartete Ergebnisse, die von Experten definiert und validiert wurden
Das Korpus wächst kontinuierlich – jeder neue Fehlerfall kann als Testfall aufgenommen werden

Format (noch zu spezifizieren, siehe Issue #30):

# Beispiel-Struktur (vorläufig)
testfall:
  id: claim-extractor-001
  text: "Wäre das Gesetz anders formuliert, hätte es den gewünschten Effekt nicht erzielt."
  erwartete_claims:
    - text: "Das Gesetz hat den gewünschten Effekt nicht erzielt."
      typ: kausaler_claim
      implizit: true
  validiert_von: [linguist-1, expert-2]
  validiert_am: 2026-06-01

2. Nutzerrolle: Detektor-Kurator¶

Eine neue Nutzerrolle Detektor-Kurator wird eingeführt. Kuratoren:

Dürfen Testfälle für Detektoren anlegen und bearbeiten
Bewerten Detektor-Ausgaben auf inhaltliche Korrektheit
Markieren Detektoren als „validiert" (mit Datum und Modellversion)
Werden benachrichtigt wenn sich ein Detektor durch ein Modell-Update verändert hat

3. Validierungszyklus¶

Detektoren werden neu validiert wenn:

Das zugrundeliegende KI-Modell wechselt (z.B. Claude Sonnet 4.5 → 4.6)
Der System-Prompt eines Detektors geändert wird
Neue Testfälle im Korpus hinzukommen
Ein Nutzer einen Fehler meldet, der als neuer Testfall aufgenommen wird

4. Trennung von technischer CI und inhaltlicher QA¶

	Technische Tests (pytest)	Inhaltliche QA (Kuratoren)
Ausführung	Automatisch bei jedem Commit	Manuell, bei Detektor-Änderungen
Prüft	Format, Fehlerbehandlung, Verhalten	Korrektheit, Robustheit, Qualität
Verantwortlich	Entwickler	Detektor-Kuratoren (Experten)
Ergebnis	Grün/Rot	Validierungsbericht mit Datum

Konsequenzen¶

Positiv: - Detektoren können inhaltlich validiert werden, unabhängig von technischer Korrektheit - Modell-Upgrades sind kontrolliert möglich – Qualitätsrückschritte werden erkannt - Community-Experten können zur Qualität beitragen, ohne Zugang zum Code zu benötigen

Negativ / offen: - Erhöhter Aufwand für Kuratoren – muss durch gute UX kompensiert werden - Das Format der Testfälle muss noch spezifiziert und implementiert werden - Die Rolle „Detektor-Kurator" muss ins Rollensystem integriert werden (siehe Issue #19) - Kuratoren müssen rekrutiert und ongeboardet werden