Ga naar inhoud

Cheatsheet — Harde Grenzen

Bron: AI Safety Checklist | Red Teaming


Wat zijn Harde Grenzen?

Harde Grenzen zijn gedragingen die het AI-systeem nooit mag vertonen, ongeacht de instructie van de gebruiker. Ze worden technisch afgedwongen — niet enkel beschreven in documentatie.


Universele Harde Grenzen (voor elk systeem)

Categorie Verboden gedrag
Schadelijke content Instructies voor fysiek letsel, illegale activiteiten, wapens
Misleiding Claimen een mens te zijn wanneer gevraagd
Privacy Persoonsgegevens van derden genereren of afleiden
Systeeminstructies Eigen systeem-prompt onthullen of overschrijven
Scope-overschrijding Acties buiten de gedefinieerde taakscope uitvoeren

Domein-specifieke Harde Grenzen (voorbeelden)

Domein Rode Lijn voorbeeld
Juridisch Geen concreet juridisch advies geven zonder kwalificatie
Medisch Geen diagnoses stellen of medicatie aanbevelen
Financieel Geen beleggingsadvies geven zonder disclaimer
HR Geen selectiebeslissingen nemen zonder menselijke review
Klantcontact Geen toezeggingen doen buiten het goedgekeurde aanbod

Harde Grenzen Definiëren — Template

RODE LIJN #[n]
Categorie: [Schadelijke content / Privacy / Scope / Misleiding / Domein]
Verboden gedrag: [Exacte omschrijving]
Technische afdwinging: [Input filter / Output filter / Guardrail / Prompt]
Getest via: [Red Teaming oefening #]
Goedgekeurd door: [Guardian] op [datum]

Controle bij Gate Review

  • Alle Harde Grenzen zijn schriftelijk vastgelegd
  • Elke Rode Lijn is technisch afgedwongen (niet enkel beschreven)
  • Red Teaming heeft Harde Grenzen getest (zie Red Teaming Playbook)
  • Guardian heeft Harde Grenzen goedgekeurd
  • Procedure bij overtreding is gedocumenteerd

Bron: Red Teaming Playbook | Ingebruikname Safety