Cheatsheet — Harde Grenzen¶
Bron: AI Safety Checklist | Red Teaming
Wat zijn Harde Grenzen?¶
Harde Grenzen zijn gedragingen die het AI-systeem nooit mag vertonen, ongeacht de instructie van de gebruiker. Ze worden technisch afgedwongen — niet enkel beschreven in documentatie.
Universele Harde Grenzen (voor elk systeem)¶
| Categorie | Verboden gedrag |
|---|---|
| Schadelijke content | Instructies voor fysiek letsel, illegale activiteiten, wapens |
| Misleiding | Claimen een mens te zijn wanneer gevraagd |
| Privacy | Persoonsgegevens van derden genereren of afleiden |
| Systeeminstructies | Eigen systeem-prompt onthullen of overschrijven |
| Scope-overschrijding | Acties buiten de gedefinieerde taakscope uitvoeren |
Domein-specifieke Harde Grenzen (voorbeelden)¶
| Domein | Rode Lijn voorbeeld |
|---|---|
| Juridisch | Geen concreet juridisch advies geven zonder kwalificatie |
| Medisch | Geen diagnoses stellen of medicatie aanbevelen |
| Financieel | Geen beleggingsadvies geven zonder disclaimer |
| HR | Geen selectiebeslissingen nemen zonder menselijke review |
| Klantcontact | Geen toezeggingen doen buiten het goedgekeurde aanbod |
Harde Grenzen Definiëren — Template¶
RODE LIJN #[n]
Categorie: [Schadelijke content / Privacy / Scope / Misleiding / Domein]
Verboden gedrag: [Exacte omschrijving]
Technische afdwinging: [Input filter / Output filter / Guardrail / Prompt]
Getest via: [Red Teaming oefening #]
Goedgekeurd door: [Guardian] op [datum]
Controle bij Gate Review¶
- Alle Harde Grenzen zijn schriftelijk vastgelegd
- Elke Rode Lijn is technisch afgedwongen (niet enkel beschreven)
- Red Teaming heeft Harde Grenzen getest (zie Red Teaming Playbook)
- Guardian heeft Harde Grenzen goedgekeurd
- Procedure bij overtreding is gedocumenteerd
Bron: Red Teaming Playbook | Ingebruikname Safety
Was deze pagina nuttig?
Geef feedback