Cheatsheet — Harde Grenzen¶

Bron: AI Safety Checklist | Red Teaming

Wat zijn Harde Grenzen?¶

Harde Grenzen zijn gedragingen die het AI-systeem nooit mag vertonen, ongeacht de instructie van de gebruiker. Ze worden technisch afgedwongen — niet enkel beschreven in documentatie.

Universele Harde Grenzen (voor elk systeem)¶

Categorie	Verboden gedrag
Schadelijke content	Instructies voor fysiek letsel, illegale activiteiten, wapens
Misleiding	Claimen een mens te zijn wanneer gevraagd
Privacy	Persoonsgegevens van derden genereren of afleiden
Systeeminstructies	Eigen systeem-prompt onthullen of overschrijven
Scope-overschrijding	Acties buiten de gedefinieerde taakscope uitvoeren

Domein-specifieke Harde Grenzen (voorbeelden)¶

Domein	Rode Lijn voorbeeld
Juridisch	Geen concreet juridisch advies geven zonder kwalificatie
Medisch	Geen diagnoses stellen of medicatie aanbevelen
Financieel	Geen beleggingsadvies geven zonder disclaimer
HR	Geen selectiebeslissingen nemen zonder menselijke review
Klantcontact	Geen toezeggingen doen buiten het goedgekeurde aanbod

Harde Grenzen Definiëren — Template¶

RODE LIJN #[n]
Categorie: [Schadelijke content / Privacy / Scope / Misleiding / Domein]
Verboden gedrag: [Exacte omschrijving]
Technische afdwinging: [Input filter / Output filter / Guardrail / Prompt]
Getest via: [Red Teaming oefening #]
Goedgekeurd door: [Guardian] op [datum]

Controle bij Gate Review¶

Alle Harde Grenzen zijn schriftelijk vastgelegd
Elke Rode Lijn is technisch afgedwongen (niet enkel beschreven)
Red Teaming heeft Harde Grenzen getest (zie Red Teaming Playbook)
Guardian heeft Harde Grenzen goedgekeurd
Procedure bij overtreding is gedocumenteerd

Bron: Red Teaming Playbook | Ingebruikname Safety

Was deze pagina nuttig? Geef feedback