AI Safety ChecklistΒΆ
Doel
Gestructureerde veiligheidschecklist over vier dimensies (training, ingebruikname, monitoring, governance) voor gebruik bij elke Gate Review.
Gestructureerde veiligheidschecks over vier dimensies: training, ingebruikname, monitoring en governance. Gebruik deze checklist bij elke Gate Review voor Hoog Risico en Beperkt Risico systemen.
Risico-proportioneel gebruik
Minimaal Risico systemen: voer sectie 4 (Governance) uit. Beperkt Risico: sectie 2 + 4. Hoog Risico: alle vier secties verplicht.
Sectie 1 β Trainings- & DataveiligheidΒΆ
Relevant bij zelf-getrainde modellen of fine-tuning. Sla over bij pure API-gebruik van foundation models.
| Check | Status | Notitie |
|---|---|---|
| Trainingsdata geΓ«valueerd op schadelijke content | β | |
| Bias gedetecteerd en gedocumenteerd in trainingsdata | β | |
| Persoonsgegevens in trainingsdata geminimaliseerd of gepseudonimiseerd | β | |
| Datasources gedocumenteerd (herkomst, licentie, datums) | β | |
| Adversarial voorbeelden opgenomen in trainingsset | β | |
| Modelgewichten veilig opgeslagen (toegangscontrole, versiebeheer) | β |
Sectie 2 β Ingebruikname SafetyΒΆ
| Check | Status | Notitie |
|---|---|---|
| Input-filtering geconfigureerd (blokkeer verboden inputs) | β | |
| Output-filtering geconfigureerd (blokkeer verboden outputs) | β | |
| Harde Grenzen gedocumenteerd en technisch afgedwongen | β | |
| Rate limiting ingesteld (misbruikpreventie) | β | |
| Circuit Breaker geconfigureerd (zie Incident Respons) | β | |
| Least-privilege toegang: systeem heeft minimale benodigde rechten | β | |
| Systeemprompt beschermd tegen extractie | β | |
| Gebruikers zijn geΓ―nformeerd dat ze met AI interageren (transparantieplicht) | β | |
| Human-in-the-loop mechanisme operationeel voor beslissingen met impact | β | |
| Exit-procedure voor gebruikers gedocumenteerd (escalatie naar mens) | β |
Sectie 3 β Monitoring SafetyΒΆ
| Check | Status | Notitie |
|---|---|---|
| Logging van inputs en outputs actief (met retentiebeleid) | β | |
| Kwaliteitsmonitoring actief (drempelwaarden ingesteld) | β | |
| Drift-detectie geconfigureerd (zie Drift Detectie) | β | |
| Fairness-metrics gemonitord (indien meerdere gebruikersgroepen) | β | |
| Anomalie-detectie op gebruik (ongebruikelijke patronen, misbruik) | β | |
| Alerting naar verantwoordelijke bij drempeloverschrijding | β | |
| Procedure voor schadelijke output-meldingen door gebruikers | β | |
| Periodieke steekproef-review van outputs ingepland | β |
Sectie 4 β Governance SafetyΒΆ
| Check | Status | Notitie |
|---|---|---|
| Guardian aangesteld en actief betrokken | β | |
| Safety review uitgevoerd bij elke Gate | β | |
| Red Teaming uitgevoerd (Hoog/Beperkt Risico) | β | |
| Incidentrespons-procedure gedocumenteerd en getest | β | |
| Verantwoordelijke voor het systeem benoemd (accountable owner) | β | |
| Model Card up-to-date met bekende limieten en risico's | β | |
| Periodieke hercertificatie ingepland (min. jaarlijks voor Hoog Risico) | β | |
| EU AI Act compliance-status gedocumenteerd | β |
Constitutional AI β Richtlijnen voor Autonome SystemenΒΆ
Bij Samenwerkingsmodus 4 en 5 (systeem handelt autonoom) gelden aanvullende Constitutional AI-principes:
De drie kernprincipesΒΆ
1. Harmlessness β Geen schade Het systeem vermijdt acties die schade kunnen toebrengen aan gebruikers, derden of de organisatie. Definieer expliciet welke acties verboden zijn, ongeacht instructie.
2. Honesty β Geen misleiding Het systeem communiceert transparant over zijn capaciteiten, onzekerheden en beperkingen. Het verzint geen feiten, geeft aan wanneer het iets niet weet.
3. Helpfulness β Relevante assistentie Het systeem probeert oprecht behulpzaam te zijn binnen de gedefinieerde scope. Weigering is altijd verantwoord met een alternatief.
Implementatie-checklist voor autonome systemenΒΆ
| Vereiste | Status |
|---|---|
| Actieradius technisch begrensd (welke systemen/acties zijn toegankelijk) | β |
| Verboden acties expliciet gedocumenteerd (niet alleen impliciet verwacht) | β |
| Maximale impact per actie begrensd (bijv. maximale transactiewaarde) | β |
| Self-critique mechanisme: systeem toetst eigen output vΓ³Γ³r uitvoering | β |
| Menselijke goedkeuring vereist boven gedefinieerde impactdrempel | β |
| Audit trail van alle autonome acties (onveranderbaar) | β |
| Explainability: systeem kan zijn beslissing toelichten op verzoek | β |
Safety ScoreΒΆ
Tel het aantal afgevinkte items per sectie en bereken de veiligheidsscore:
| Sectie | Afgevinkt | Totaal | % |
|---|---|---|---|
| 1 β Trainings- & Dataveiligheid | 6 | ||
| 2 β Ingebruikname Safety | 10 | ||
| 3 β Monitoring Safety | 8 | ||
| 4 β Governance Safety | 8 | ||
| Totaal | 32 |
Minimale drempel voor livegang:
- Hoog Risico: β₯ 90% (β₯ 29/32)
- Beperkt Risico: β₯ 75% (β₯ 24/32, sectie 1 optioneel)
- Minimaal Risico: sectie 4 volledig
Gerelateerde ModulesΒΆ
- Red Teaming Playbook
- Incident Respons
- EU AI Act
- Ethische Richtlijnen
- AI-Samenwerkingsmodi
- Agentic AI Engineering
- Valkuilencatalogus