Incident PlaybooksΒΆ
Doel
Vier gedetailleerde stappenplannen voor de meest voorkomende AI-incidenten: prestatieverloop, bias, beveiligingsincidenten en datakwaliteit.
Wanneer gebruik je dit?
Er is een AI-incident gedetecteerd (prestatieverloop, bias, beveiligingslek of datakwaliteitsprobleem) en je hebt direct een stap-voor-stap draaiboek nodig.
Vier gedetailleerde stappenplannen voor de meest voorkomende AI-incidenten. Gebruik deze naast de Incident Respons overzichtspagina voor de ernst-matrix en rollen.
Playbook 1 β PrestatieverloopΒΆ
Wanneer activeren: kwaliteitsscores dalen structureel, gebruikersklachten nemen toe, monitoring-alerts op outputkwaliteit.
Stap 1 β Detectie & Validatie (0β30 min)ΒΆ
- Controleer monitoring-dashboard op trend (niet eenmalige piek)
- Vergelijk huidige scores met baseline (Golden Set of productie-sample)
- Classificeer ernst: π‘ Geel (score β₯ 80% baseline) / π Oranje (60β80%) / π΄ Rood (\< 60%)
- Noteer tijdstip eerste afwijking
Stap 2 β Containment (indamming) (30β60 min)ΒΆ
- Notificeer Tech Lead + AI PM
- Notificeer Guardian bij π Oranje of hoger
- Overweeg rollback naar vorige modelversie indien beschikbaar
- Verhoog monitoringfrequentie tijdelijk
Stap 3 β Onderzoek (1β24 uur)ΒΆ
- Bepaal type drift: data-drift (input veranderd) of concept-drift (wereld veranderd)
- Identificeer wanneer drift begon (git log, model registry, data pipeline logs)
- Kwantificeer impact: hoeveel outputs zijn mogelijk incorrect?
- Inventariseer compliance-implicaties (Hoog Risico systemen: meldingsplicht nagaan)
Stap 4 β Herstel (24β72 uur)ΒΆ
- Kies herstelstrategie: hertraining / promptaanpassing / kennisbank-update
- Test herstelstrategie op Golden Set (minimale drempel: baseline + 5%)
- Laat Guardian valideren bij systemen met menselijke impact
- Deploy fix met verhoogde monitoring (eerste 48 uur)
Stap 5 β Post-IncidentΒΆ
- Root cause gedocumenteerd
- Monitoringdrempels bijgesteld
- Baseline geΓΌpdatet indien concept-drift structureel is
- Lessons Learned ingevuld
Playbook 2 β BeveiligingsincidentΒΆ
Wanneer activeren: ongeautoriseerde toegang, datalekkage, abnormaal gebruik, verdachte API-patronen.
Stap 1 β Detectie & Eerste Actie (0β15 min)ΒΆ
- Classificeer type: toegangsschending / datalekkage / misbruik van systeem
- Activeer Circuit Breaker indien actieve dreiging
- Notificeer onmiddellijk: Security/CISO, Guardian, Legal
- Preserveer bewijs: exporteer logs, maak screenshots, noteer tijdlijn
Vernietig geen logs
Logs zijn bewijsmateriaal. Verwijder of overschrijf niets totdat Legal akkoord geeft.
Stap 2 β Containment (indamming) (15 minβ1 uur)ΒΆ
- Revoceer gecompromitteerde credentials/tokens
- Blokkeer verdachte IP-adressen of accounts
- Isoleer getroffen systemen van productieomgeving indien mogelijk
- Stel vast of aanvaller nog actief is
Stap 3 β Impact-assessment (1β24 uur)ΒΆ
- Welke data is accessed of geΓ«xfiltreerd?
- Hoeveel gebruikers/betrokkenen zijn geraakt?
- Zijn er persoonsgegevens betrokken? β GDPR-meldingsplicht binnen 72 uur
- Zijn er EU AI Act-implicaties (Hoog Risico systeem)? β Markttoezichthouder
Stap 4 β Herstel (24β168 uur)ΒΆ
- Patch kwetsbaarheid of pas toegangscontroles aan
- Roep penetratietest in voor getroffen component
- Herstel dienstverlening gradueel met verhoogde monitoring
- Notificeer betrokkenen indien wettelijk vereist (GDPR Art. 34)
Stap 5 β Post-IncidentΒΆ
- Forensische analyse afgerond
- Security-maatregelen bijgewerkt
- Team getraind op nieuwe procedure
- Responsible Disclosure overwogen indien externe onderzoeker
Playbook 3 β Bias-detectieΒΆ
Wanneer activeren: klachten over ongelijke behandeling, fairness-metrics buiten bandbreedte, audit-bevinding, mediarapportage.
Stap 1 β Validatie (0β4 uur)ΒΆ
- Analyseer gemelde outputs op het betrokken kenmerk (geslacht, leeftijd, etniciteit, etc.)
- Vergelijk outputkwaliteit/beslissingen over relevante groepen
- Kwantificeer dispariteit (bijv. verschil in acceptatiegraad, kwaliteitsscore per groep)
- Classificeer ernst en notificeer Guardian (verplicht bij bias-incidenten)
Stap 2 β Impact-assessment (4β24 uur)ΒΆ
- Hoelang bestaat de bias vermoedelijk al?
- Hoeveel beslissingen/outputs zijn potentieel beΓ―nvloed?
- Welke groepen zijn benadeeld?
- Zijn er juridische consequenties (discriminatiewetgeving, EU AI Act)?
Stap 3 β Root Cause (24β48 uur)ΒΆ
Bepaal de bron:
| Bron | Indicatie | Aanpak |
|---|---|---|
| Data-bias | Trainingsdata oververtegenwoordigt een groep | Herbalanceren dataset + hertraining |
| Model-bias | Model versterkt bias onafhankelijk van data | Fine-tuning of modelwissel |
| Prompt-bias | Instructies leiden tot ongelijke behandeling | Promptherziening + testen |
| Ingebruikname-bias | Systeem anders ingezet dan gevalideerd | Scope aanpassen |
Stap 4 β Mitigatie & Herstel (48β168 uur)ΒΆ
- Implementeer mitigatiestrategie op basis van root cause
- Valideer met fairness-metrics (gelijkheid van kansen, demografische pariteit)
- Hervalidatie vereist Guardian-goedkeuring vΓ³Γ³r herstart
- Overweeg herziening van eerdere betrokken beslissingen
Stap 5 β Post-IncidentΒΆ
- Model Card bijgewerkt met bias-bevindingen
- Fairness-monitoring uitgebreid
- Fairness Audit protocol herzien
- Communicatie naar betrokkenen indien van toepassing
Playbook 4 β SysteemuitvalΒΆ
Wanneer activeren: systeem onbereikbaar, time-outs op schaal, hoge foutpercentages, productiepijplijn geblokkeerd.
Stap 1 β Detectie & Eerste Actie (0β15 min)ΒΆ
- Bepaal scope: partieel (component down) of volledig (systeem onbeschikbaar)
- Activeer fallback-modus indien geconfigureerd (menselijke overdracht of tijdelijk offline)
- Notificeer Tech Lead (incident commander) + AI PM (communicatie)
- Communiceer naar gebruikers: status-update binnen 15 minuten
Stap 2 β Diagnose (15 minβ2 uur)ΒΆ
Doorloop in volgorde:
- Infrastructuur β cloud provider status, servers, netwerk
- Afhankelijkheden β externe API's (LLM provider, databases)
- Applicatie β logs, memory/CPU, foutcodes
- Recent gewijzigd β laatste livegang, config-wijziging, data-update
Stap 3 β Herstel (2β8 uur)ΒΆ
- Ontwikkel fix op basis van diagnose
- Test in staging-omgeving vΓ³Γ³r productie
- Documenteer rollback-plan vΓ³Γ³r livegang
- Deploy fix met graduele uitrol (canary of blue-green indien mogelijk)
Stap 4 β Validatie & HerstartΒΆ
- Verificeer alle functies operationeel
- Verwijder fallback-modus
- Monitor nauwlettend eerste 2 uur na herstart
- Update statuspage / communiceer oplossing
Stap 5 β Post-IncidentΒΆ
- Tijdlijn gedocumenteerd (detectie β herstel)
- Root cause vastgesteld
- Monitoring verbeterd om sneller te detecteren
- Runbook bijgewerkt
CommunicatietemplatesΒΆ
Eerste Alert (intern)ΒΆ
INCIDENT ALERT β [Niveau: Rood/Oranje/Geel]
Systeem: [naam]
Type: [Drift / Security / Bias / Uitval]
Tijdstip detectie: [datum + tijd]
InitiΓ«le impact: [beschrijving]
Incident commander: [naam]
Volgende update: [tijdstip]
Gebruikerscommunicatie (bij uitval)ΒΆ
We zijn op de hoogte van een verstoring in [systeem].
Ons team onderzoekt de oorzaak. Verwachte hersteltijd: [tijdstip].
Tijdelijke oplossing: [beschrijving fallback indien van toepassing].
Updates volgen elk uur via [kanaal].
Gerelateerde ModulesΒΆ
- Incident Respons Overzicht
- Drift Detectie
- AI Safety Checklist
- Risicobeheer
- Agentic AI Engineering β Faalpatronen
- Valkuilencatalogus