Ga naar inhoud

Incident PlaybooksΒΆ

Doel

Vier gedetailleerde stappenplannen voor de meest voorkomende AI-incidenten: prestatieverloop, bias, beveiligingsincidenten en datakwaliteit.

Wanneer gebruik je dit?

Er is een AI-incident gedetecteerd (prestatieverloop, bias, beveiligingslek of datakwaliteitsprobleem) en je hebt direct een stap-voor-stap draaiboek nodig.

Vier gedetailleerde stappenplannen voor de meest voorkomende AI-incidenten. Gebruik deze naast de Incident Respons overzichtspagina voor de ernst-matrix en rollen.


Playbook 1 β€” PrestatieverloopΒΆ

Wanneer activeren: kwaliteitsscores dalen structureel, gebruikersklachten nemen toe, monitoring-alerts op outputkwaliteit.

Stap 1 β€” Detectie & Validatie (0–30 min)ΒΆ

  • Controleer monitoring-dashboard op trend (niet eenmalige piek)
  • Vergelijk huidige scores met baseline (Golden Set of productie-sample)
  • Classificeer ernst: 🟑 Geel (score β‰₯ 80% baseline) / 🟠 Oranje (60–80%) / πŸ”΄ Rood (\< 60%)
  • Noteer tijdstip eerste afwijking

Stap 2 β€” Containment (indamming) (30–60 min)ΒΆ

  • Notificeer Tech Lead + AI PM
  • Notificeer Guardian bij 🟠 Oranje of hoger
  • Overweeg rollback naar vorige modelversie indien beschikbaar
  • Verhoog monitoringfrequentie tijdelijk

Stap 3 β€” Onderzoek (1–24 uur)ΒΆ

  • Bepaal type drift: data-drift (input veranderd) of concept-drift (wereld veranderd)
  • Identificeer wanneer drift begon (git log, model registry, data pipeline logs)
  • Kwantificeer impact: hoeveel outputs zijn mogelijk incorrect?
  • Inventariseer compliance-implicaties (Hoog Risico systemen: meldingsplicht nagaan)

Stap 4 β€” Herstel (24–72 uur)ΒΆ

  • Kies herstelstrategie: hertraining / promptaanpassing / kennisbank-update
  • Test herstelstrategie op Golden Set (minimale drempel: baseline + 5%)
  • Laat Guardian valideren bij systemen met menselijke impact
  • Deploy fix met verhoogde monitoring (eerste 48 uur)

Stap 5 β€” Post-IncidentΒΆ

  • Root cause gedocumenteerd
  • Monitoringdrempels bijgesteld
  • Baseline geΓΌpdatet indien concept-drift structureel is
  • Lessons Learned ingevuld

Playbook 2 β€” BeveiligingsincidentΒΆ

Wanneer activeren: ongeautoriseerde toegang, datalekkage, abnormaal gebruik, verdachte API-patronen.

Stap 1 β€” Detectie & Eerste Actie (0–15 min)ΒΆ

  • Classificeer type: toegangsschending / datalekkage / misbruik van systeem
  • Activeer Circuit Breaker indien actieve dreiging
  • Notificeer onmiddellijk: Security/CISO, Guardian, Legal
  • Preserveer bewijs: exporteer logs, maak screenshots, noteer tijdlijn

Vernietig geen logs

Logs zijn bewijsmateriaal. Verwijder of overschrijf niets totdat Legal akkoord geeft.

Stap 2 β€” Containment (indamming) (15 min–1 uur)ΒΆ

  • Revoceer gecompromitteerde credentials/tokens
  • Blokkeer verdachte IP-adressen of accounts
  • Isoleer getroffen systemen van productieomgeving indien mogelijk
  • Stel vast of aanvaller nog actief is

Stap 3 β€” Impact-assessment (1–24 uur)ΒΆ

  • Welke data is accessed of geΓ«xfiltreerd?
  • Hoeveel gebruikers/betrokkenen zijn geraakt?
  • Zijn er persoonsgegevens betrokken? β†’ GDPR-meldingsplicht binnen 72 uur
  • Zijn er EU AI Act-implicaties (Hoog Risico systeem)? β†’ Markttoezichthouder

Stap 4 β€” Herstel (24–168 uur)ΒΆ

  • Patch kwetsbaarheid of pas toegangscontroles aan
  • Roep penetratietest in voor getroffen component
  • Herstel dienstverlening gradueel met verhoogde monitoring
  • Notificeer betrokkenen indien wettelijk vereist (GDPR Art. 34)

Stap 5 β€” Post-IncidentΒΆ

  • Forensische analyse afgerond
  • Security-maatregelen bijgewerkt
  • Team getraind op nieuwe procedure
  • Responsible Disclosure overwogen indien externe onderzoeker

Playbook 3 β€” Bias-detectieΒΆ

Wanneer activeren: klachten over ongelijke behandeling, fairness-metrics buiten bandbreedte, audit-bevinding, mediarapportage.

Stap 1 β€” Validatie (0–4 uur)ΒΆ

  • Analyseer gemelde outputs op het betrokken kenmerk (geslacht, leeftijd, etniciteit, etc.)
  • Vergelijk outputkwaliteit/beslissingen over relevante groepen
  • Kwantificeer dispariteit (bijv. verschil in acceptatiegraad, kwaliteitsscore per groep)
  • Classificeer ernst en notificeer Guardian (verplicht bij bias-incidenten)

Stap 2 β€” Impact-assessment (4–24 uur)ΒΆ

  • Hoelang bestaat de bias vermoedelijk al?
  • Hoeveel beslissingen/outputs zijn potentieel beΓ―nvloed?
  • Welke groepen zijn benadeeld?
  • Zijn er juridische consequenties (discriminatiewetgeving, EU AI Act)?

Stap 3 β€” Root Cause (24–48 uur)ΒΆ

Bepaal de bron:

Bron Indicatie Aanpak
Data-bias Trainingsdata oververtegenwoordigt een groep Herbalanceren dataset + hertraining
Model-bias Model versterkt bias onafhankelijk van data Fine-tuning of modelwissel
Prompt-bias Instructies leiden tot ongelijke behandeling Promptherziening + testen
Ingebruikname-bias Systeem anders ingezet dan gevalideerd Scope aanpassen

Stap 4 β€” Mitigatie & Herstel (48–168 uur)ΒΆ

  • Implementeer mitigatiestrategie op basis van root cause
  • Valideer met fairness-metrics (gelijkheid van kansen, demografische pariteit)
  • Hervalidatie vereist Guardian-goedkeuring vΓ³Γ³r herstart
  • Overweeg herziening van eerdere betrokken beslissingen

Stap 5 β€” Post-IncidentΒΆ

  • Model Card bijgewerkt met bias-bevindingen
  • Fairness-monitoring uitgebreid
  • Fairness Audit protocol herzien
  • Communicatie naar betrokkenen indien van toepassing

Playbook 4 β€” SysteemuitvalΒΆ

Wanneer activeren: systeem onbereikbaar, time-outs op schaal, hoge foutpercentages, productiepijplijn geblokkeerd.

Stap 1 β€” Detectie & Eerste Actie (0–15 min)ΒΆ

  • Bepaal scope: partieel (component down) of volledig (systeem onbeschikbaar)
  • Activeer fallback-modus indien geconfigureerd (menselijke overdracht of tijdelijk offline)
  • Notificeer Tech Lead (incident commander) + AI PM (communicatie)
  • Communiceer naar gebruikers: status-update binnen 15 minuten

Stap 2 β€” Diagnose (15 min–2 uur)ΒΆ

Doorloop in volgorde:

  1. Infrastructuur β€” cloud provider status, servers, netwerk
  2. Afhankelijkheden β€” externe API's (LLM provider, databases)
  3. Applicatie β€” logs, memory/CPU, foutcodes
  4. Recent gewijzigd β€” laatste livegang, config-wijziging, data-update

Stap 3 β€” Herstel (2–8 uur)ΒΆ

  • Ontwikkel fix op basis van diagnose
  • Test in staging-omgeving vΓ³Γ³r productie
  • Documenteer rollback-plan vΓ³Γ³r livegang
  • Deploy fix met graduele uitrol (canary of blue-green indien mogelijk)

Stap 4 β€” Validatie & HerstartΒΆ

  • Verificeer alle functies operationeel
  • Verwijder fallback-modus
  • Monitor nauwlettend eerste 2 uur na herstart
  • Update statuspage / communiceer oplossing

Stap 5 β€” Post-IncidentΒΆ

  • Tijdlijn gedocumenteerd (detectie β†’ herstel)
  • Root cause vastgesteld
  • Monitoring verbeterd om sneller te detecteren
  • Runbook bijgewerkt

CommunicatietemplatesΒΆ

Eerste Alert (intern)ΒΆ

INCIDENT ALERT β€” [Niveau: Rood/Oranje/Geel]
Systeem: [naam]
Type: [Drift / Security / Bias / Uitval]
Tijdstip detectie: [datum + tijd]
InitiΓ«le impact: [beschrijving]
Incident commander: [naam]
Volgende update: [tijdstip]

Gebruikerscommunicatie (bij uitval)ΒΆ

We zijn op de hoogte van een verstoring in [systeem].
Ons team onderzoekt de oorzaak. Verwachte hersteltijd: [tijdstip].
Tijdelijke oplossing: [beschrijving fallback indien van toepassing].
Updates volgen elk uur via [kanaal].

Gerelateerde ModulesΒΆ