1. Bewijsstandaarden¶
Doel
Definitie van de minimale bewijsstandaarden zodat Gate Reviews op toetsbare criteria plaatsvinden in plaats van op gevoel.
Wanneer gebruik je dit?
Je bereidt een Gate Review voor en wilt weten welk bewijs je moet verzamelen voor het risiconiveau en de samenwerkingsmodus van jouw project.
1. Doel¶
Deze module definieert minimale bewijsstandaarden voor AI-oplossingen, zodat Gate Reviews niet op gevoel maar op toetsbare criteria plaatsvinden.
Het bewijs voor een AI‑systeem bestaat uit een samenhangende set documenten en loggegevens die gezamenlijk inzicht geven in: wat het systeem moest doen, hoe het gedrag werd gestuurd, hoe dit is getest en wat er in de praktijk is gebeurd. Deze samenhang maakt beoordeling, auditing en incidentanalyse mogelijk.
Kernprincipe: Een AI-oplossing mag pas door naar de volgende fase als het bewijs voldoet aan de normen voor het gekozen risiconiveau (zie Risicobeheersing & Compliance) en Samenwerkingsmodus (zie AI-Samenwerkingsmodi).
2. Scope (waar geldt dit voor?)¶
Deze standaarden gelden voor:
- Generatieve AI (tekst/beeld/advies)
- AI die classificatie/extractie doet
- AI die beslissingen ondersteunt (advies) of uitvoert (agent/actie)
Niet bedoeld voor:
- Zuivere BI-rapportage zonder AI-besluitvorming
- Simpele regels/automatisering zonder model
3. Definities (zodat termen toetsbaar zijn)¶
Foutclassificatie¶
- Kritiek: overtreding Harde Grenzen (privacy-lek, verboden advies, discriminatoire output, gevaarlijke instructies, misleidende transparantie). Norm: 0 toegestaan.
- Major: inhoudelijk fout met reële kans op schade of verkeerde beslissing. Norm: zeer beperkt (zie tabel).
- Minor: stijl/format/kleine onvolledigheid zonder besluit-impact.
"Significant drift"¶
Drift is significant als één van onderstaande optreedt t.o.v. de nulmeting:
- Feitelijkheid daalt ≥ 2 procentpunten (bijv. van 99% naar 97%)
- Relevantie-score daalt ≥ 0,3 op een 1–5 schaal
- Aantal Major fouten stijgt ≥ 50% over twee opeenvolgende meetperioden
(Let op: precieze drempels mogen per use-case strenger, maar niet soepeler zonder expliciet akkoord van Guardian.)
4. Vereiste bewijsstukken (evidence pack)¶
Elke Gate Review baseert zich minimaal op deze documenten:
- Golden Set Test & Acceptatie Protocol (de aanpak)
- Validatierapport (de resultaten + conclusie)
- Technische Modelkaart (wat draait er precies)
- Doelkaart (goal card) (wat moest het doen + Harde Grenzen)
- Risico Pre-Scan (risicoklasse)
5. Minimale eisen aan testsets ("Golden Set")¶
| Risiconiveau | Minimale grootte Golden Set | Verplichte onderdelen |
|---|---|---|
| Minimaal | 20 cases | 80% standaardcases + 20% randgevallen |
| Beperkt | 50 cases | 80% standaard + 15% complex + 5% adversarial |
| Hoog | 150 cases | 70% standaard + 20% complex + 10% adversarial + fairness set |
Extra regels (alle niveaus):
- Testcases zijn realistische praktijkvoorbeelden (geen synthetische "happy flow only").
- Elke testcase heeft: verwachte uitkomst of beoordelingscriteria.
- Adversarial set bevat expliciet: jailbreaks, prompt-injectie, policy-omzeiling, "verzin bron"-trucs.
- Synthetische Data Generatie: Om de workload van 150+ testcases te verlichten, mag gebruik worden gemaakt van een "red-teaming AI" om concept-testcases te genereren. Eis: Een menselijk expert moet elke gegenereerde testcase en het "verwachte antwoord" (Ground Truth) valideren en goedkeuren voor opname in de Golden Set.
6. Meetcriteria en minimale normen (per risiconiveau)¶
Als jouw gebruikscasus geen "accuracy" heeft (bijv. generatieve tekst), gebruik je "Feitelijkheid", "Compleetheid" en "Relevantie" als primaire maatstaven.
Normtabel¶
| Criterium | Minimaal risico | Beperkt risico | Hoog risico |
|---|---|---|---|
| Kritieke fouten | 0 | 0 | 0 |
| Major fouten (max) | ≤ 2 in testset | ≤ 1 in testset | ≤ 0–1 in testset (Guardian beslist) |
| Feitelijkheid (geen feitelijke onjuistheden) | ≥ 98% | ≥ 99% | ≥ 99,5% |
| Relevantie (1–5) | ≥ 4,0 | ≥ 4,2 | ≥ 4,5 |
| Veiligheid: "moet weigeren" prompts | 100% weigering | 100% weigering | 100% weigering |
| Transparantie (AI-disclaimer waar vereist) | n.v.t./100% indien extern | 100% indien van toepassing | 100% indien van toepassing |
| Fairness audit (bias audit) (bias) | kwalitatief (Guardian) | kwali + kwant waar mogelijk | verplicht kwant + mitigatieplan |
| Audit trail (logging compleetheid) | minimaal metadata | 100% metadata + sampling output | 100% input/output + herleidbare context |
| Stabiliteit (variatie over runs) | monitoren | beperkte variatie toegestaan | strikt: variatie moet verklaard/acceptabel zijn |
Eerlijkheid (bias) — minimale norm (kort en toetsbaar)¶
- Beperkt: als er relevante groepen te onderscheiden zijn, dan geldt: verschil in Major-foutpercentage tussen groepen ≤ 10%.
- Hoog: verschil in Major-foutpercentage tussen groepen ≤ 5%, plus beschreven mitigatie als er afwijkingen zijn.
(Als groepslabels ontbreken of privacygevoelig zijn: Guardian bepaalt een kwalitatieve toets + mitigatie.)
7. Logging-eisen (audit trail)¶
Wat loggen we minimaal?¶
- Datum/tijd, gebruiker/rol (gehashte ID waar nodig)
- Gebruikscasus / endpoint
- Modelnaam + versie
- Prompt-/Prompts versie
- Bronnen gebruikt (bij RAG: document-ID's/URLs)
- Output
- Human override (ja/nee + reden)
Retentie (basis)¶
- Minimaal/Beperkt: standaard 90 dagen, tenzij anders vereist.
- Hoog risico: standaard 12 maanden (of langer indien wettelijke plicht).
(Afstemmen met privacybeleid; pseudonimiseer waar mogelijk.)
8. Bewijs per Gate (praktisch)¶
- Gate 1 (Go/No-Go Ontdekking) (naar Bewijsvoering): 09.01 + 09.02 (draft) + 09.03 + Data-Evaluatie afgerond.
- Gate 2 — Investeringsbeslissing (naar Realisatie): 09.06 (pilotresultaten) + 09.04 (concept) + akkoord Guardian op Harde Grenzen.
- Gate 3 (Productie-klaar) (naar Livegang/Levering): 09.06 (release candidate) voldoet aan normen uit §6 + logging-plan + incidentprocedure.
- Gate 4 (Livegang) (naar Beheer): nulmeting vastgelegd + monitoring/feedback-loop ingericht.