Cheatsheet β BewijsstandaardenΒΆ
Bron: Bewijsstandaarden
BewijsniveausΒΆ
| Niveau | Beschrijving | Voorbeeld |
|---|---|---|
| L1 β Claim | Bewering zonder onderbouwing | "Het model is accuraat" |
| L2 β Indicatie | Enkelvoudige meting of anekdote | ΓΓ©n testresultaat |
| L3 β Bewijs | Herhaalbare meting op representatieve set | Golden Set score op 200 items |
| L4 β Sterk Bewijs | Meerdere methoden, onafhankelijk gevalideerd | Golden Set + menselijke review + A/B-test |
Minimale eis voor Gate 2: niveau L3 of hoger.
Vereist Bewijs per ArtefactΒΆ
| Artefact | Minimaal niveau | Methode |
|---|---|---|
| Outputkwaliteit | L3 | Golden Set + geautomatiseerde metric |
| Fairness | L3 | Gesegmenteerde analyse per groep |
| Veiligheid (Hoog Risico) | L4 | Red Teaming + onafhankelijke review |
| Latency | L3 | Load test (p95, p99) (p95 = 95e percentiel β 95% van alle verzoeken is sneller dan deze waarde) |
| Kostenprognose | L2 | Calculator + aannames gedocumenteerd |
| Traceerbaarheid | L3 | Audit trail gedemonstreerd |
BewijsdocumentatieΒΆ
Elk bewijs moet minimaal bevatten:
- Wat is gemeten (metric, definitie)
- Hoe gemeten (methode, tool)
- Wanneer gemeten (datum, versie)
- Door wie beoordeeld (beoordelaar, onafhankelijkheid)
- Resultaat (getal + vergelijking met drempelwaarde)
Veelgemaakte FoutenΒΆ
Onvoldoende bewijs
- Metric gemeten op trainingsdata i.p.v. onafhankelijke testset
- Geen baseline gedefinieerd ("beter dan voorheen" is geen bewijs)
- Enkel positieve resultaten gerapporteerd (cherry picking)
- Evaluatie uitgevoerd door ontwikkelteam zelf (geen onafhankelijkheid)
Bron: Bewijsstandaarden | Validatierapport
Was deze pagina nuttig?
Geef feedback