1. Test Frameworks¶

Doel

Testaanpak voor AI-systemen die deterministische tests combineert met evaluatie van probabilistisch gedrag.

1. Doel¶

Deze module definieert hoe wij AI-systemen testen. Anders dan traditionele software vereist AI een combinatie van deterministische tests én evaluatie van probabilistisch gedrag.

2. Testniveaus¶

Componenttests (Unit Tests)¶

Testen van individuele onderdelen in isolatie.

Wat testen we:

Data-transformatiefuncties (input → verwachte output)
Prompt-parsing en -formatting
API-integratiecode (met mocks)
Foutafhandeling (edge cases)

Kenmerken:

Snel uitvoerbaar (seconden)
Deterministisch (zelfde input = zelfde resultaat)
Automatisch bij elke code-wijziging

Integratietests¶

Testen van de samenwerking tussen componenten.

Wat testen we:

End-to-end flow van input naar output
Integratie met externe systemen (databases, API's)
Datavalidatie in de volledige pipeline

Kenmerken:

Trager dan unit tests (minuten)
Kan externe afhankelijkheden vereisen
Periodiek of bij belangrijke wijzigingen

AI-gedragstests (Golden Set)¶

Testen van het AI-gedrag op representatieve scenario's.

Wat testen we:

Feitelijkheid en relevantie van antwoorden
Naleving van Harde Grenzen
Consistentie over meerdere runs
Prestaties per gebruikersgroep (eerlijkheid)

Kenmerken:

Vereist menselijke beoordeling of geautomatiseerde evaluatie
Variatie mogelijk door probabilistisch karakter
Verplicht voor elke Gate Review

3. De Golden Set¶

De Golden Set is de centrale testset voor AI-gedrag. Zie Bewijsstandaarden voor minimale eisen per risiconiveau.

Samenstelling¶

Categorie	Beschrijving	Minimaal %
Standaardcases	Typische, realistische scenario's	70-80%
Complexe cases	Randgevallen, meerstaps-vragen	15-20%
Adversarial cases	Jailbreaks, prompt-injectie, policy-omzeiling	5-10%
Fairness cases	Scenario's per relevante gebruikersgroep	Naar behoefte

Format per Testcase¶

Veld	Beschrijving
ID	Unieke identificatie (bijv. GS-001)
Categorie	Standaard / Complex / Adversarial / Fairness
Input	De exacte prompt of vraag
Verwachte uitkomst	Correcte antwoord óf beoordelingscriteria
Beoordelingsmethode	Exact match / Keywords / Menselijke beoordeling
Kritiek?	Ja/Nee (Kritieke fout als incorrect?)

Onderhoud¶

Golden Set wordt periodiek herzien (minimaal per release)
Nieuwe scenario's worden toegevoegd bij incidenten of nieuwe functionaliteit
Verouderde cases worden verwijderd of geupdate

4. Adversarial Testing¶

Specifieke tests om de veiligheid en robuustheid te valideren.

Verplichte Adversarial Scenario's¶

Scenario	Beschrijving	Verwacht gedrag
Jailbreak	Poging om instructies te negeren	Weigering
Prompt-injectie	Verborgen instructies in user input	Instructie negeren
Policy-omzeiling	Slim omzeilen van Harde Grenzen	Weigering
Bronvervalsing	"Verzin een bron" of "doe alsof"	Weigering
PII-extractie	Poging om trainingsdata te achterhalen	Weigering
Tool abuse / privilege escalation	Poging om via tools hogere rechten te verkrijgen of ongeautoriseerde acties uit te voeren	Weigering + logging
Data-exfiltratie via tool-output	Poging om gevoelige data te extraheren via tool-responses of -artefacten	Blokkering + alert
Retrieval poisoning	Injectie van malafide bronnen in kennisbank om output te manipuleren	Detectie (monitoring) + blokkering/weigering + logging
Action injection	Manipulatie van tool-schema's om onbedoelde acties te triggeren	Schema-validatie + weigering

Bronnen: [so-1], [so-10]

Uitvoering¶

Minimaal Risico: Kwalitatieve steekproef door Guardian
Beperkt Risico: Gestructureerde adversarial set (minimaal 5% van Golden Set)
Hoog Risico: Uitgebreide adversarial testing + externe red team indien relevant

5. Regressietesting¶

Het automatisch herhalen van tests bij wijzigingen om achteruitgang te detecteren.

Wat triggert regressietests?¶

Wijziging	Regressietest niveau
Codewijziging	Componenttests + Integratietests
Prompt-wijziging	Integratietests + Golden Set sample
Modelversie-update	Volledige Golden Set
Databron-wijziging	Volledige Golden Set + Fairness

Automatisering¶

Niveau	Aanpak	Tooling voorbeelden
L0	Handmatige uitvoering bij release	Spreadsheet tracking
L1	Geplande periodieke tests	Cron jobs, CI scheduled
L2	Automatisch bij elke commit	GitHub Actions, GitLab CI
L3	Continuous testing met quality gates	MLflow, custom pipelines

6. Evaluatiemetrics¶

Metric	Toepassing	Berekening
Feitelijkheid	Factual correctness	% correct / totaal
Relevantie	Antwoord past bij vraag	Gemiddelde score (1-5 schaal)
Consistentie	Stabiliteit over runs	Standaarddeviatie over N runs
Weigeringsgraad	Adversarial scenario's	% correct geweigerd
Fairness	Verschil tussen groepen	Max verschil in foutpercentage

7. Checklist Test Framework¶

7. Checklist Test Framework

Componenttests dekken kritieke functies
Integratietests valideren end-to-end flow
Golden Set is samengesteld conform Bewijsstandaarden
Adversarial scenarios zijn gedefinieerd en getest
Regressietest-strategie is vastgelegd
Evaluatiemetrics zijn gedefinieerd
Testresultaten worden vastgelegd in Validatierapport

8. Gerelateerde Modules¶

Was deze pagina nuttig? Geef feedback