Kostenoptimalisatie¶
Doel
Concrete technieken en een kostenraming-tool om AI-systeemkosten beheersbaar te houden in de Realisatie- en Beheerfase.
Wanneer gebruik je dit?
Je wilt de maandelijkse kosten van je AI-systeem inschatten of zoekt concrete technieken om API-, infra- en operationele kosten te verlagen.
Concrete technieken en een kostenraming-tool voor AI-systemen. Gebruik dit document in de Realisatie- en Beheer & Optimalisatie-fase om kosten beheersbaar te houden.
1. Kostenraming (Calculator)¶
Vul de onderstaande tabel in voor een snelle maandelijkse raming.
LLM API-kosten¶
| Parameter | Uw waarde | Voorbeeld |
|---|---|---|
| Verzoeken per dag | 500 | |
| Gemiddelde input-tokens per verzoek | 800 | |
| Gemiddelde output-tokens per verzoek | 300 | |
| Prijs per 1M input-tokens (€) | €2,50 | |
| Prijs per 1M output-tokens (€) | €10,00 |
Maandelijkse input-kosten = (verzoeken/dag × 30 × input-tokens) / 1.000.000 × prijs
Maandelijkse output-kosten = (verzoeken/dag × 30 × output-tokens) / 1.000.000 × prijs
Totaal API-kosten/maand = input-kosten + output-kosten
Voorbeeld: 500 verzoeken/dag → 500 × 30 × 800 / 1.000.000 × €2,50 = €30/maand input + 500 × 30 × 300 / 1.000.000 × €10 = €45/maand output = €75/maand totaal
Totale Maandelijkse Kostenraming¶
| Kostenpost | Maandelijks (€) |
|---|---|
| LLM API (inferentie) | |
| Compute (servers/GPU) | |
| Opslag (vectorstore, logs, artefacten) | |
| Monitoring & observability tools | |
| Development/onderhoud (intern) | |
| Totaal |
Scenario's:
| Scenario | Volume | Geschatte kosten |
|---|---|---|
| Best case (laag volume) | 20% van verwacht | |
| Verwacht | 100% | |
| Worst case (hoog volume) | 300% | |
| Schaalscenario (10× groei) | 1000% |
2. Optimalisatietechnieken¶
Techniek 1 — Promptoptimalisatie¶
Verwachte besparing: 20–40% op input-tokens
Onnodige tokens in systeemprompts en gebruikersinstructies verhogen kosten zonder kwaliteitswinst.
| Actie | Aanpak |
|---|---|
| Verwijder redundante instructies | Controleer overlap tussen systeemprompt en gebruikersinstructies |
| Gebruik kortere voorbeelden | Few-shot voorbeelden comprimeren zonder kwaliteitsverlies |
| Systeem-caching | Hergebruik identieke systeemprompts via provider-caching (Anthropic: prompt caching) |
| Verwijder overbodige context | Stuur alleen relevante documentsecties, niet het volledige document |
Techniek 2 — Response Caching¶
Verwachte besparing: 30–60% voor repetitieve queries
Identificeerbare, herhaalde vragen (FAQ, standaardrapporten) worden gecached in plaats van opnieuw naar de API gestuurd.
| Cachetype | Geschikt voor | TTL-aanbeveling |
|---|---|---|
| Exacte match | Identieke queries | 24–72 uur |
| Semantische match | Gelijksoortige vragen (cosine similarity > 0,95) | 6–24 uur |
| Template-output | Gegenereerde documenten op basis van vaste structuur | Tot 7 dagen |
Meet cache-efficiëntie: target cache-hitpercentage ≥ 40% voor systemen met repetitieve queries.
Techniek 3 — Model Tiering¶
Verwachte besparing: 40–60% bij gemengde workloads
Niet elke vraag vereist het zwaarste (duurste) model. Routeer op basis van complexiteit.
| Tier | Model (voorbeeld) | Geschikt voor | Relatieve kosten |
|---|---|---|---|
| Licht | Claude Haiku, GPT-4o mini | Classificatie, extractie, eenvoudige vragen | 1× |
| Gemiddeld | Claude Sonnet | Analyse, samenvatting, Q&A | 5–10× |
| Zwaar | Claude Opus | Complexe redenering, juridisch, medisch | 15–30× |
Routeringslogica (eenvoudig):
def kies_model(vraag: str) -> str:
if len(vraag) < 100 and is_classificatie(vraag):
return "claude-haiku-4-5-20251001"
elif is_complexe_analyse(vraag):
return "claude-opus-4-6"
else:
return "claude-sonnet-4-6"
Techniek 4 — Chunking & RAG-optimalisatie¶
Verwachte besparing: 20–40% op context-lengte bij documentverwerking
Bij RAG-systemen worden vaak te grote documentfragmenten meegestuurd.
| Parameter | Suboptimaal | Geoptimaliseerd |
|---|---|---|
| Chunk-grootte | 2000 tokens | 400–600 tokens |
| Aantal chunks per query | 10 | 3–5 (reranking) |
| Drempelwaarde similarity | 0,70 | 0,82+ |
| Compressie van chunks | Nee | Ja (extractieve samenvatting) |
Techniek 5 — Batchverwerking¶
Verwachte besparing: 30–50% bij niet-realtime workloads
Asynchrone verwerking in bulk is goedkoper dan individuele real-time verzoeken.
- Gebruik Batch API-endpoints (Anthropic, OpenAI bieden kortingen van 50%)
- Plan zware verwerking buiten piekuren (lagere compute-kosten bij cloud)
- Combineer meerdere documenten in één API-verzoek waar mogelijk
3. Monitoring & Kostenbeheer¶
KPI's voor kostenbeheer¶
| Metric | Drempel (waarschuwing) | Actie |
|---|---|---|
| Kosten per succesvolle taak | > 2× baseline | Onderzoek model-tiering |
| Token-gebruik per verzoek | > 130% van gemiddeld | Promptoptimalisatie |
| Cache-hitpercentage | \< 20% | Vergroot TTL of cache-scope |
| Kosten/maand vs. budget | > 80% van budget | Review en bijsturen |
Budget-alerts instellen¶
Stel in uw cloud-provider of LLM-provider altijd budgetalerts in op:
- 70% van maandbudget → waarschuwingsnotificatie
- 90% van maandbudget → escalatie naar AI PM + CAIO
- 100% van maandbudget → automatisch rate-limiten of stoppen
Kostentoewijzing¶
Wijs kosten toe per systeem, team of use case via tags/labels in uw cloud-omgeving. Dit maakt ROI-berekening per project mogelijk (zie Waarderealisatie).
4. Kostenoptimalisatie per Fase¶
| Fase | Prioriteit | Actie |
|---|---|---|
| Verkenning | Basis | Gebruik licht model voor prototyping; stel budget-cap in |
| Validatie | Basis | Meet kosten per test-case; bereken kosten/maand bij productie-volume |
| Realisatie | Hoog | Implementeer caching en model-tiering; stel monitoring in |
| Levering | Hoog | Valideer kosten vs. Business Case; automatiseer budget-alerts |
| Beheer | Continu | Review maandelijks; optimaliseer bij > 10% afwijking van baseline |
Gerelateerde Modules¶
- Cloud vs. On-Premise
- MLOps Standaarden
- Waarderealisatie
- Business Case Sjabloon
- Agentic AI Engineering — Kostenbeheersing
- Engineering Patterns