
Token-economie verwijst naar het prijsmodel en de kostenstructuur van het gebruik van Large Language Models, waarbij kosten primair worden bepaald door het aantal verwerkte (invoer) en gegenereerde (output) tokens. Elke commerciële LLM-API rekent per token — met prijzen die dramatisch variëren per modelcapaciteit, van fracties van een cent per miljoen tokens voor lichtgewicht modellen tot meerdere dollars per miljoen voor frontier-modellen. Token-economie onderscheidt ook tussen invoertokens (de prompt, context en systeeminstructies) en outputtokens (het gegenereerde antwoord), waarbij outputtokens doorgaans 2-5× meer kosten omdat ze sequentiële generatie vereisen. Het begrijpen van token-economie is essentieel voor het budgetteren van AI-implementaties, het optimaliseren van kosten en het nemen van geïnformeerde bouw-versus-koop-beslissingen.
Waarom het belangrijk is
Token-economie bepaalt of een AI-applicatie financieel levensvatbaar is op schaal. Een proof of concept dat €5 per dag kost kan opschalen naar €50.000 per maand wanneer het bij alle klanten wordt ingezet — en het verschil tussen succes en falen komt vaak neer op tokenoptimalisatie. Invoertokens zijn goedkoper maar accumuleren het snelst (systeemprompts, RAG-context, gespreksgeschiedenis worden bij elk verzoek herhaald). Outputtokens kosten meer per eenheid maar zijn doorgaans minder in aantal. Cache-hits (wanneer de API-provider dezelfde prefix-tokens al heeft verwerkt) kunnen invoerkosten met 50-90% verlagen. Het begrijpen van deze dynamieken maakt drie soorten optimalisatie mogelijk: promptoptimalisatie (tokenverbruik verminderen met behoud van kwaliteit), modeltiering (goedkopere modellen gebruiken voor eenvoudige taken) en architectuurkeuzes (batching, caching, context-compressie). Voor financeteams die AI-investeringen evalueren biedt token-economie het kostenmodel dat nodig is voor nauwkeurige ROI-berekeningen.
Hoe het werkt
LLM-API-prijzen volgen een betaal-per-token model met meerdere lagen. Providers publiceren doorgaans prijzen per miljoen tokens, opgesplitst in invoer- en outputtarieven. Een frontier-model kan bijvoorbeeld $15 per miljoen invoertokens en $75 per miljoen outputtokens rekenen, terwijl een kleiner model van dezelfde provider $0,25 en $1,25 rekent respectievelijk — een 60× prijsverschil voor taken waar het kleinere model voldoende is. Additionele economische factoren omvatten: prompt-caching (herhaalde promptprefixen server-side gecached tegen verlaagde tarieven), batchverwerking (verzoeken in bulk indienen met 50% korting voor niet-tijdgevoelige taken), en fine-tuned model-prijzen (trainingskosten plus verhoogde inferentiekosten). De totale kosten van een AI-functie hangen af van: gemiddelde tokens per verzoek × verzoeken per dag × prijs per token, vermenigvuldigd over alle modelaanroepen in de pipeline. Multi-model architecturen verlagen kosten door verschillende deeltaken naar passend gedimensioneerde modellen te routeren.
Voorbeeld
Een B2B SaaS-bedrijf bouwt een AI-functie die aangepaste rapporten genereert uit klantdata. De initiële implementatie gebruikt een frontier-model voor alles: de klantvraag parsen (500 invoer + 50 outputtokens), relevante data ophalen en analyseren via 3 RAG-queries (4.500 invoer + 600 outputtokens per query), en het eindrapport genereren (2.000 invoer + 3.000 outputtokens). Totaal per rapport: 16.300 invoer + 4.850 outputtokens. Tegen frontier-prijzen kost elk rapport ongeveer €0,45. Bij 2.000 rapporten per dag is dat €900/dag of €27.000/maand. De optimalisatie: routeer de drie RAG-queries naar een middenklasse model (voldoende kwaliteit tegen 10% van de kosten), cache het systeempromptprefix (60% besparing op herhaalde invoertokens), en implementeer responslengtebeperkingen voor de rapportgeneratie. Geoptimaliseerde kosten: €0,09 per rapport, €180/dag — een reductie van 80% die de functie winstgevend maakt bij hun abonnementsprijs van €29/maand, waarbij slechts 7 rapporten per klant per maand nodig zijn om de AI-kosten te rechtvaardigen.