
Een token is de kleinste eenheid tekst die een Large Language Model verwerkt. Tokenizers splitsen tekst in subwoordstukken — ongeveer 4 tekens of 0,75 woorden in het Engels, hoewel de verhouding varieert per taal en tekenset. Het woord "understanding" kan twee tokens worden ("under" + "standing"), terwijl veelvoorkomende woorden zoals "the" een enkel token zijn. Elke interactie met een LLM wordt gemeten in tokens: de invoerprompt, de gegenereerde output en het totale contextvenster hebben allemaal op tokens gebaseerde limieten en prijzen. Het begrijpen van tokens is fundamenteel voor het werken met elk LLM omdat ze de eenheid zijn van zowel kosten als capaciteit.
Waarom het belangrijk is
Tokens zijn de belangrijkste kostenfactor voor LLM-gebruik. API-providers rekenen per token — bijvoorbeeld enkele dollars per miljoen invoertokens en meer per miljoen outputtokens. Een ogenschijnlijk kleine promptoptimalisatie die het tokenverbruik met 30% vermindert, vertaalt zich direct naar 30% lagere kosten op schaal. Tokens bepalen ook wat past in het contextvenster van een model: een venster van 200K tokens klinkt enorm totdat je beseft dat een enkele technische handleiding 80K tokens kan verbruiken, met beperkte ruimte over voor instructies en gespreksgeschiedenis. Voor elke AI-applicatie met significant volume is tokenbeheer het verschil tussen een levensvatbaar product en een onhoudbare kostenstructuur.
Hoe het werkt
LLM's gebruiken tokenizers — algoritmen die tekst opsplitsen in een vocabulaire van subwoordstukken. De meest gebruikte aanpak is Byte Pair Encoding (BPE), dat iteratief de meest frequente tekenparen samenvoegt om een vocabulaire op te bouwen van doorgaans 30.000 tot 100.000 tokens. Veelvoorkomende woorden worden enkele tokens, terwijl zeldzame woorden worden opgesplitst in meerdere subwoordstukken. Getallen, code en niet-Engelse tekst tokeniseren vaak minder efficiënt, met meer tokens per teken. De tokenizer zet tekst om naar een reeks token-ID's (gehele getallen), die de daadwerkelijke invoer voor het neurale netwerk worden. Elk token-ID verwijst naar een embedding-vector die het model verwerkt. Het begrijpen van tokenisatie verklaart waarom dezelfde inhoud in verschillende talen zeer verschillende tokenaantallen kan hebben — en dus verschillende kosten.
Voorbeeld
Een SaaS-bedrijf dat een AI-klantenserviceagent bouwt, ontdekt dat hun gemiddelde gesprek 4.200 tokens gebruikt (1.800 invoer + 2.400 output). Bij 10.000 gesprekken per dag is dat 42 miljoen tokens dagelijks. Door hun systeemprompt te herstructureren van een uitgebreide 800-token instructieset naar een beknopte versie van 350 tokens, over te schakelen van volledige gespreksgeschiedenis naar een samengevat 5-berichten sliding window, en richtlijnen voor responslengte te implementeren, verminderen ze het gemiddelde tokenverbruik naar 2.600 per gesprek — een reductie van 38% die meer dan €15.000 per maand bespaart op API-kosten met behoud van dezelfde responskwaliteit.