Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Kernconcepten
  4. Wat Is een Token in AI?
book-openKernconcepten
Beginner

Wat Is een Token in AI?

De kleinste eenheid tekst die een LLM verwerkt — ongeveer 4 tekens of 0,75 woorden

Ook bekend als:
Tokens
Token Budget
Tokenisatie
AI Intel Pipeline
Token

Een token is de kleinste eenheid tekst die een Large Language Model verwerkt. Tokenizers splitsen tekst in subwoordstukken — ongeveer 4 tekens of 0,75 woorden in het Engels, hoewel de verhouding varieert per taal en tekenset. Het woord "understanding" kan twee tokens worden ("under" + "standing"), terwijl veelvoorkomende woorden zoals "the" een enkel token zijn. Elke interactie met een LLM wordt gemeten in tokens: de invoerprompt, de gegenereerde output en het totale contextvenster hebben allemaal op tokens gebaseerde limieten en prijzen. Het begrijpen van tokens is fundamenteel voor het werken met elk LLM omdat ze de eenheid zijn van zowel kosten als capaciteit.

Waarom het belangrijk is

Tokens zijn de belangrijkste kostenfactor voor LLM-gebruik. API-providers rekenen per token — bijvoorbeeld enkele dollars per miljoen invoertokens en meer per miljoen outputtokens. Een ogenschijnlijk kleine promptoptimalisatie die het tokenverbruik met 30% vermindert, vertaalt zich direct naar 30% lagere kosten op schaal. Tokens bepalen ook wat past in het contextvenster van een model: een venster van 200K tokens klinkt enorm totdat je beseft dat een enkele technische handleiding 80K tokens kan verbruiken, met beperkte ruimte over voor instructies en gespreksgeschiedenis. Voor elke AI-applicatie met significant volume is tokenbeheer het verschil tussen een levensvatbaar product en een onhoudbare kostenstructuur.

Hoe het werkt

LLM's gebruiken tokenizers — algoritmen die tekst opsplitsen in een vocabulaire van subwoordstukken. De meest gebruikte aanpak is Byte Pair Encoding (BPE), dat iteratief de meest frequente tekenparen samenvoegt om een vocabulaire op te bouwen van doorgaans 30.000 tot 100.000 tokens. Veelvoorkomende woorden worden enkele tokens, terwijl zeldzame woorden worden opgesplitst in meerdere subwoordstukken. Getallen, code en niet-Engelse tekst tokeniseren vaak minder efficiënt, met meer tokens per teken. De tokenizer zet tekst om naar een reeks token-ID's (gehele getallen), die de daadwerkelijke invoer voor het neurale netwerk worden. Elk token-ID verwijst naar een embedding-vector die het model verwerkt. Het begrijpen van tokenisatie verklaart waarom dezelfde inhoud in verschillende talen zeer verschillende tokenaantallen kan hebben — en dus verschillende kosten.

Voorbeeld

Een SaaS-bedrijf dat een AI-klantenserviceagent bouwt, ontdekt dat hun gemiddelde gesprek 4.200 tokens gebruikt (1.800 invoer + 2.400 output). Bij 10.000 gesprekken per dag is dat 42 miljoen tokens dagelijks. Door hun systeemprompt te herstructureren van een uitgebreide 800-token instructieset naar een beknopte versie van 350 tokens, over te schakelen van volledige gespreksgeschiedenis naar een samengevat 5-berichten sliding window, en richtlijnen voor responslengte te implementeren, verminderen ze het gemiddelde tokenverbruik naar 2.600 per gesprek — een reductie van 38% die meer dan €15.000 per maand bespaart op API-kosten met behoud van dezelfde responskwaliteit.

Bronnen

  1. OpenAI — Tokenizer Tool
    Web
  2. Hugging Face — Tokenizer Summary
    Web
  3. Wikipedia — Byte Pair Encoding (BPE)
    Web

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Batch Size
Batch size (voorbeelden per update) en learning rate (stapgrootte voor gewichtsupdates) zijn de twee belangrijkste hyperparameters die bepalen hoe neurale netwerken trainen.
Catastrophic Forgetting
Catastrophic forgetting is wanneer het trainen van een neuraal netwerk op nieuwe data eerder geleerde kennis overschrijft, waardoor eerdere capaciteiten verloren gaan.
Classifier
Een classifier is een ML-model dat inputs toewijst aan vooraf gedefinieerde categorieën — de basis van spamfilters, sentimentanalyse, beeldherkenning en fraudedetectie.
Continual Learning
Continual learning stelt AI-systemen in staat om nieuwe taken te leren zonder eerdere kennis te vergeten, door het stabiliteit-plasticiteitsdilemma op te lossen.

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Text-to-Image Generatie

Volgende

Tokeneconomie

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid