Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Kernconcepten
  4. Wat Is een Token in AI?
book-openKernconcepten
Beginner

Wat Is een Token in AI?

De kleinste eenheid tekst die een LLM verwerkt — ongeveer 4 tekens of 0,75 woorden

Ook bekend als:
Tokens
Token Budget
Tokenisatie
Token

Een token is de kleinste eenheid tekst die een Large Language Model verwerkt. Tokenizers splitsen tekst in subwoordstukken — ongeveer 4 tekens of 0,75 woorden in het Engels, hoewel de verhouding varieert per taal en tekenset. Het woord "understanding" kan twee tokens worden ("under" + "standing"), terwijl veelvoorkomende woorden zoals "the" een enkel token zijn. Elke interactie met een LLM wordt gemeten in tokens: de invoerprompt, de gegenereerde output en het totale contextvenster hebben allemaal op tokens gebaseerde limieten en prijzen. Het begrijpen van tokens is fundamenteel voor het werken met elk LLM omdat ze de eenheid zijn van zowel kosten als capaciteit.

Waarom het belangrijk is

Tokens zijn de belangrijkste kostenfactor voor LLM-gebruik. API-providers rekenen per token — bijvoorbeeld enkele dollars per miljoen invoertokens en meer per miljoen outputtokens. Een ogenschijnlijk kleine promptoptimalisatie die het tokenverbruik met 30% vermindert, vertaalt zich direct naar 30% lagere kosten op schaal. Tokens bepalen ook wat past in het contextvenster van een model: een venster van 200K tokens klinkt enorm totdat je beseft dat een enkele technische handleiding 80K tokens kan verbruiken, met beperkte ruimte over voor instructies en gespreksgeschiedenis. Voor elke AI-applicatie met significant volume is tokenbeheer het verschil tussen een levensvatbaar product en een onhoudbare kostenstructuur.

Hoe het werkt

LLM's gebruiken tokenizers — algoritmen die tekst opsplitsen in een vocabulaire van subwoordstukken. De meest gebruikte aanpak is Byte Pair Encoding (BPE), dat iteratief de meest frequente tekenparen samenvoegt om een vocabulaire op te bouwen van doorgaans 30.000 tot 100.000 tokens. Veelvoorkomende woorden worden enkele tokens, terwijl zeldzame woorden worden opgesplitst in meerdere subwoordstukken. Getallen, code en niet-Engelse tekst tokeniseren vaak minder efficiënt, met meer tokens per teken. De tokenizer zet tekst om naar een reeks token-ID's (gehele getallen), die de daadwerkelijke invoer voor het neurale netwerk worden. Elk token-ID verwijst naar een embedding-vector die het model verwerkt. Het begrijpen van tokenisatie verklaart waarom dezelfde inhoud in verschillende talen zeer verschillende tokenaantallen kan hebben — en dus verschillende kosten.

Voorbeeld

Een SaaS-bedrijf dat een AI-klantenserviceagent bouwt, ontdekt dat hun gemiddelde gesprek 4.200 tokens gebruikt (1.800 invoer + 2.400 output). Bij 10.000 gesprekken per dag is dat 42 miljoen tokens dagelijks. Door hun systeemprompt te herstructureren van een uitgebreide 800-token instructieset naar een beknopte versie van 350 tokens, over te schakelen van volledige gespreksgeschiedenis naar een samengevat 5-berichten sliding window, en richtlijnen voor responslengte te implementeren, verminderen ze het gemiddelde tokenverbruik naar 2.600 per gesprek — een reductie van 38% die meer dan €15.000 per maand bespaart op API-kosten met behoud van dezelfde responskwaliteit.

Bronnen

  1. OpenAI — Tokenizer Tool
    Web
  2. Hugging Face — Tokenizer Summary
    Web
  3. Wikipedia — Byte Pair Encoding (BPE)
    Web

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Tokeneconomie
De prijs- en kostenstructuur van LLM-gebruik op basis van tokenverbruik
Large Language Model (LLM)
Een neuraal netwerk getraind op enorme hoeveelheden tekst om mensachtige taal te begrijpen en genereren
Embedding
Een numerieke vector die de semantische betekenis van tekst vastlegt, waardoor zoekopdrachten op gelijkenis mogelijk worden
Contextvenster
Het maximale aantal tokens dat een LLM in één verzoek kan verwerken
Temperature in AI
Een parameter die de willekeurigheid van LLM-output regelt — lagere waarden produceren consistente resultaten, hogere waarden verhogen creativiteit
Top-p (Nucleus) Sampling
Een decodeermethode die samplet uit de kleinste set tokens waarvan de cumulatieve kans een drempel p overschrijdt — de kandidaatpool past zich aan op basis van modelzekerheid

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Temperature in AI

Volgende

Tokeneconomie

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid