Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Kernconcepten
  4. Wat is een Tokenizer?
book-openKernconcepten
Beginner
2026-W17-phase2

Wat is een Tokenizer?

Een tokenizer zet ruwe tekst om in tokens — de discrete eenheden die een taalmodel verwerkt — met subwoordalgoritmen zoals BPE of SentencePiece.

Ook bekend als:
tokenization
tokenisatie
BPE tokenizer
subword tokenization
AI Intel Pipeline
What is a Tokenizer?

Wat is een Tokenizer?

Een tokenizer is het component dat tekst omzet naar tokens — de discrete eenheden die een taalmodel daadwerkelijk verwerkt. Het splitst ruwe tekst op in woorden, subwoorden of karakters en kent elke eenheid een numeriek ID toe. De tokenizer is de brug tussen menselijke taal en de wiskundige representaties waarmee het model werkt.

Waarom het ertoe doet

De tokenizer bepaalt letterlijk wat een taalmodel "ziet." Hoe tekst getokeniseerd wordt beïnvloedt de modelcapaciteiten, kosten (tokens = geld bij API-gebruik), contextvensterlimieten en prestaties op verschillende talen. Nederlandse tekst neemt doorgaans meer tokens in beslag dan Engelse tekst, wat directe invloed heeft op kosten en context.

Hoe het werkt

Tokenisatiemethoden:

  • Byte-Pair Encoding (BPE) — begint met individuele bytes en voegt de meest frequente paren samen. Gebruikt door GPT-4 en Claude.
  • WordPiece — vergelijkbaar met BPE, maar selecteert samenvoegingen op basis van likelihood. Gebruikt door BERT.
  • SentencePiece — taalmodel-gebaseerde tokenisatie die direct op ruwe tekst werkt, zonder voorbewerking.

Wat een tokenizer doet:

  1. Ontvangt ruwe tekst ("De kat zit op de mat")
  2. Splitst in tokens ("De", " kat", " zit", " op", " de", " mat")
  3. Mapt tokens naar numerieke ID's ([123, 456, 789, ...])
  4. Het model verwerkt de ID's, niet de originele tekst

Vocabulairegrootte:

  • GPT-4: ~100.000 tokens
  • LLaMA 3: 128.000 tokens
  • Grotere vocabulaires → betere meertalige ondersteuning maar meer geheugengebruik

Voorbeeld

De zin "Machine learning is fascinerend" wordt door GPT-4's tokenizer opgesplitst in 4 tokens: ["Machine", " learning", " is", " fasciner", "end"]. Het Nederlandse woord "fascinerend" kost 2 tokens terwijl "fascinating" maar 1 token kost — wat illustreert waarom niet-Engelse talen meer tokens verbruiken.

Gerelateerd

Zie ook: Large Language Model, Embedding, Natural Language Processing, Context Window

Bronnen

  1. Hugging Face – Tokenizers Summary
  2. OpenAI Tiktoken

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Kunstmatige Intelligentie (AI)
Kunstmatige intelligentie is het vakgebied dat systemen bouwt die taken uitvoeren waarvoor normaal menselijke intelligentie nodig is, zoals leren, redeneren en waarnemen.
Batch Size
Batch size (voorbeelden per update) en learning rate (stapgrootte voor gewichtsupdates) zijn de twee belangrijkste hyperparameters die bepalen hoe neurale netwerken trainen.
Benchmark (AI-evaluatie)
Een benchmark is een gestandaardiseerde test om AI-modelprestaties te meten en vergelijken, met reproduceerbare scores op taken als redeneren, coderen en kennis.
Catastrophic Forgetting
Catastrophic forgetting is wanneer het trainen van een neuraal netwerk op nieuwe data eerder geleerde kennis overschrijft, waardoor eerdere capaciteiten verloren gaan.

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Tokeneconomie

Volgende

Top-p (Nucleus) Sampling

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid