
Wat is een Tokenizer?
Een tokenizer is het component dat tekst omzet naar tokens — de discrete eenheden die een taalmodel daadwerkelijk verwerkt. Het splitst ruwe tekst op in woorden, subwoorden of karakters en kent elke eenheid een numeriek ID toe. De tokenizer is de brug tussen menselijke taal en de wiskundige representaties waarmee het model werkt.
Waarom het ertoe doet
De tokenizer bepaalt letterlijk wat een taalmodel "ziet." Hoe tekst getokeniseerd wordt beïnvloedt de modelcapaciteiten, kosten (tokens = geld bij API-gebruik), contextvensterlimieten en prestaties op verschillende talen. Nederlandse tekst neemt doorgaans meer tokens in beslag dan Engelse tekst, wat directe invloed heeft op kosten en context.
Hoe het werkt
Tokenisatiemethoden:
- Byte-Pair Encoding (BPE) — begint met individuele bytes en voegt de meest frequente paren samen. Gebruikt door GPT-4 en Claude.
- WordPiece — vergelijkbaar met BPE, maar selecteert samenvoegingen op basis van likelihood. Gebruikt door BERT.
- SentencePiece — taalmodel-gebaseerde tokenisatie die direct op ruwe tekst werkt, zonder voorbewerking.
Wat een tokenizer doet:
- Ontvangt ruwe tekst ("De kat zit op de mat")
- Splitst in tokens ("De", " kat", " zit", " op", " de", " mat")
- Mapt tokens naar numerieke ID's ([123, 456, 789, ...])
- Het model verwerkt de ID's, niet de originele tekst
Vocabulairegrootte:
- GPT-4: ~100.000 tokens
- LLaMA 3: 128.000 tokens
- Grotere vocabulaires → betere meertalige ondersteuning maar meer geheugengebruik
Voorbeeld
De zin "Machine learning is fascinerend" wordt door GPT-4's tokenizer opgesplitst in 4 tokens: ["Machine", " learning", " is", " fasciner", "end"]. Het Nederlandse woord "fascinerend" kost 2 tokens terwijl "fascinating" maar 1 token kost — wat illustreert waarom niet-Engelse talen meer tokens verbruiken.
Gerelateerd
Zie ook: Large Language Model, Embedding, Natural Language Processing, Context Window