
Wat is een Tokenizer?
Een tokenizer is het component dat tekst omzet naar tokens — de discrete eenheden die een taalmodel daadwerkelijk verwerkt. Het splitst ruwe tekst op in woorden, subwoorden of karakters en kent elke eenheid een numeriek ID toe. De tokenizer is de brug tussen menselijke taal en de wiskundige representaties waarmee het model werkt.
Waarom het ertoe doet
De tokenizer bepaalt letterlijk wat een taalmodel "ziet." Hoe tekst getokeniseerd wordt beïnvloedt de modelcapaciteiten, kosten (tokens = geld bij API-gebruik), contextvensterlimieten en prestaties op verschillende talen. Nederlandse tekst neemt doorgaans meer tokens in beslag dan Engelse tekst, wat directe invloed heeft op kosten en context.
Hoe het werkt
Tokenisatiemethoden:
- Byte-Pair Encoding (BPE) — begint met individuele bytes en voegt de meest frequente paren samen. Gebruikt door GPT-4 en Claude.
- WordPiece — vergelijkbaar met BPE, maar selecteert samenvoegingen op basis van likelihood. Gebruikt door BERT.
- SentencePiece — taalmodel-gebaseerde tokenisatie die direct op ruwe tekst werkt, zonder voorbewerking.
Wat een tokenizer doet:
- Ontvangt ruwe tekst ("De kat zit op de mat")
- Splitst in tokens ("De", " kat", " zit", " op", " de", " mat")
- Mapt tokens naar numerieke ID's ([123, 456, 789, ...])