Wat is een Tokenizer?

Een tokenizer is het component dat tekst omzet naar tokens — de discrete eenheden die een taalmodel daadwerkelijk verwerkt. Het splitst ruwe tekst op in woorden, subwoorden of karakters en kent elke eenheid een numeriek ID toe. De tokenizer is de brug tussen menselijke taal en de wiskundige representaties waarmee het model werkt.

Waarom het ertoe doet

De tokenizer bepaalt letterlijk wat een taalmodel "ziet." Hoe tekst getokeniseerd wordt beïnvloedt de modelcapaciteiten, kosten (tokens = geld bij API-gebruik), contextvensterlimieten en prestaties op verschillende talen. Nederlandse tekst neemt doorgaans meer tokens in beslag dan Engelse tekst, wat directe invloed heeft op kosten en context.

Hoe het werkt

Tokenisatiemethoden:

Byte-Pair Encoding (BPE) — begint met individuele bytes en voegt de meest frequente paren samen. Gebruikt door GPT-4 en Claude.
WordPiece — vergelijkbaar met BPE, maar selecteert samenvoegingen op basis van likelihood. Gebruikt door BERT.
SentencePiece — taalmodel-gebaseerde tokenisatie die direct op ruwe tekst werkt, zonder voorbewerking.

Wat een tokenizer doet:

Ontvangt ruwe tekst ("De kat zit op de mat")
Splitst in tokens ("De", " kat", " zit", " op", " de", " mat")
Mapt tokens naar numerieke ID's ([123, 456, 789, ...])
Het model verwerkt de ID's, niet de originele tekst

Vocabulairegrootte:

GPT-4: ~100.000 tokens
LLaMA 3: 128.000 tokens
Grotere vocabulaires → betere meertalige ondersteuning maar meer geheugengebruik

Voorbeeld

De zin "Machine learning is fascinerend" wordt door GPT-4's tokenizer opgesplitst in 4 tokens: ["Machine", " learning", " is", " fasciner", "end"]. Het Nederlandse woord "fascinerend" kost 2 tokens terwijl "fascinating" maar 1 token kost — wat illustreert waarom niet-Engelse talen meer tokens verbruiken.

Gerelateerd

Zie ook: Large Language Model, Embedding, Natural Language Processing, Context Window