
Wat is Positional Encoding?
Positional encoding is het mechanisme waarmee transformer-modellen informatie over de positie en volgorde van tokens in een sequentie vastleggen. Transformers verwerken alle tokens tegelijkertijd (parallel), waardoor ze geen inherent besef hebben van volgorde — positional encoding voegt deze volgorde-informatie kunstmatig toe.
Waarom het ertoe doet
Zonder positional encoding zou een transformer de zinnen "de hond beet de man" en "de man beet de hond" als identiek behandelen — dezelfde tokens, dezelfde betekenis. Positional encoding is wat transformers sequentiebewust maakt en is een actief onderzoeksgebied: de keuze van encoding bepaalt het effectieve contextvenster van het model.
Hoe het werkt
Het probleem:
- Self-attention is permutatie-invariant (de volgorde van tokens maakt niet uit)
- Taal is sequentieel — volgorde bepaalt betekenis
- Er is een manier nodig om positie-informatie toe te voegen
Methoden:
1. Sinusvormige positional encoding (oorspronkelijke transformer):
- Gebruikt sinus- en cosinusfuncties met verschillende frequenties
- Elke positie krijgt een uniek patroon
- Voordeel: generaliseert theoretisch naar langere sequenties
2. Geleerde positional embeddings (BERT, GPT-2):
- Elke positie krijgt een trainbare embedding-vector
- Het model leert zelf de beste representatie
- Nadeel: beperkt tot de maximale trainingslengte
3. Rotary Position Embedding (RoPE) (LLaMA, GPT-NeoX):
- Roteert embedding-vectoren op basis van positie
- Codeert relatieve posities in het attention-mechanisme
- Schaalt beter naar langere contexten
4. ALiBi (Attention with Linear Biases):
- Voegt een lineaire bias toe aan attention-scores op basis van afstand
- Geen extra parameters nodig
- Goede lengte-generalisatie
Voorbeeld
In de zin "De kat zat op de mat" voegt RoPE aan elk token een positie-afhankelijke rotatie toe. Het model weet daardoor dat "kat" op positie 2 staat en "mat" op positie 6, en dat de afstand ertussen 4 tokens is. Dit stelt het model in staat om grammaticale relaties en afhankelijkheden correct te modelleren, ongeacht de absolute positie in een lang document.