
Wat is Autoregressieve Generatie?
Autoregressieve generatie is de methode waarbij een AI-model output produceert door één element tegelijk te genereren, waarbij elk nieuw element is geconditioneerd op alle eerder gegenereerde elementen. Het is hoe grote taalmodellen tekst schrijven: woord voor woord (of token voor token), waarbij elk volgend woord wordt gekozen op basis van alles wat ervoor kwam.
Waarom het ertoe doet
Autoregressieve generatie is het kernmechanisme van alle grote taalmodellen — GPT-4, Claude, Gemini, LLaMA. Het verklaart waarom deze modellen sequentieel genereren (en niet alles tegelijk), waarom ze soms "hallucineren," en waarom inference traag kan zijn. Begrijpen hoe dit werkt is essentieel voor effectief prompten en voor het begrijpen van LLM-beperkingen.
Hoe het werkt
Het basisproces:
- Het model ontvangt een input (prompt)
- Het berekent een kansverdeling over alle mogelijke volgende tokens
- Het selecteert een token (via sampling of greedy decoding)
- Dit token wordt toegevoegd aan de input
- Stap 2-4 herhaalt totdat een stop-conditie is bereikt
Sampling-strategieën:
- Greedy — kies altijd het meest waarschijnlijke token (deterministisch maar saai)
- Temperature sampling — hogere temperatuur = meer willekeur en creativiteit
- Top-k — kies alleen uit de k meest waarschijnlijke tokens
- Top-p (nucleus) — kies uit de kleinste set tokens waarvan de gecumuleerde kans p bereikt
Waarom het werkt:
- Taal is inherent sequentieel — elk woord hangt af van de context
- Door enorme hoeveelheden tekst te zien, leert het model de statistische structuur van taal
- Het autoregressieve framework is simpel maar extreem krachtig op schaal
Beperkingen:
- Sequentieel = langzaam (elk token vereist een forward pass)
- Eenmaal gegenereerde tokens kunnen niet worden teruggenomen
- Fouten in vroege tokens propageren door de rest van de output
Voorbeeld
Wanneer je Claude vraagt "Wat is de hoofdstad van Nederland?", genereert het model token voor token: "De" → "hoofd" → "stad" → "van" → "Nederland" → "is" → "Amsterdam" → ".". Bij elk token berekent het model de kans op alle mogelijke vervolgwoorden en kiest het meest passende.