Wat is Autoregressieve Generatie?

Autoregressieve generatie is de methode waarbij een AI-model output produceert door één element tegelijk te genereren, waarbij elk nieuw element is geconditioneerd op alle eerder gegenereerde elementen. Het is hoe grote taalmodellen tekst schrijven: woord voor woord (of token voor token), waarbij elk volgend woord wordt gekozen op basis van alles wat ervoor kwam.

Waarom het ertoe doet

Autoregressieve generatie is het kernmechanisme van alle grote taalmodellen — GPT-4, Claude, Gemini, LLaMA. Het verklaart waarom deze modellen sequentieel genereren (en niet alles tegelijk), waarom ze soms "hallucineren," en waarom inference traag kan zijn. Begrijpen hoe dit werkt is essentieel voor effectief prompten en voor het begrijpen van LLM-beperkingen.

Hoe het werkt

Het basisproces:

Het model ontvangt een input (prompt)
Het berekent een kansverdeling over alle mogelijke volgende tokens
Het selecteert een token (via sampling of greedy decoding)
Dit token wordt toegevoegd aan de input
Stap 2-4 herhaalt totdat een stop-conditie is bereikt

Sampling-strategieën:

Greedy — kies altijd het meest waarschijnlijke token (deterministisch maar saai)
Temperature sampling — hogere temperatuur = meer willekeur en creativiteit
Top-k — kies alleen uit de k meest waarschijnlijke tokens
Top-p (nucleus) — kies uit de kleinste set tokens waarvan de gecumuleerde kans p bereikt

Waarom het werkt:

Taal is inherent sequentieel — elk woord hangt af van de context
Door enorme hoeveelheden tekst te zien, leert het model de statistische structuur van taal
Het autoregressieve framework is simpel maar extreem krachtig op schaal

Beperkingen:

Sequentieel = langzaam (elk token vereist een forward pass)
Eenmaal gegenereerde tokens kunnen niet worden teruggenomen
Fouten in vroege tokens propageren door de rest van de output

Voorbeeld

Wanneer je Claude vraagt "Wat is de hoofdstad van Nederland?", genereert het model token voor token: "De" → "hoofd" → "stad" → "van" → "Nederland" → "is" → "Amsterdam" → ".". Bij elk token berekent het model de kans op alle mogelijke vervolgwoorden en kiest het meest passende.