
Wat is Autoregressieve Generatie?
Autoregressieve generatie is de methode waarbij een AI-model output produceert door één element tegelijk te genereren, waarbij elk nieuw element is geconditioneerd op alle eerder gegenereerde elementen. Het is hoe grote taalmodellen tekst schrijven: woord voor woord (of token voor token), waarbij elk volgend woord wordt gekozen op basis van alles wat ervoor kwam.
Waarom het ertoe doet
Autoregressieve generatie is het kernmechanisme van alle grote taalmodellen — GPT-4, Claude, Gemini, LLaMA. Het verklaart waarom deze modellen sequentieel genereren (en niet alles tegelijk), waarom ze soms "hallucineren," en waarom inference traag kan zijn. Begrijpen hoe dit werkt is essentieel voor effectief prompten en voor het begrijpen van LLM-beperkingen.
Hoe het werkt
Het basisproces:
- Het model ontvangt een input (prompt)
- Het berekent een kansverdeling over alle mogelijke volgende tokens
- Het selecteert een token (via sampling of greedy decoding)
- Dit token wordt toegevoegd aan de input
- Stap 2-4 herhaalt totdat een stop-conditie is bereikt
Sampling-strategieën:
- Greedy — kies altijd het meest waarschijnlijke token (deterministisch maar saai)
- Temperature sampling — hogere temperatuur = meer willekeur en creativiteit
- — kies alleen uit de k meest waarschijnlijke tokens