
Wat is Speculative Decoding?
Speculative decoding is een inferentie-optimalisatietechniek die de generatiesnelheid van grote taalmodellen versnelt door een klein, snel model (het "draft model") meerdere tokens vooruit te laten voorspellen, waarna het grote model alle voorspellingen tegelijk verifieert. Het is als een assistent die een concept schrijft dat de expert vervolgens in bulk controleert.
Waarom het ertoe doet
Autoregressive generatie is inherent langzaam: elk token vereist een volledige forward pass door het model. Voor grote modellen (GPT-4, Claude) kost dit significante rekentijd. Speculative decoding versnelt inference 2-3x zonder de outputkwaliteit te verminderen — het grote model produceert exact dezelfde output, alleen sneller.
Hoe het werkt
Het kernidee:
- Draft fase — een klein, snel model genereert k tokens vooruit (bijv. k=5)
- Verificatie fase — het grote model verwerkt alle k tokens in één forward pass
- Acceptatie/afwijzing — elk draft-token wordt vergeleken met wat het grote model zou genereren
- Als match — het token wordt geaccepteerd (gratis, geen extra compute)
- Als mismatch — het eerste afwijkende token wordt vervangen door het grote model's keuze, de rest wordt weggegooid
- Herhaal — vanaf het laatste geaccepteerde token