BVDNET

Wat is Speculative Decoding?

Speculative decoding is een inferentie-optimalisatietechniek die de generatiesnelheid van grote taalmodellen versnelt door een klein, snel model (het "draft model") meerdere tokens vooruit te laten voorspellen, waarna het grote model alle voorspellingen tegelijk verifieert. Het is als een assistent die een concept schrijft dat de expert vervolgens in bulk controleert.

Waarom het ertoe doet

Autoregressive generatie is inherent langzaam: elk token vereist een volledige forward pass door het model. Voor grote modellen (GPT-4, Claude) kost dit significante rekentijd. Speculative decoding versnelt inference 2-3x zonder de outputkwaliteit te verminderen — het grote model produceert exact dezelfde output, alleen sneller.

Hoe het werkt

Het kernidee:

Draft fase — een klein, snel model genereert k tokens vooruit (bijv. k=5)
Verificatie fase — het grote model verwerkt alle k tokens in één forward pass
Acceptatie/afwijzing — elk draft-token wordt vergeleken met wat het grote model zou genereren
Als match — het token wordt geaccepteerd (gratis, geen extra compute)
Als mismatch — het eerste afwijkende token wordt vervangen door het grote model's keuze, de rest wordt weggegooid
Herhaal — vanaf het laatste geaccepteerde token

Wat is Speculative Decoding?

Wat is Speculative Decoding?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Gerelateerd

Bronnen