Wat is een Diffusion Model?

Een diffusion model is een type generatief AI-model dat afbeeldingen (of andere data) genereert door geleidelijk ruis te verwijderen. Het model leert eerst hoe data stap voor stap in pure ruis wordt omgezet (forward process) en leert vervolgens dit proces om te keren (reverse process) — waardoor het nieuwe data kan creëren vanuit willekeurige ruis.

Waarom het ertoe doet

Diffusion models drijven de beeldgeneratierevolutie aan. DALL-E 3, Midjourney, Stable Diffusion en Adobe Firefly zijn allemaal gebaseerd op diffusion-architecturen. Ze produceren fotorealistische beelden, kunstwerken en ontwerpen van ongekende kwaliteit en zijn de standaard geworden voor text-to-image generatie.

Hoe het werkt

Het tweefasenproces:

1. Forward process (training):

Begin met een echte afbeelding
Voeg geleidelijk Gaussiaanse ruis toe in vele stappen
Na genoeg stappen is de afbeelding onherkenbaar geworden (pure ruis)

2. Reverse process (generatie):

Begin met willekeurige ruis
Het model voorspelt en verwijdert stap voor stap de ruis
Na vele stappen ontstaat een coherente afbeelding

Kernarchitecturen:

DDPM (Denoising Diffusion Probabilistic Models) — het oorspronkelijke framework
Latent Diffusion — voert het diffusieproces uit in een gecomprimeerde latente ruimte (veel efficiënter). Basis van Stable Diffusion.
Guided diffusion — stuurt de generatie met tekst (via CLIP) of andere condities

Sterkte van diffusion models:

Hogere beeldkwaliteit en diversiteit dan GAN's
Stabielere training (geen mode collapse)
Flexibele conditionering (tekst, beeld, stijl)

Voorbeeld

Wanneer je Midjourney de prompt "een Nederlandse windmolen bij zonsondergang in de stijl van Vermeer" geeft, start een diffusion model met pure ruis en verwijdert geleidelijk die ruis, gestuurd door de tekstprompt, totdat er een coherent beeld ontstaat dat alle gevraagde elementen combineert — windmolen, zonsondergang, Vermeers stijl.