
Wat is een Diffusion Model?
Een diffusion model is een type generatief AI-model dat afbeeldingen (of andere data) genereert door geleidelijk ruis te verwijderen. Het model leert eerst hoe data stap voor stap in pure ruis wordt omgezet (forward process) en leert vervolgens dit proces om te keren (reverse process) — waardoor het nieuwe data kan creëren vanuit willekeurige ruis.
Waarom het ertoe doet
Diffusion models drijven de beeldgeneratierevolutie aan. DALL-E 3, Midjourney, Stable Diffusion en Adobe Firefly zijn allemaal gebaseerd op diffusion-architecturen. Ze produceren fotorealistische beelden, kunstwerken en ontwerpen van ongekende kwaliteit en zijn de standaard geworden voor text-to-image generatie.
Hoe het werkt
Het tweefasenproces:
1. Forward process (training):
- Begin met een echte afbeelding
- Voeg geleidelijk Gaussiaanse ruis toe in vele stappen
- Na genoeg stappen is de afbeelding onherkenbaar geworden (pure ruis)
2. Reverse process (generatie):
- Begin met willekeurige ruis
- Het model voorspelt en verwijdert stap voor stap de ruis
- Na vele stappen ontstaat een coherente afbeelding
Kernarchitecturen:
- DDPM (Denoising Diffusion Probabilistic Models) — het oorspronkelijke framework
- Latent Diffusion — voert het diffusieproces uit in een gecomprimeerde latente ruimte (veel efficiënter). Basis van Stable Diffusion.
- Guided diffusion — stuurt de generatie met tekst (via CLIP) of andere condities
Sterkte van diffusion models:
- Hogere beeldkwaliteit en diversiteit dan GAN's
- Stabielere training (geen mode collapse)
- Flexibele conditionering (tekst, beeld, stijl)
Voorbeeld
Wanneer je Midjourney de prompt "een Nederlandse windmolen bij zonsondergang in de stijl van Vermeer" geeft, start een diffusion model met pure ruis en verwijdert geleidelijk die ruis, gestuurd door de tekstprompt, totdat er een coherent beeld ontstaat dat alle gevraagde elementen combineert — windmolen, zonsondergang, Vermeers stijl.