
Wat is Text-to-Image Generatie?
Text-to-image generatie is het AI-vermogen om afbeeldingen te creëren op basis van tekstbeschrijvingen (prompts). Je beschrijft wat je wilt zien in natuurlijke taal, en het model genereert een overeenkomstige afbeelding — van fotorealistische scènes tot abstracte kunst en technische diagrammen.
Waarom het ertoe doet
Text-to-image generatie democratiseerde visuele creatie. Iedereen kan nu professionele afbeeldingen genereren zonder grafisch ontwerpvaardigheden. Dit transformeert marketing, productontwikkeling, entertainment, onderwijs en journalistiek. Tegelijkertijd roept het vragen op over auteursrecht, deepfakes en de toekomst van creatieve beroepen.
Hoe het werkt
De pijplijn:
- Tekst-encoding — de prompt wordt omgezet naar een vectorrepresentatie (via CLIP of T5)
- Beeldgeneratie — een diffusion model genereert geleidelijk een beeld, gestuurd door de tekstvector
- Upscaling — het beeld wordt opgeschaald naar de gewenste resolutie
Dominante architecturen:
- Stable Diffusion — open-source latent diffusion model, de standaard voor onderzoekers
- DALL-E 3 — OpenAI's model, geïntegreerd in ChatGPT
- Midjourney — geoptimaliseerd voor artistieke en esthetische kwaliteit