
Wat is Text-to-Image Generatie?
Text-to-image generatie is het AI-vermogen om afbeeldingen te creëren op basis van tekstbeschrijvingen (prompts). Je beschrijft wat je wilt zien in natuurlijke taal, en het model genereert een overeenkomstige afbeelding — van fotorealistische scènes tot abstracte kunst en technische diagrammen.
Waarom het ertoe doet
Text-to-image generatie democratiseerde visuele creatie. Iedereen kan nu professionele afbeeldingen genereren zonder grafisch ontwerpvaardigheden. Dit transformeert marketing, productontwikkeling, entertainment, onderwijs en journalistiek. Tegelijkertijd roept het vragen op over auteursrecht, deepfakes en de toekomst van creatieve beroepen.
Hoe het werkt
De pijplijn:
- Tekst-encoding — de prompt wordt omgezet naar een vectorrepresentatie (via CLIP of T5)
- Beeldgeneratie — een diffusion model genereert geleidelijk een beeld, gestuurd door de tekstvector
- Upscaling — het beeld wordt opgeschaald naar de gewenste resolutie
Dominante architecturen:
- Stable Diffusion — open-source latent diffusion model, de standaard voor onderzoekers
- DALL-E 3 — OpenAI's model, geïntegreerd in ChatGPT
- Midjourney — geoptimaliseerd voor artistieke en esthetische kwaliteit
- Adobe Firefly — getraind op gelicenseerde data, gericht op commercieel gebruik
- Flux — nieuwere architectuur met verbeterde prompt-getrouwheid
Prompt engineering voor beelden:
- Specifieke beschrijvingen leveren betere resultaten
- Stijlaanduidingen ("in de stijl van," "fotorealistisch," "digitale kunst")
- Negatieve prompts (wat je niet wilt zien)
- Aspect ratio en compositie-instructies
Ethische kwesties:
- Auteursrecht op trainingsdata
- Deepfakes en desinformatie
- Impact op creatieve beroepen
Voorbeeld
De prompt "een fotorealistische afbeelding van een futuristische Nederlandse gracht met zelfrijdende boten en neonverlichting, shot at golden hour" genereert in seconden een overtuigende afbeelding die een fotograaf, locatie, modelbouwer en uren post-processing zou kosten.