
Wat is Feature Engineering?
Feature engineering is het proces van het selecteren, transformeren en creëren van input-kenmerken (features) die een machine learning-model helpen om betere voorspellingen te doen. Het is het vertalen van ruwe data naar een formaat dat maximaal informatief is voor het model — de kunst van het vinden van het juiste signaal in de ruis.
Waarom het ertoe doet
Vóór deep learning was feature engineering de meest bepalende factor voor modelprestaties — "garbage in, garbage out." Hoewel deep learning automatisch features leert uit ruwe data, blijft feature engineering essentieel voor tabellaire data, tijdreeksen en toepassingen waar domeinkennis het verschil maakt. Goede features compenseren een eenvoudiger model.
Hoe het werkt
Kerntechnieken:
1. Feature-selectie:
- Verwijder irrelevante of redundante features
- Correlatie-analyse: welke features hangen samen met het doel?
- Feature importance: welke features gebruikt het model daadwerkelijk?
2. Feature-transformatie:
- Normalisatie/standaardisering — schaal features naar vergelijkbare bereiken
- Log-transformatie — maak scheve verdelingen symmetrischer
- One-hot encoding — categorische variabelen omzetten naar binaire kolommen
- Binning — continue waarden groeperen in categorieën
3. Feature-creatie:
- Domeinkennis — nieuwe features uit bestaande berekenen (leeftijd uit geboortedatum, BMI uit lengte/gewicht)
- Interactiefeatures — combinaties van bestaande features (prijs × hoeveelheid = omzet)
- Tijdfeatures — dag van de week, maand, seizoen, tijdsverschillen
- Tekst-features — woordtellingen, TF-IDF, sentimentscores
Feature engineering vs deep learning:
- Tabellaire data — handmatige feature engineering wint nog steeds van deep learning
- Beelden/tekst/audio — deep learning leert automatisch features (handmatig is inferieur)
- Hybride — combineer domeinfeatures met deep learning
Voorbeeld
Een taxibedrijf voorspelt de reistijd. Ruwe data: ophaallocatie, afleverlocatie, tijdstip. Feature engineering creëert: afstand (berekend uit coördinaten), tijdslot (ochtendspits, middag, avondspits), dag (werkdag/weekend), weer (regen/droog), route-complexiteit (aantal bochten). Deze engineered features verbeteren de voorspelling aanzienlijk ten opzichte van de ruwe coördinaten alleen.