Wat zijn Overfitting en Underfitting?

Overfitting en underfitting zijn twee fundamentele faalwijzen in machine learning die beschrijven hoe goed een model generaliseert van trainingsdata naar nieuwe, ongeziene data. Overfitting betekent dat het model de trainingsdata uit het hoofd heeft geleerd inclusief ruis en details, maar faalt op nieuwe data. Underfitting betekent dat het model te simpel is om zelfs de basispatronen in de data te vangen.

Waarom het ertoe doet

Elk ML-project worstelt met de balans tussen overfitting en underfitting — het is het kernprobleem van generalisatie. Een model dat perfect scoort op trainingsdata maar faalt in productie is overfitted en waardeloos. Begrijpen hoe je deze balans bewaakt is de meest fundamentele vaardigheid in machine learning.

Hoe het werkt

Overfitting:

Het model is te complex voor de hoeveelheid data
Lage training loss, hoge validatie loss
Leert ruis en toevalligheden in de trainingsdata
Vergelijkbaar met een student die antwoorden van oude examens uit het hoofd leert maar de stof niet begrijpt

Underfitting:

Het model is te simpel om de patronen te vangen
Hoge training loss EN hoge validatie loss
Mist zelfs de fundamentele relaties in de data
Vergelijkbaar met een student die alleen de hoofdstuktitels leest en het examen probeert

Preventie van overfitting:

Meer data — de krachtigste oplossing
Regularisatie — L1/L2-penalties op grote weights, dropout
Vroeg stoppen — stop training wanneer validatieloss stijgt
Data augmentation — kunstmatig meer trainingsvoorbeelden creëren
Eenvoudiger model — minder parameters

Preventie van underfitting:

Complexer model — meer lagen, meer parameters
Betere features — relevantere input-kenmerken
Langer trainen — meer epochs
Minder regularisatie — als het model te sterk beperkt is

De bias-variance trade-off: Overfitting = hoge variantie (gevoelig voor specifieke trainingsdata). Underfitting = hoge bias (systematisch naast de patronen zitten). Het optimale model balanceert beide.

Voorbeeld

Een model voorspelt woningprijzen. Met een lineair model (underfitting) voorspelt het elke woning op €250.000 — het mist de nuances. Met een extreem complex model (overfitting) voorspelt het de trainingswoningen perfect, maar geeft bizarre resultaten voor nieuwe woningen. Een gebalanceerd model vangt de kernrelaties (locatie, oppervlakte, staat) zonder te memoriseren.