
Wat zijn Overfitting en Underfitting?
Overfitting en underfitting zijn twee fundamentele faalwijzen in machine learning die beschrijven hoe goed een model generaliseert van trainingsdata naar nieuwe, ongeziene data. Overfitting betekent dat het model de trainingsdata uit het hoofd heeft geleerd inclusief ruis en details, maar faalt op nieuwe data. Underfitting betekent dat het model te simpel is om zelfs de basispatronen in de data te vangen.
Waarom het ertoe doet
Elk ML-project worstelt met de balans tussen overfitting en underfitting — het is het kernprobleem van generalisatie. Een model dat perfect scoort op trainingsdata maar faalt in productie is overfitted en waardeloos. Begrijpen hoe je deze balans bewaakt is de meest fundamentele vaardigheid in machine learning.
Hoe het werkt
Overfitting:
- Het model is te complex voor de hoeveelheid data
- Lage training loss, hoge validatie loss
- Leert ruis en toevalligheden in de trainingsdata
- Vergelijkbaar met een student die antwoorden van oude examens uit het hoofd leert maar de stof niet begrijpt
Underfitting:
- Het model is te simpel om de patronen te vangen
- Hoge training loss EN hoge validatie loss
- Mist zelfs de fundamentele relaties in de data
- Vergelijkbaar met een student die alleen de hoofdstuktitels leest en het examen probeert