
Wat is een Loss Function?
Een loss function (ook wel kostenfunctie of doelfunctie genoemd) is een wiskundige functie die meet hoe ver de voorspellingen van een model afliggen van de daadwerkelijke doelwaarden. Het is het "rapportcijfer" van het model — hoe lager de loss, hoe beter het model presteert. Het hele trainingsproces draait om het minimaliseren van deze functie.
Waarom het ertoe doet
De loss function bepaalt letterlijk wat een model leert. Kies je de verkeerde loss function, dan optimaliseert het model voor het verkeerde doel. Het is een van de belangrijkste ontwerpkeuzes in machine learning — en foute keuzes leiden tot modellen die technisch "goed" trainen maar in de praktijk nutteloos zijn.
Hoe het werkt
Veelgebruikte loss functions:
Voor regressie (continue waarden voorspellen):
- MSE (Mean Squared Error) — gemiddelde van gekwadrateerde fouten. Bestraft grote fouten zwaar.
- MAE (Mean Absolute Error) — gemiddelde van absolute fouten. Robuuster tegen uitschieters.
Voor classificatie (categorieën voorspellen):
- Cross-Entropy Loss — meet het verschil tussen de voorspelde kansverdeling en de werkelijke verdeling. De standaard voor classificatie.
- Binary Cross-Entropy — voor twee klassen (spam/geen spam)
Voor taalmodellen (LLM's):
- Cross-Entropy over tokens — meet hoe goed het model het volgende token voorspelt. Dit is de loss function waarmee GPT, Claude en alle LLM's worden getraind.
De trainingsloop:
- Model maakt een voorspelling
- Loss function berekent de fout
- Backpropagation berekent de gradiënt
- Gradient descent past de weights aan
- Herhaal tot de loss convergeert
Pitfalls:
- Verkeerde loss → model optimaliseert het verkeerde (accuraatheid terwijl je F1-score nodig hebt)
- Loss daalt maar prestaties niet → overfitting op trainingsdata
- Loss convergeert niet → learning rate te hoog of architectuurprobleem
Voorbeeld
Een model voorspelt huisprijzen. De werkelijke prijs is €300.000, het model voorspelt €280.000. MSE berekent: (300.000 - 280.000)² = 400.000.000. Na duizenden voorbeelden past gradient descent de weights aan totdat het gemiddelde van deze gekwadrateerde fouten zo laag mogelijk is.