
Wat is Gradient Descent?
Gradient descent is het optimalisatie-algoritme dat wordt gebruikt om machine learning-modellen te trainen. Het past modelparameters iteratief aan in de richting die de loss function het meest vermindert — vergelijkbaar met het afdalen van een berg door steeds de steilste helling naar beneden te volgen.
Waarom het ertoe doet
Gradient descent is het hart van hoe AI leert. Elk neuraal netwerk — van een simpel classificatiemodel tot GPT-4 — wordt getraind met een variant van gradient descent. Begrijpen hoe het werkt verklaart waarom training duur is, waarom learning rate cruciaal is, en waarom modellen soms niet convergeren.
Hoe het werkt
Het kernidee:
- Bereken de loss (hoe slecht presteert het model?)
- Bereken de gradiënt (in welke richting moet elke parameter veranderen?)
- Pas parameters aan: parameter = parameter - learning_rate × gradiënt
- Herhaal tot de loss minimaal is
De bergmetafoor:
- Het "landschap" is de loss function over alle mogelijke parameterwaarden
- Je staat op een berg en wilt het laagste punt vinden (minimale loss)
- De gradiënt vertelt je de richting van de steilste helling
- De learning rate bepaalt hoe grote stappen je neemt
Varianten: