
Wat is Gradient Descent?
Gradient descent is het optimalisatie-algoritme dat wordt gebruikt om machine learning-modellen te trainen. Het past modelparameters iteratief aan in de richting die de loss function het meest vermindert — vergelijkbaar met het afdalen van een berg door steeds de steilste helling naar beneden te volgen.
Waarom het ertoe doet
Gradient descent is het hart van hoe AI leert. Elk neuraal netwerk — van een simpel classificatiemodel tot GPT-4 — wordt getraind met een variant van gradient descent. Begrijpen hoe het werkt verklaart waarom training duur is, waarom learning rate cruciaal is, en waarom modellen soms niet convergeren.
Hoe het werkt
Het kernidee:
- Bereken de loss (hoe slecht presteert het model?)
- Bereken de gradiënt (in welke richting moet elke parameter veranderen?)
- Pas parameters aan: parameter = parameter - learning_rate × gradiënt
- Herhaal tot de loss minimaal is
De bergmetafoor:
- Het "landschap" is de loss function over alle mogelijke parameterwaarden
- Je staat op een berg en wilt het laagste punt vinden (minimale loss)
- De gradiënt vertelt je de richting van de steilste helling
- De learning rate bepaalt hoe grote stappen je neemt
Varianten:
- Stochastic Gradient Descent (SGD) — update parameters na elk enkel voorbeeld (snel maar ruisig)
- Mini-batch SGD — update na een kleine batch voorbeelden (de standaard)
- Adam — adaptieve learning rates per parameter (de standaard voor transformers)
- AdamW — Adam met ontkoppelde weight decay (standaard voor LLM-training)
Uitdagingen:
- Lokale minima — het algoritme kan vastlopen in een suboptimaal dal
- Learning rate — te hoog → divergentie, te laag → extreem langzaam
- Saddle points — vlakke gebieden waar de gradiënt bijna nul is
Voorbeeld
Stel je voor dat je geblinddoekt op een heuvelachtig landschap staat en het laagste punt moet vinden. Je voelt de helling onder je voeten (gradiënt), draait je in de steilste dalingsrichting, en zet een stap (learning rate). Na duizenden stappen bereik je een dal. Gradient descent doet precies dit — maar dan in een ruimte met miljoenen dimensies (parameters).