Wat is Gradient Descent?

Gradient descent is het optimalisatie-algoritme dat wordt gebruikt om machine learning-modellen te trainen. Het past modelparameters iteratief aan in de richting die de loss function het meest vermindert — vergelijkbaar met het afdalen van een berg door steeds de steilste helling naar beneden te volgen.

Waarom het ertoe doet

Gradient descent is het hart van hoe AI leert. Elk neuraal netwerk — van een simpel classificatiemodel tot GPT-4 — wordt getraind met een variant van gradient descent. Begrijpen hoe het werkt verklaart waarom training duur is, waarom learning rate cruciaal is, en waarom modellen soms niet convergeren.

Hoe het werkt

Het kernidee:

Bereken de loss (hoe slecht presteert het model?)
Bereken de gradiënt (in welke richting moet elke parameter veranderen?)
Pas parameters aan: parameter = parameter - learning_rate × gradiënt
Herhaal tot de loss minimaal is

De bergmetafoor:

Het "landschap" is de loss function over alle mogelijke parameterwaarden
Je staat op een berg en wilt het laagste punt vinden (minimale loss)
De gradiënt vertelt je de richting van de steilste helling
De learning rate bepaalt hoe grote stappen je neemt

Varianten:

Stochastic Gradient Descent (SGD) — update parameters na elk enkel voorbeeld (snel maar ruisig)
Mini-batch SGD — update na een kleine batch voorbeelden (de standaard)
Adam — adaptieve learning rates per parameter (de standaard voor transformers)
AdamW — Adam met ontkoppelde weight decay (standaard voor LLM-training)

Uitdagingen:

Lokale minima — het algoritme kan vastlopen in een suboptimaal dal
Learning rate — te hoog → divergentie, te laag → extreem langzaam
Saddle points — vlakke gebieden waar de gradiënt bijna nul is

Voorbeeld

Stel je voor dat je geblinddoekt op een heuvelachtig landschap staat en het laagste punt moet vinden. Je voelt de helling onder je voeten (gradiënt), draait je in de steilste dalingsrichting, en zet een stap (learning rate). Na duizenden stappen bereik je een dal. Gradient descent doet precies dit — maar dan in een ruimte met miljoenen dimensies (parameters).