
Wat zijn Batch Size en Learning Rate?
Batch size is het aantal trainingsvoorbeelden dat het model tegelijkertijd verwerkt voordat het de modelparameters update. Learning rate is de stapgrootte waarmee parameters worden aangepast bij elke update. Samen vormen ze de twee meest kritieke hyperparameters die de trainingssnelheid, stabiliteit en uiteindelijke prestaties van een model bepalen.
Waarom het ertoe doet
Batch size en learning rate zijn de "knoppen" waarmee ML-engineers de training afstemmen. Een verkeerde combinatie leidt tot een model dat niet convergeert (te hoge learning rate), extreem langzaam traint (te lage learning rate), of suboptimale minima vindt. Het correct instellen van deze hyperparameters kan het verschil maken tussen een model dat faalt en een model dat state-of-the-art presteert.
Hoe het werkt
Batch size:
- Batch = 1 (stochastisch) — update na elk voorbeeld. Zeer ruisig, maar goede generalisatie.
- Batch = hele dataset (volledig) — update na alle voorbeelden. Stabiel maar geheugenintensief.
- Mini-batch (typisch 16-512) — compromis tussen ruis en stabiliteit. De standaard.
Learning rate:
- Te hoog — het model springt over het optimum heen, convergeert niet
- Te laag — het model kruipt langzaam naar het optimum, training duurt te lang
- Just right — snel en stabiel naar een goed minimum
De relatie tussen batch size en learning rate:
- Grotere batch → hogere learning rate mogelijk (lineaire schaalregel)
- Kleinere batch → meer ruis → kan betere generalisatie opleveren
- De optimale combinatie hangt af van het model, de data en de hardware
Learning rate schedules:
- Warmup — begin met lage learning rate, verhoog geleidelijk
- Cosine decay — verlaag learning rate geleidelijk volgens een cosinuscurve
- Step decay — verlaag learning rate na vaste intervallen
- Warmup + cosine decay — de standaard voor LLM-training
Praktische vuistregels:
- Begin met batch size die in GPU-geheugen past
- Start met learning rate 3e-4 (een gangbaar startpunt)
- Gebruik gradient accumulation als je batch size te groot is voor het geheugen
Voorbeeld
Bij het trainen van een beeldclassifier: met batch size 32 en learning rate 0,001 convergeert het model na 50 epochs naar 94% accuracy. Met learning rate 0,1 divergeert het (loss schiet omhoog). Met learning rate 0,00001 convergeert het wel, maar pas na 500 epochs. De juiste learning rate maakt het verschil tussen uren en dagen trainen.