
Wat zijn Batch Size en Learning Rate?
Batch size is het aantal trainingsvoorbeelden dat het model tegelijkertijd verwerkt voordat het de modelparameters update. Learning rate is de stapgrootte waarmee parameters worden aangepast bij elke update. Samen vormen ze de twee meest kritieke hyperparameters die de trainingssnelheid, stabiliteit en uiteindelijke prestaties van een model bepalen.
Waarom het ertoe doet
Batch size en learning rate zijn de "knoppen" waarmee ML-engineers de training afstemmen. Een verkeerde combinatie leidt tot een model dat niet convergeert (te hoge learning rate), extreem langzaam traint (te lage learning rate), of suboptimale minima vindt. Het correct instellen van deze hyperparameters kan het verschil maken tussen een model dat faalt en een model dat state-of-the-art presteert.
Hoe het werkt
Batch size:
- Batch = 1 (stochastisch) — update na elk voorbeeld. Zeer ruisig, maar goede generalisatie.
- Batch = hele dataset (volledig) — update na alle voorbeelden. Stabiel maar geheugenintensief.
- Mini-batch (typisch 16-512) — compromis tussen ruis en stabiliteit. De standaard.
Learning rate:
- Te hoog — het model springt over het optimum heen, convergeert niet