Batch Size & Learning Rate Uitgelegd | AI Woordenboek

Wat zijn Batch Size en Learning Rate?

Batch size is het aantal trainingsvoorbeelden dat het model tegelijkertijd verwerkt voordat het de modelparameters update. Learning rate is de stapgrootte waarmee parameters worden aangepast bij elke update. Samen vormen ze de twee meest kritieke hyperparameters die de trainingssnelheid, stabiliteit en uiteindelijke prestaties van een model bepalen.

Waarom het ertoe doet

Batch size en learning rate zijn de "knoppen" waarmee ML-engineers de training afstemmen. Een verkeerde combinatie leidt tot een model dat niet convergeert (te hoge learning rate), extreem langzaam traint (te lage learning rate), of suboptimale minima vindt. Het correct instellen van deze hyperparameters kan het verschil maken tussen een model dat faalt en een model dat state-of-the-art presteert.

Hoe het werkt

Batch size:

Batch = 1 (stochastisch) — update na elk voorbeeld. Zeer ruisig, maar goede generalisatie.
Batch = hele dataset (volledig) — update na alle voorbeelden. Stabiel maar geheugenintensief.
Mini-batch (typisch 16-512) — compromis tussen ruis en stabiliteit. De standaard.

Learning rate:

Te hoog — het model springt over het optimum heen, convergeert niet
Te laag — het model kruipt langzaam naar het optimum, training duurt te lang
Just right — snel en stabiel naar een goed minimum

De relatie tussen batch size en learning rate:

Grotere batch → hogere learning rate mogelijk (lineaire schaalregel)
Kleinere batch → meer ruis → kan betere generalisatie opleveren
De optimale combinatie hangt af van het model, de data en de hardware

Learning rate schedules:

Warmup — begin met lage learning rate, verhoog geleidelijk
Cosine decay — verlaag learning rate geleidelijk volgens een cosinuscurve
Step decay — verlaag learning rate na vaste intervallen
Warmup + cosine decay — de standaard voor LLM-training

Praktische vuistregels:

Begin met batch size die in GPU-geheugen past
Start met learning rate 3e-4 (een gangbaar startpunt)
Gebruik gradient accumulation als je batch size te groot is voor het geheugen

Voorbeeld

Bij het trainen van een beeldclassifier: met batch size 32 en learning rate 0,001 convergeert het model na 50 epochs naar 94% accuracy. Met learning rate 0,1 divergeert het (loss schiet omhoog). Met learning rate 0,00001 convergeert het wel, maar pas na 500 epochs. De juiste learning rate maakt het verschil tussen uren en dagen trainen.

Wat zijn Batch Size en Learning Rate?

Waarom het ertoe doet

Hoe het werkt

Batch size:

Batch = 1 (stochastisch) — update na elk voorbeeld. Zeer ruisig, maar goede generalisatie.
Batch = hele dataset (volledig) — update na alle voorbeelden. Stabiel maar geheugenintensief.
Mini-batch (typisch 16-512) — compromis tussen ruis en stabiliteit. De standaard.

Learning rate:

Te hoog — het model springt over het optimum heen, convergeert niet
Te laag — het model kruipt langzaam naar het optimum, training duurt te lang
Just right — snel en stabiel naar een goed minimum

De relatie tussen batch size en learning rate:

Grotere batch → hogere learning rate mogelijk (lineaire schaalregel)
Kleinere batch → meer ruis → kan betere generalisatie opleveren
De optimale combinatie hangt af van het model, de data en de hardware

Learning rate schedules:

Warmup — begin met lage learning rate, verhoog geleidelijk
Cosine decay — verlaag learning rate geleidelijk volgens een cosinuscurve
Step decay — verlaag learning rate na vaste intervallen
Warmup + cosine decay — de standaard voor LLM-training

Praktische vuistregels:

Begin met batch size die in GPU-geheugen past
Start met learning rate 3e-4 (een gangbaar startpunt)
Gebruik gradient accumulation als je batch size te groot is voor het geheugen

Wat zijn Batch Size en Learning Rate?

Wat zijn Batch Size en Learning Rate?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Bronnen

Wat zijn Batch Size en Learning Rate?

Wat zijn Batch Size en Learning Rate?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Bronnen