
Wat is het verschil tussen Training en Inference?
Training is het proces waarbij een AI-model leert van data — het aanpassen van miljoenen tot biljoenen parameters om patronen te herkennen. Inference is het inzetten van het getrainde model om voorspellingen te doen op nieuwe data. Training is het "studeren," inference is het "examen doen."
Waarom het ertoe doet
Training en inference hebben radicaal verschillende kosten, hardware-eisen en optimalisatiestrategieën. Training van GPT-4 kostte naar schatting meer dan $100 miljoen. Maar de inferencekosten — het draaien van het model voor miljoenen gebruikers — vormen de lopende operationele kosten. Begrijpen welke fase je optimaliseert bepaalt je technische en budgettaire keuzes.
Hoe het werkt
Training:
- Doel — het model laten leren door parameters aan te passen
- Data — grote trainingsdata (triljoenen tokens voor LLM's)
- Compute — duizenden GPU's, weken tot maanden
- Kosten — eenmalig, maar enorm ($1M–$100M+ voor grote modellen)
- Richting — forward pass + backward pass (backpropagation)
- Uitkomst — een getraind model met bevroren parameters
Inference:
- Doel — voorspellingen maken op nieuwe input
- Data — individuele gebruikersinput
- Compute — één GPU (of zelfs CPU) per verzoek
- Kosten — per verzoek, maar opgeteld significant ($0,01-0,10 per query)
- Richting — alleen forward pass
- Uitkomst — een antwoord, classificatie of gegenereerde content
Optimalisatie per fase:
Training versnellen:
- Gedistribueerde training over meerdere GPU's
- Mixed precision (FP16/BF16)
- Gradient accumulation
Inference versnellen:
- Quantization (INT8, INT4)
- KV-cache (vermijd herberekening)
- Speculative decoding
- Model distillation (kleiner model trainen dat het grote nabootst)
- Batching (meerdere verzoeken tegelijk verwerken)
Voorbeeld
OpenAI trainde GPT-4 gedurende maanden op duizenden GPU's — dit is de trainingsfase. Wanneer jij vervolgens een vraag stelt aan ChatGPT, voert het model inference uit: je tekst gaat door het netwerk (forward pass) en het model genereert een antwoord. De training hoeft maar één keer te gebeuren; inference draait miljoenen keren per dag.