
Wat is Pre-training?
Pre-training is de initiële fase van het trainen van een AI-model op een grote, breed samengestelde dataset voordat het wordt aangepast voor specifieke taken. Tijdens pre-training leert het model brede patronen, relaties en representaties uit de data — het bouwt de kennisbasis op waaruit alle latere capaciteiten voortkomen.
Waarom het ertoe doet
Pre-training is de duurste en meest bepalende stap in de ontwikkeling van een AI-model. De kwaliteit, diversiteit en omvang van de pre-trainingsdata bepalen grotendeels wat het model kan. GPT-4 werd getraind op triljoenen tokens tekst — deze investering van tientallen miljoenen euro's aan compute is wat het model zijn brede kennis en redeneervermogens geeft.
Hoe het werkt
Voor taalmodellen (GPT, Claude, LLaMA):
- Trainingsdata — boeken, websites, code, wetenschappelijke artikelen, Wikipedia
- Taak — voorspel het volgende woord (of gemaskeerde woorden voor BERT-stijl modellen)
- Schaal — triljoenen tokens, duizenden GPU's, weken tot maanden training
- Resultaat — een model met brede taal- en kenniscapaciteiten
Voor beeldmodellen (Stable Diffusion, DALL-E):
- Trainingsdata — miljarden afbeelding-tekstparen van het internet
- — leer de relatie tussen tekstbeschrijvingen en visuele patronen