
Wat is Pre-training?
Pre-training is de initiële fase van het trainen van een AI-model op een grote, breed samengestelde dataset voordat het wordt aangepast voor specifieke taken. Tijdens pre-training leert het model brede patronen, relaties en representaties uit de data — het bouwt de kennisbasis op waaruit alle latere capaciteiten voortkomen.
Waarom het ertoe doet
Pre-training is de duurste en meest bepalende stap in de ontwikkeling van een AI-model. De kwaliteit, diversiteit en omvang van de pre-trainingsdata bepalen grotendeels wat het model kan. GPT-4 werd getraind op triljoenen tokens tekst — deze investering van tientallen miljoenen euro's aan compute is wat het model zijn brede kennis en redeneervermogens geeft.
Hoe het werkt
Voor taalmodellen (GPT, Claude, LLaMA):
- Trainingsdata — boeken, websites, code, wetenschappelijke artikelen, Wikipedia
- Taak — voorspel het volgende woord (of gemaskeerde woorden voor BERT-stijl modellen)
- Schaal — triljoenen tokens, duizenden GPU's, weken tot maanden training
- Resultaat — een model met brede taal- en kenniscapaciteiten
Voor beeldmodellen (Stable Diffusion, DALL-E):
- Trainingsdata — miljarden afbeelding-tekstparen van het internet
- Taak — leer de relatie tussen tekstbeschrijvingen en visuele patronen
Na pre-training:
- Fine-tuning — verder trainen op taakspecifieke data
- Instruction tuning — trainen om instructies op te volgen (RLHF)
- Prompting — het model aansturen via tekstinstructies
Kosten en schaal: Pre-training van een groot model kost miljoenen euro's aan GPU-uren. Daarom hergebruiken de meeste organisaties bestaande foundation models in plaats van er zelf een te trainen.
Voorbeeld
LLaMA 3 van Meta werd getraind op 15 biljoen tokens tekst — equivalenten van miljoenen boeken en websites. Dit pre-trainingproces duurde weken op duizenden GPU's. Na pre-training kan het model tekst genereren, vragen beantwoorden en code schrijven. Fine-tuning op specifieke instructies maakt het vervolgens bruikbaar als chatassistent.