Wat is Pre-training in AI? | AI Woordenboek

Wat is Pre-training?

Pre-training is de initiële fase van het trainen van een AI-model op een grote, breed samengestelde dataset voordat het wordt aangepast voor specifieke taken. Tijdens pre-training leert het model brede patronen, relaties en representaties uit de data — het bouwt de kennisbasis op waaruit alle latere capaciteiten voortkomen.

Waarom het ertoe doet

Pre-training is de duurste en meest bepalende stap in de ontwikkeling van een AI-model. De kwaliteit, diversiteit en omvang van de pre-trainingsdata bepalen grotendeels wat het model kan. GPT-4 werd getraind op triljoenen tokens tekst — deze investering van tientallen miljoenen euro's aan compute is wat het model zijn brede kennis en redeneervermogens geeft.

Hoe het werkt

Voor taalmodellen (GPT, Claude, LLaMA):

Trainingsdata — boeken, websites, code, wetenschappelijke artikelen, Wikipedia
Taak — voorspel het volgende woord (of gemaskeerde woorden voor BERT-stijl modellen)
Schaal — triljoenen tokens, duizenden GPU's, weken tot maanden training
Resultaat — een model met brede taal- en kenniscapaciteiten

Voor beeldmodellen (Stable Diffusion, DALL-E):

Trainingsdata — miljarden afbeelding-tekstparen van het internet
Taak — leer de relatie tussen tekstbeschrijvingen en visuele patronen

Na pre-training:

Fine-tuning — verder trainen op taakspecifieke data
Instruction tuning — trainen om instructies op te volgen (RLHF)
Prompting — het model aansturen via tekstinstructies

Kosten en schaal: Pre-training van een groot model kost miljoenen euro's aan GPU-uren. Daarom hergebruiken de meeste organisaties bestaande foundation models in plaats van er zelf een te trainen.

Voorbeeld

LLaMA 3 van Meta werd getraind op 15 biljoen tokens tekst — equivalenten van miljoenen boeken en websites. Dit pre-trainingproces duurde weken op duizenden GPU's. Na pre-training kan het model tekst genereren, vragen beantwoorden en code schrijven. Fine-tuning op specifieke instructies maakt het vervolgens bruikbaar als chatassistent.