Wat is Self-Supervised Learning?

Self-supervised learning is een machine learning-paradigma waarbij het model zijn eigen trainingsignalen genereert uit ongelabelde data, zonder menselijke annotatie. Het systeem creëert automatisch taken — zoals het voorspellen van gemaskeerde woorden of het voorspellen van het volgende token — waarmee het rijke representaties leert van de data.

Waarom het ertoe doet

Self-supervised learning is het paradigma dat de foundation model-revolutie mogelijk maakte. GPT leert door het volgende token te voorspellen, BERT door gemaskeerde woorden in te vullen — zonder dat een mens ooit een label hoefde aan te brengen. Dit schaalt naar triljoenen tokens trainingsdata, iets wat met menselijke labeling onmogelijk zou zijn.

Hoe het werkt

Het kernidee:

Neem ongelabelde data (tekst, beelden, audio)
Verberg of maskeer een deel van de data
Train het model om het verborgen deel te voorspellen
De labels komen uit de data zelf — geen menselijke annotatie nodig

Populaire pretext-taken:

Voor taal:

Masked language modeling (BERT) — maskeer 15% van de tokens, voorspel wat er mist
Next token prediction (GPT) — voorspel het volgende woord gegeven alle voorgaande woorden
Denoising (T5) — corrupt de input, reconstrueer het origineel

Voor beelden:

Masked image modeling (MAE) — maskeer patches van een afbeelding, reconstrueer ze
Contrastive learning (CLIP, SimCLR) — leer dat augmentaties van hetzelfde beeld vergelijkbaar zijn

Waarom het zo effectief is:

Onbeperkte trainingsdata beschikbaar (het hele internet)
Het model leert diepe taalkundige en visuele patronen
Schaal = betere prestaties (scaling laws)

De relatie met andere paradigma's:

Supervised learning — labels van mensen → schaalt niet
Unsupervised learning — ontdekt structuur zonder labels
Self-supervised learning — creëert eigen labels uit data → schaalt oneindig

Voorbeeld

GPT-4 werd getraind door triljoenen tokens internettekst te lezen en steeds het volgende woord te voorspellen. Niemand labelde deze data — de volgende woorden in bestaande tekst zijn de labels. Na het zien van biljoenen voorbeelden leerde het model grammatica, feiten, redeneren en zelfs programmeren — alles via self-supervised learning.