
Wat is Self-Supervised Learning?
Self-supervised learning is een machine learning-paradigma waarbij het model zijn eigen trainingsignalen genereert uit ongelabelde data, zonder menselijke annotatie. Het systeem creëert automatisch taken — zoals het voorspellen van gemaskeerde woorden of het voorspellen van het volgende token — waarmee het rijke representaties leert van de data.
Waarom het ertoe doet
Self-supervised learning is het paradigma dat de foundation model-revolutie mogelijk maakte. GPT leert door het volgende token te voorspellen, BERT door gemaskeerde woorden in te vullen — zonder dat een mens ooit een label hoefde aan te brengen. Dit schaalt naar triljoenen tokens trainingsdata, iets wat met menselijke labeling onmogelijk zou zijn.
Hoe het werkt
Het kernidee:
- Neem ongelabelde data (tekst, beelden, audio)
- Verberg of maskeer een deel van de data
- Train het model om het verborgen deel te voorspellen
- De labels komen uit de data zelf — geen menselijke annotatie nodig
Populaire pretext-taken:
Voor taal:
- Masked language modeling (BERT) — maskeer 15% van de tokens, voorspel wat er mist
- Next token prediction (GPT) — voorspel het volgende woord gegeven alle voorgaande woorden
- (T5) — corrupt de input, reconstrueer het origineel