
Wat is Unsupervised Learning?
Unsupervised learning is een machine learning-paradigma waarbij een model patronen en structuur leert uit ongelabelde data — zonder dat verteld wordt wat het "correcte" antwoord is. Het model ontdekt zelf verborgen structuur, groeperingen en relaties in de data.
Waarom het ertoe doet
De overgrote meerderheid van beschikbare data is ongelabeld — er is simpelweg niet genoeg menselijke capaciteit om alles te labelen. Unsupervised learning ontsluit de waarde van deze data. Bovendien is self-supervised learning — een variant — de basis van hoe foundation models zoals GPT en BERT worden getraind.
Hoe het werkt
Kerntaken:
- Clustering — datapunten groeperen die op elkaar lijken (klantsegmentatie, documentclustering)
- Dimensionaliteitsreductie — complexe data terugbrengen tot minder dimensies (PCA, t-SNE, UMAP)
- Anomaliedetectie — afwijkende datapunten vinden (fraude, defecten, inbreuken)
- Associatieregels — verbanden ontdekken (klanten die X kopen, kopen ook Y)
Algoritmen:
- K-means — partitioneert data in k clusters
- DBSCAN — vindt clusters op basis van dichtheid
- Autoencoders — neurale netwerken die data comprimeren en reconstrueren
- PCA — vindt de belangrijkste richtingen in de data
Self-supervised learning — de brug: Self-supervised learning (een gespecialiseerde vorm) creëert automatisch labels uit de data zelf, zoals het maskeren van woorden en het model laten voorspellen wat er mist. Dit is hoe BERT en GPT worden getraind — technisch niet supervised, maar ook niet puur unsupervised.
Voorbeeld
Een e-commerceplatform past unsupervised learning toe op koopgedrag van miljoenen klanten. Zonder vooraf gedefinieerde categorieën ontdekt het model vijf natuurlijke klantsegmenten: "koopjejagers," "merkliefhebbers," "seizoenkopers," "impulskopers" en "onderzoekers." Het marketingteam kan nu gerichte campagnes maken per segment.
Gerelateerd
Zie ook: Supervised Learning, Self-Supervised Learning, Machine Learning, Latent Space