Wat is Unsupervised Learning?

Unsupervised learning is een machine learning-paradigma waarbij een model patronen en structuur leert uit ongelabelde data — zonder dat verteld wordt wat het "correcte" antwoord is. Het model ontdekt zelf verborgen structuur, groeperingen en relaties in de data.

Waarom het ertoe doet

De overgrote meerderheid van beschikbare data is ongelabeld — er is simpelweg niet genoeg menselijke capaciteit om alles te labelen. Unsupervised learning ontsluit de waarde van deze data. Bovendien is self-supervised learning — een variant — de basis van hoe foundation models zoals GPT en BERT worden getraind.

Hoe het werkt

Kerntaken:

Clustering — datapunten groeperen die op elkaar lijken (klantsegmentatie, documentclustering)
Dimensionaliteitsreductie — complexe data terugbrengen tot minder dimensies (PCA, t-SNE, UMAP)
Anomaliedetectie — afwijkende datapunten vinden (fraude, defecten, inbreuken)
Associatieregels — verbanden ontdekken (klanten die X kopen, kopen ook Y)

Algoritmen:

K-means — partitioneert data in k clusters
DBSCAN — vindt clusters op basis van dichtheid
Autoencoders — neurale netwerken die data comprimeren en reconstrueren
PCA — vindt de belangrijkste richtingen in de data

Self-supervised learning — de brug: Self-supervised learning (een gespecialiseerde vorm) creëert automatisch labels uit de data zelf, zoals het maskeren van woorden en het model laten voorspellen wat er mist. Dit is hoe BERT en GPT worden getraind — technisch niet supervised, maar ook niet puur unsupervised.

Voorbeeld

Een e-commerceplatform past unsupervised learning toe op koopgedrag van miljoenen klanten. Zonder vooraf gedefinieerde categorieën ontdekt het model vijf natuurlijke klantsegmenten: "koopjejagers," "merkliefhebbers," "seizoenkopers," "impulskopers" en "onderzoekers." Het marketingteam kan nu gerichte campagnes maken per segment.

Gerelateerd

Zie ook: Supervised Learning, Self-Supervised Learning, Machine Learning, Latent Space