Wat is Bias in Machine Learning?

Bias in machine learning verwijst naar systematische fouten die ertoe leiden dat een model oneerlijke, onnauwkeurige of discriminerende resultaten produceert. Bias kan voortkomen uit trainingsdata, modelbeslissingen, labeling of maatschappelijke patronen die in de data zijn ingebakken.

Waarom het ertoe doet

AI-systemen nemen steeds vaker beslissingen die levens beïnvloeden — kredietaanvragen, sollicitaties, strafrechtbeslissingen, medische diagnoses. Als deze systemen biased zijn, automatiseren en versterken ze bestaande maatschappelijke ongelijkheden op industriële schaal. Bias herkennen, meten en mitigeren is essentieel voor verantwoorde AI.

Hoe het werkt

Bronnen van bias:

1. Databias:

Selectiebias — de trainingsdata representeert de populatie niet goed (bijv. overwegend lichthuidige gezichten in gezichtsherkenningsdatasets)
Historische bias — de data weerspiegelt historische discriminatie (bijv. vrouwen ondervertegenwoordigd in leidinggevende functies)
Meetbias — de manier van dataverzameling introduceert systematische vertekening

2. Algoritmische bias:

Het model versterkt patronen in de data — ook ongewenste
Optimalisatie voor gemiddelde prestatie kan leiden tot slechte prestaties voor minderheidsgroepen

3. Labelingbias:

Menselijke labelers brengen hun eigen vooroordelen mee
Inconsistente labeling versterkt bias

Detectie en mitigatie:

Fairness-metrieken — equalized odds, demographic parity, calibration
Debiasing-technieken — herbalancering van trainingsdata, adversarial debiasing, fairness constraints
Audits — systematische evaluatie van modelprestaties per demografische groep
Diverse teams — inclusieve ontwikkelteams die blinde vlekken herkennen

Soorten fairness (die soms conflicteren):

Groepsfairness — gelijke prestaties over demografische groepen
Individuele fairness — vergelijkbare individuen krijgen vergelijkbare uitkomsten
Contrafactische fairness — het veranderen van een beschermd kenmerk wijzigt de uitkomst niet

Voorbeeld

Amazon's AI-wervingstool (2018) werd getraind op 10 jaar wervingsdata. Omdat het tech-bedrijf historisch overwegend mannen had aangenomen, leerde het model mannelijke kandidaten te prefereren — het strafte cv's af die "vrouwen" vermeldden of afkomstig waren van vrouwenuniversiteiten. Amazon beëindigde het project.