
Wat is een Benchmark?
Een benchmark in AI is een gestandaardiseerde test of dataset die wordt gebruikt om de prestaties van modellen te meten, te vergelijken en te rangschikken. Het is het equivalent van een examen voor AI-systemen — een objectieve maatstaf om te beoordelen hoe goed een model een specifieke taak of set taken uitvoert.
Waarom het ertoe doet
Benchmarks zijn de lingua franca van AI-onderzoek. Wanneer OpenAI GPT-4o aankondigt of Google Gemini presenteert, gebruiken ze benchmarkscores om te laten zien hoe goed het model presteert. Benchmarks sturen ook onderzoeksprioriteiten — als een benchmark als "opgelost" wordt beschouwd, verschuift de aandacht naar moeilijkere taken.
Hoe het werkt
Anatomie van een benchmark:
- Dataset — een verzameling testvoorbeelden met bekende antwoorden
- Metriek — hoe de score wordt berekend (accuracy, F1, BLEU, ELO)
- Protocol — regels voor evaluatie (few-shot, zero-shot, met/zonder tools)
- Leaderboard — publieke ranglijst van modelprestaties
Belangrijke benchmarks per domein:
Taal & redeneren:
- MMLU — 57 onderwerpen, van wiskunde tot rechten (kennistest)
- HumanEval / SWE-bench — code genereren en bugs fixen
- GSM8K — wiskundeproblemen op basisschoolniveau
- GPQA — vragen op PhD-niveau in wetenschap
Veiligheid & afstemming:
- TruthfulQA — meet of modellen waarheidsgetrouw antwoorden
- BBQ — detecteert sociale biases in modeloutput
Multimodaal:
- MMMU — multimodale vragen die beeld + tekst vereisen
Beperkingen van benchmarks:
- Datalekkage — benchmarkvragen verschijnen in trainingsdata
- Overfitting op benchmarks — modellen geoptimaliseerd voor scores, niet voor echte prestaties
- Smalle meting — een hoge score betekent niet dat het model praktisch nuttig is
- Veroudering — top-modellen halen nu >90% op benchmarks die ooit als zeer moeilijk golden
Voorbeeld
GPT-4 scoorde 86,4% op MMLU bij lancering — een sprong van 16 procentpunten ten opzichte van GPT-3.5. Dit maakte het verschil direct meetbaar voor onderzoekers, journalisten en ontwikkelaars. Maar de MMLU-score zegt niets over hoe goed GPT-4 een gesprek voert, code debugt, of veilig omgaat met gevoelige onderwerpen.
Gerelateerd
Zie ook: Training vs Inference, Foundation Model, Overfitting & Underfitting, RLHF