
Wat is een Benchmark?
Een benchmark in AI is een gestandaardiseerde test of dataset die wordt gebruikt om de prestaties van modellen te meten, te vergelijken en te rangschikken. Het is het equivalent van een examen voor AI-systemen — een objectieve maatstaf om te beoordelen hoe goed een model een specifieke taak of set taken uitvoert.
Waarom het ertoe doet
Benchmarks zijn de lingua franca van AI-onderzoek. Wanneer OpenAI GPT-4o aankondigt of Google Gemini presenteert, gebruiken ze benchmarkscores om te laten zien hoe goed het model presteert. Benchmarks sturen ook onderzoeksprioriteiten — als een benchmark als "opgelost" wordt beschouwd, verschuift de aandacht naar moeilijkere taken.
Hoe het werkt
Anatomie van een benchmark:
- Dataset — een verzameling testvoorbeelden met bekende antwoorden
- Metriek — hoe de score wordt berekend (accuracy, F1, BLEU, ELO)
- Protocol — regels voor evaluatie (few-shot, zero-shot, met/zonder tools)
- Leaderboard — publieke ranglijst van modelprestaties
Belangrijke benchmarks per domein:
Taal & redeneren:
- MMLU — 57 onderwerpen, van wiskunde tot rechten (kennistest)