Wat is een AI Benchmark? | AI Woordenboek

Wat is een Benchmark?

Een benchmark in AI is een gestandaardiseerde test of dataset die wordt gebruikt om de prestaties van modellen te meten, te vergelijken en te rangschikken. Het is het equivalent van een examen voor AI-systemen — een objectieve maatstaf om te beoordelen hoe goed een model een specifieke taak of set taken uitvoert.

Waarom het ertoe doet

Benchmarks zijn de lingua franca van AI-onderzoek. Wanneer OpenAI GPT-4o aankondigt of Google Gemini presenteert, gebruiken ze benchmarkscores om te laten zien hoe goed het model presteert. Benchmarks sturen ook onderzoeksprioriteiten — als een benchmark als "opgelost" wordt beschouwd, verschuift de aandacht naar moeilijkere taken.

Hoe het werkt

Anatomie van een benchmark:

Dataset — een verzameling testvoorbeelden met bekende antwoorden
Metriek — hoe de score wordt berekend (accuracy, F1, BLEU, ELO)
Protocol — regels voor evaluatie (few-shot, zero-shot, met/zonder tools)
Leaderboard — publieke ranglijst van modelprestaties

Belangrijke benchmarks per domein:

Taal & redeneren:

MMLU — 57 onderwerpen, van wiskunde tot rechten (kennistest)
HumanEval / SWE-bench — code genereren en bugs fixen
GSM8K — wiskundeproblemen op basisschoolniveau
GPQA — vragen op PhD-niveau in wetenschap

Veiligheid & afstemming:

TruthfulQA — meet of modellen waarheidsgetrouw antwoorden
BBQ — detecteert sociale biases in modeloutput

Multimodaal:

MMMU — multimodale vragen die beeld + tekst vereisen

Beperkingen van benchmarks:

Datalekkage — benchmarkvragen verschijnen in trainingsdata
Overfitting op benchmarks — modellen geoptimaliseerd voor scores, niet voor echte prestaties
Smalle meting — een hoge score betekent niet dat het model praktisch nuttig is
Veroudering — top-modellen halen nu >90% op benchmarks die ooit als zeer moeilijk golden

Voorbeeld

GPT-4 scoorde 86,4% op MMLU bij lancering — een sprong van 16 procentpunten ten opzichte van GPT-3.5. Dit maakte het verschil direct meetbaar voor onderzoekers, journalisten en ontwikkelaars. Maar de MMLU-score zegt niets over hoe goed GPT-4 een gesprek voert, code debugt, of veilig omgaat met gevoelige onderwerpen.

Gerelateerd

Zie ook: Training vs Inference, Foundation Model, Overfitting & Underfitting, RLHF

Wat is een Benchmark?

Waarom het ertoe doet

Hoe het werkt

Anatomie van een benchmark:

Dataset — een verzameling testvoorbeelden met bekende antwoorden
Metriek — hoe de score wordt berekend (accuracy, F1, BLEU, ELO)
Protocol — regels voor evaluatie (few-shot, zero-shot, met/zonder tools)
Leaderboard — publieke ranglijst van modelprestaties

Belangrijke benchmarks per domein:

Taal & redeneren:

MMLU — 57 onderwerpen, van wiskunde tot rechten (kennistest)
HumanEval / SWE-bench — code genereren en bugs fixen
GSM8K — wiskundeproblemen op basisschoolniveau
GPQA — vragen op PhD-niveau in wetenschap

Veiligheid & afstemming:

TruthfulQA — meet of modellen waarheidsgetrouw antwoorden
BBQ — detecteert sociale biases in modeloutput

Multimodaal:

MMMU — multimodale vragen die beeld + tekst vereisen

Beperkingen van benchmarks:

Datalekkage — benchmarkvragen verschijnen in trainingsdata
Overfitting op benchmarks — modellen geoptimaliseerd voor scores, niet voor echte prestaties
Smalle meting — een hoge score betekent niet dat het model praktisch nuttig is
Veroudering — top-modellen halen nu >90% op benchmarks die ooit als zeer moeilijk golden

Voorbeeld

Gerelateerd

Zie ook: Training vs Inference, Foundation Model, Overfitting & Underfitting, RLHF

Wat is een Benchmark (AI-evaluatie)?

Wat is een Benchmark?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Gerelateerd

Bronnen

Wat is een Benchmark (AI-evaluatie)?

Wat is een Benchmark?

Waarom het ertoe doet

Hoe het werkt

Voorbeeld

Gerelateerd

Bronnen