Wat is de Real-World Agent Reliability Gap?

De Real-World Agent Reliability Gap is de kritieke kloof tussen de AI-agentcapaciteiten die worden getoond op academische benchmarks en hun daadwerkelijke prestaties op complexe, meerstaps enterprise-workflows—waarbij frontier-modellen minder dan 50% succes behalen op taken die mensen routinematig delegeren.

Waarom het ertoe doet

Nieuwe evaluaties die in mei 2026 zijn uitgebracht—ITBench-AA en JobBench—laten een ontnuchterende realiteit zien:

Claude Opus 4.7: 43–48% taakvoltooiing op enterprise-workflows
GPT-5.5: 38–45% taakvoltooiing
Open-source modellen: <25% taakvoltooiing

Dit staat in scherp contrast met:

95%+ nauwkeurigheid op codeerbenchmarks zoals HumanEval
Scores van 90%+ op redeneer-benchmarks zoals MMLU
Frontier-prestaties op schaken, Go en StarCraft

Het verschil laat zien dat geïsoleerde capaciteit ≠ betrouwbare autonome uitvoering in realistische contexten.

Hoe het zich uit

1. Meertraps-incoherentie

Agents zijn sterk in individuele stappen maar slagen er niet in om context vast te houden over ketens van 10+ acties:

Begin taak A correct
Raak halverwege de taak afgeleid door zijdelingse informatie
Vergeet het oorspronkelijke doel rond stap 7
Produceer een plausibel maar onjuist eindresultaat

2. Ambiguïteitsverlamming

Echt werk is ambigu. Agents hebben het moeilijk wanneer:

Instructies meerdere geldige interpretaties hebben
Contextuele aanwijzingen expliciete instructies moeten overrulen
Menselijk oordeel nodig is maar de agent moet beslissen of hij moet doorvragen

Voorbeeld: "Bereid je voor op de Q2-review" kan betekenen:

Maak slides die de Q2-metrics samenvatten
Plan een meeting met stakeholders
Stel een financieel rapport op
Al het bovenstaande

Mensen leiden dit af uit context; agents raden of blokkeren.

3. Kwetsbare toolintegratie

Agents falen wanneer:

API’s rate-limiten of fouten teruggeven
Authenticatietokens midden in een taak verlopen
Externe services onverwachte dataformaten teruggeven
Meerdere tools elkaar tegenspreken

Frontier-modellen missen robuuste foutafhandeling en fallback-strategieën.

4. Overfitting op benchmarks

Modellen optimaliseren voor:

Single-domain taken (puur coderen, puur redeneren)
Schone, goed gespecificeerde problemen
Directe feedbackloops

Echt werk vereist:

Cross-domain synthese (e-mail lezen → agenda checken → reactie opstellen)
Vage, onvolledige specificaties
Vertraagde of onduidelijke succes-signalen

Praktijkvoorbeeld

Taak: "Plan de product-sync van volgende week opnieuw in om rekening te houden met de reis van de CEO."

Wat er zou moeten gebeuren:

Controleer de agenda van de CEO op conflicten
Breng alle deelnemers aan de product-sync in kaart
Vind een nieuw tijdstip dat voor iedereen werkt
Verplaats de meeting en informeer de deelnemers met een toelichting

Wat er in werkelijkheid gebeurt (GPT-5.5):

✅ Controleert agenda CEO
✅ Vindt nieuw tijdstip
❌ Verplaatst meeting maar controleert niet of het nieuwe tijdstip conflicten oplevert voor andere deelnemers
❌ Stuurt een notificatie maar vergeet te vermelden dat de reis van de CEO de reden is
❌ Maakt twee vergaderingen aan omdat het “move” verkeerd interpreteert als “duplicate”

Resultaat: 3/5 stappen correct, maar taak fundamenteel mislukt. Benchmarkscore: 60%. Menselijke bruikbaarheid: 0%.

Waarom dit belangrijk is voor AI-adoptie

De betrouwbaarheidskloof betekent:

Enterprises kunnen agents niet autonoom inzetten (te risicovol)
Human-in-the-loop wordt verplicht (neemt kostenbesparing weg)
AI-hype loopt vooruit op de daadwerkelijke mogelijkheden (Gartner trough of disillusionment)

Totdat modellen de 80%+ betrouwbaarheidsdrempel bij echte workflows blijft agentische AI experimenteel en nog niet klaar voor productie.

Gerelateerde concepten

De Reliability Gap sluit aan op Agent Evaluation, Agentic AI, JobBench, ITBench-AA en AI Observability. Het maakt duidelijk waarom onderzoek naar Agent Drift en Mechanistic Interpretability cruciaal is voor betrouwbare inzet.

Bronnen

arXiv: JobBench - Aligning Agent Work With Human Will (2026-05-25)
Communitydiscussies op r/AI_Agents (2026-05-25)