
Wat is de Real-World Agent Reliability Gap?
De Real-World Agent Reliability Gap is de kritieke kloof tussen de AI-agentcapaciteiten die worden getoond op academische benchmarks en hun daadwerkelijke prestaties op complexe, meerstaps enterprise-workflows—waarbij frontier-modellen minder dan 50% succes behalen op taken die mensen routinematig delegeren.
Waarom het ertoe doet
Nieuwe evaluaties die in mei 2026 zijn uitgebracht—ITBench-AA en JobBench—laten een ontnuchterende realiteit zien:
- Claude Opus 4.7: 43–48% taakvoltooiing op enterprise-workflows
- GPT-5.5: 38–45% taakvoltooiing
- Open-source modellen: <25% taakvoltooiing
Dit staat in scherp contrast met:
- 95%+ nauwkeurigheid op codeerbenchmarks zoals HumanEval
- Scores van 90%+ op redeneer-benchmarks zoals MMLU
- Frontier-prestaties op schaken, Go en StarCraft
Het verschil laat zien dat geïsoleerde capaciteit ≠ betrouwbare autonome uitvoering in realistische contexten.
Hoe het zich uit
1. Meertraps-incoherentie
Agents zijn sterk in individuele stappen maar slagen er niet in om context vast te houden over ketens van 10+ acties:
- Begin taak A correct
- Raak halverwege de taak afgeleid door zijdelingse informatie
- Vergeet het oorspronkelijke doel rond stap 7
- Produceer een plausibel maar onjuist eindresultaat
2. Ambiguïteitsverlamming
Echt werk is ambigu. Agents hebben het moeilijk wanneer:
- Instructies meerdere geldige interpretaties hebben
- Contextuele aanwijzingen expliciete instructies moeten overrulen
- Menselijk oordeel nodig is maar de agent moet beslissen of hij moet doorvragen
Voorbeeld: "Bereid je voor op de Q2-review" kan betekenen:
- Maak slides die de Q2-metrics samenvatten
- Plan een meeting met stakeholders
- Stel een financieel rapport op
- Al het bovenstaande
Mensen leiden dit af uit context; agents raden of blokkeren.
3. Kwetsbare toolintegratie
Agents falen wanneer:
- API’s rate-limiten of fouten teruggeven
- Authenticatietokens midden in een taak verlopen
- Externe services onverwachte dataformaten teruggeven
- Meerdere tools elkaar tegenspreken
Frontier-modellen missen robuuste foutafhandeling en fallback-strategieën.
4. Overfitting op benchmarks
Modellen optimaliseren voor:
- Single-domain taken (puur coderen, puur redeneren)
- Schone, goed gespecificeerde problemen
- Directe feedbackloops
Echt werk vereist:
- Cross-domain synthese (e-mail lezen → agenda checken → reactie opstellen)
- Vage, onvolledige specificaties
- Vertraagde of onduidelijke succes-signalen
Praktijkvoorbeeld
Taak: "Plan de product-sync van volgende week opnieuw in om rekening te houden met de reis van de CEO."
Wat er zou moeten gebeuren:
- Controleer de agenda van de CEO op conflicten
- Breng alle deelnemers aan de product-sync in kaart
- Vind een nieuw tijdstip dat voor iedereen werkt
- Verplaats de meeting en informeer de deelnemers met een toelichting
Wat er in werkelijkheid gebeurt (GPT-5.5):
- ✅ Controleert agenda CEO
- ✅ Vindt nieuw tijdstip
- ❌ Verplaatst meeting maar controleert niet of het nieuwe tijdstip conflicten oplevert voor andere deelnemers
- ❌ Stuurt een notificatie maar vergeet te vermelden dat de reis van de CEO de reden is
- ❌ Maakt twee vergaderingen aan omdat het “move” verkeerd interpreteert als “duplicate”
Resultaat: 3/5 stappen correct, maar taak fundamenteel mislukt. Benchmarkscore: 60%. Menselijke bruikbaarheid: 0%.
Waarom dit belangrijk is voor AI-adoptie
De betrouwbaarheidskloof betekent:
- Enterprises kunnen agents niet autonoom inzetten (te risicovol)
- Human-in-the-loop wordt verplicht (neemt kostenbesparing weg)
- AI-hype loopt vooruit op de daadwerkelijke mogelijkheden (Gartner trough of disillusionment)
Totdat modellen de 80%+ betrouwbaarheidsdrempel bij echte workflows blijft agentische AI experimenteel en nog niet klaar voor productie.
Gerelateerde concepten
De Reliability Gap sluit aan op Agent Evaluation, Agentic AI, JobBench, ITBench-AA en AI Observability. Het maakt duidelijk waarom onderzoek naar Agent Drift en Mechanistic Interpretability cruciaal is voor betrouwbare inzet.
Bronnen
- arXiv: JobBench - Aligning Agent Work With Human Will (2026-05-25)
- Communitydiscussies op r/AI_Agents (2026-05-25)