
Wat is ITBench-AA?
ITBench-AA (IT Benchmark - Autonomous Agents) is een evaluatiekader dat AI-agents test op complexe, meerstaps Kubernetes-incidentrespons-taken met gebruik van echte productie-infrastructuur—waarbij hun vermogen wordt gemeten om live systeemstoringen te diagnosticeren, troubleshooten en op te lossen.
Waarom het belangrijk is
De meeste AI-benchmarks testen geïsoleerde redeneer- of codeervaardigheden. ITBench-AA evalueert end-to-end operationele betrouwbaarheid in kritieke infrastructuurscenario’s waar fouten echte kosten hebben.
Eerste resultaten (mei 2026) laten zien:
- Claude Opus 4.7: 43% incidentoplossingspercentage
- GPT-5.5: 38% incidentoplossingspercentage
- Open-source modellen: <20% oplossingspercentage
Dit laat zien dat zelfs frontier-modellen moeite hebben met de complexe, ambigue, multidomein-redenering die nodig is voor productie-operations.
Hoe het werkt
1. Realistische incidentscenario’s
ITBench-AA presenteert agents realistische faalmodi:
- Applicatiecrashes ("Pod die herhaaldelijk opnieuw start met OOMKilled-status")
- Netwerkproblemen ("Service A kan Service B niet bereiken over namespaces heen")
- Resource-uitputting ("Node ervaart disk pressure en verwijdert pods")
- Configuratiefouten ("Deployment-manifest bevat een onjuiste environment variable")
2. Evaluatiecriteria
Succes vereist:
- Juiste diagnose (achterhaal de kernoorzaak, niet alleen de symptomen)
- Minimale schade (raak geen andere services tijdens het onderzoek)
- Volledige oplossing (systeem keert terug naar een gezonde staat)
- Passend gebruik van tools (kubectl, logs, metrics, config-inspectie)
- Tijdsefficiëntie (oplossen binnen de SLA-kaders)
3. Autonome operatie
In tegenstelling tot gesuperviseerde benchmarks moeten agents:
- Zelf kiezen welke commando’s ze uitvoeren (geen stap-voor-stap begeleiding)
- Ambigue foutmeldingen interpreteren
- Bepalen wanneer je moet escaleren versus zelf verder onderzoeken
- Valideren dat hun oplossing daadwerkelijk heeft gewerkt
Praktijkvoorbeeld
Scenario: Een kritieke betalingsverwerkingsservice ligt eruit. Gebruikers melden "502 Bad Gateway"-fouten.
Taak van de agent:
- Controleer pod-status → ontdekt dat pods draaien maar niet ready zijn
- Inspecteer pod-logs → ziet "connection refused"-fouten naar de database
- Controleer databaseservice → ontdekt dat deze in een andere namespace staat
- Bekijk netwerkpolicies → vindt een policy die cross-namespace-verkeer blokkeert
- Identificeert de root cause: recente policy-update blokkeerde legitiem verkeer
- Stelt oplossing voor: netwerkpolicy-uitzondering toevoegen voor de betalingsservice
- Past fix toe, valideert dat pods ready worden, bevestigt dat 502-fouten zijn gestopt
Typische fouten van frontier-modellen:
- Stelt verkeerde diagnose als applicatiebug (negeert netwerklaag)
- Verstoort productie door alle pods te herstarten zonder onderzoek
- Blijft hangen in analyse-paralyse en komt nooit met een oplossing
- Verhelpt het symptoom (herstart pods) maar niet de root cause
Gerelateerde concepten
ITBench-AA bouwt voort op Agent Evaluation, Infrastructure-as-Code en Observability. Het vult JobBench (kenniswerk) aan door te focussen op infrastructuurbetrouwbaarheid en vult SWE-bench (software engineering) aan door te focussen op operations.
Bronnen
- Discussies in de onderzoeksgemeenschap (2026-05-25)