Wat is ITBench-AA?

ITBench-AA (IT Benchmark - Autonomous Agents) is een evaluatiekader dat AI-agents test op complexe, meerstaps Kubernetes-incidentrespons-taken met gebruik van echte productie-infrastructuur—waarbij hun vermogen wordt gemeten om live systeemstoringen te diagnosticeren, troubleshooten en op te lossen.

Waarom het belangrijk is

De meeste AI-benchmarks testen geïsoleerde redeneer- of codeervaardigheden. ITBench-AA evalueert end-to-end operationele betrouwbaarheid in kritieke infrastructuurscenario’s waar fouten echte kosten hebben.

Eerste resultaten (mei 2026) laten zien:

Claude Opus 4.7: 43% incidentoplossingspercentage
GPT-5.5: 38% incidentoplossingspercentage
Open-source modellen: <20% oplossingspercentage

Dit laat zien dat zelfs frontier-modellen moeite hebben met de complexe, ambigue, multidomein-redenering die nodig is voor productie-operations.

Hoe het werkt

1. Realistische incidentscenario’s

ITBench-AA presenteert agents realistische faalmodi:

Applicatiecrashes ("Pod die herhaaldelijk opnieuw start met OOMKilled-status")
Netwerkproblemen ("Service A kan Service B niet bereiken over namespaces heen")
Resource-uitputting ("Node ervaart disk pressure en verwijdert pods")
Configuratiefouten ("Deployment-manifest bevat een onjuiste environment variable")

2. Evaluatiecriteria

Succes vereist:

Juiste diagnose (achterhaal de kernoorzaak, niet alleen de symptomen)
Minimale schade (raak geen andere services tijdens het onderzoek)
Volledige oplossing (systeem keert terug naar een gezonde staat)
Passend gebruik van tools (kubectl, logs, metrics, config-inspectie)
Tijdsefficiëntie (oplossen binnen de SLA-kaders)

3. Autonome operatie

In tegenstelling tot gesuperviseerde benchmarks moeten agents:

Zelf kiezen welke commando’s ze uitvoeren (geen stap-voor-stap begeleiding)
Ambigue foutmeldingen interpreteren
Bepalen wanneer je moet escaleren versus zelf verder onderzoeken
Valideren dat hun oplossing daadwerkelijk heeft gewerkt

Praktijkvoorbeeld

Scenario: Een kritieke betalingsverwerkingsservice ligt eruit. Gebruikers melden "502 Bad Gateway"-fouten.

Taak van de agent:

Controleer pod-status → ontdekt dat pods draaien maar niet ready zijn
Inspecteer pod-logs → ziet "connection refused"-fouten naar de database
Controleer databaseservice → ontdekt dat deze in een andere namespace staat
Bekijk netwerkpolicies → vindt een policy die cross-namespace-verkeer blokkeert
Identificeert de root cause: recente policy-update blokkeerde legitiem verkeer
Stelt oplossing voor: netwerkpolicy-uitzondering toevoegen voor de betalingsservice
Past fix toe, valideert dat pods ready worden, bevestigt dat 502-fouten zijn gestopt

Typische fouten van frontier-modellen:

Stelt verkeerde diagnose als applicatiebug (negeert netwerklaag)
Verstoort productie door alle pods te herstarten zonder onderzoek
Blijft hangen in analyse-paralyse en komt nooit met een oplossing
Verhelpt het symptoom (herstart pods) maar niet de root cause

Gerelateerde concepten

ITBench-AA bouwt voort op Agent Evaluation, Infrastructure-as-Code en Observability. Het vult JobBench (kenniswerk) aan door te focussen op infrastructuurbetrouwbaarheid en vult SWE-bench (software engineering) aan door te focussen op operations.

Bronnen

Discussies in de onderzoeksgemeenschap (2026-05-25)

Wat is ITBench-AA?

Waarom het belangrijk is

Eerste resultaten (mei 2026) laten zien:

Claude Opus 4.7: 43% incidentoplossingspercentage
GPT-5.5: 38% incidentoplossingspercentage
Open-source modellen: <20% oplossingspercentage

Dit laat zien dat zelfs frontier-modellen moeite hebben met de complexe, ambigue, multidomein-redenering die nodig is voor productie-operations.

Hoe het werkt

1. Realistische incidentscenario’s

ITBench-AA presenteert agents realistische faalmodi:

Applicatiecrashes ("Pod die herhaaldelijk opnieuw start met OOMKilled-status")
Netwerkproblemen ("Service A kan Service B niet bereiken over namespaces heen")
Resource-uitputting ("Node ervaart disk pressure en verwijdert pods")
Configuratiefouten ("Deployment-manifest bevat een onjuiste environment variable")

2. Evaluatiecriteria

Succes vereist:

Juiste diagnose (achterhaal de kernoorzaak, niet alleen de symptomen)
Minimale schade (raak geen andere services tijdens het onderzoek)
Volledige oplossing (systeem keert terug naar een gezonde staat)
Passend gebruik van tools (kubectl, logs, metrics, config-inspectie)
Tijdsefficiëntie (oplossen binnen de SLA-kaders)

3. Autonome operatie

In tegenstelling tot gesuperviseerde benchmarks moeten agents:

Zelf kiezen welke commando’s ze uitvoeren (geen stap-voor-stap begeleiding)
Ambigue foutmeldingen interpreteren
Bepalen wanneer je moet escaleren versus zelf verder onderzoeken
Valideren dat hun oplossing daadwerkelijk heeft gewerkt

Praktijkvoorbeeld

Scenario: Een kritieke betalingsverwerkingsservice ligt eruit. Gebruikers melden "502 Bad Gateway"-fouten.

Taak van de agent:

Controleer pod-status → ontdekt dat pods draaien maar niet ready zijn
Inspecteer pod-logs → ziet "connection refused"-fouten naar de database
Controleer databaseservice → ontdekt dat deze in een andere namespace staat
Bekijk netwerkpolicies → vindt een policy die cross-namespace-verkeer blokkeert
Identificeert de root cause: recente policy-update blokkeerde legitiem verkeer
Stelt oplossing voor: netwerkpolicy-uitzondering toevoegen voor de betalingsservice
Past fix toe, valideert dat pods ready worden, bevestigt dat 502-fouten zijn gestopt

Typische fouten van frontier-modellen:

Stelt verkeerde diagnose als applicatiebug (negeert netwerklaag)
Verstoort productie door alle pods te herstarten zonder onderzoek
Blijft hangen in analyse-paralyse en komt nooit met een oplossing
Verhelpt het symptoom (herstart pods) maar niet de root cause

Gerelateerde concepten

Bronnen

Discussies in de onderzoeksgemeenschap (2026-05-25)

Wat is ITBench-AA?

Wat is ITBench-AA?

Waarom het belangrijk is

Hoe het werkt

1. Realistische incident­scenario’s

2. Evaluatiecriteria

3. Autonome operatie

Praktijkvoorbeeld

Gerelateerde concepten

Bronnen

Bronnen

Wat is ITBench-AA?

Wat is ITBench-AA?

Waarom het belangrijk is

Hoe het werkt

1. Realistische incident­scenario’s

2. Evaluatiecriteria

3. Autonome operatie

Praktijkvoorbeeld

Gerelateerde concepten

Bronnen

Bronnen

1. Realistische incidentscenario’s

1. Realistische incidentscenario’s