
Wat is Adversarial Cost to Exploit (ACE)?
Adversarial Cost to Exploit (ACE) is een beveiligingsbenchmark die meet hoeveel een autonome aanvaller moet uitgeven — in tokens omgerekend naar dollars — om een LLM-gebaseerde AI-agent een ongeautoriseerde tool-aanroep te laten uitvoeren. ACE is in april 2026 geïntroduceerd door Fabraix Research en vervangt statische pass/fail-beveiligingstests door een speltheoretisch raamwerk dat de vraag beantwoordt die productieteams werkelijk moeten beantwoorden: is het duurder om deze agent te hacken dan de schade die een aanvaller kan aanrichten?
Waarom het ertoe doet
Traditionele AI-beveiligingsevaluaties testen een vaste set vijandige prompts en rapporteren een slagingspercentage. Het probleem is dat echte aanvallers adaptief zijn — ze observeren hoe een agent reageert, leren van mislukte pogingen en verfijnen hun strategie. Verdedigingen die goed scoren op statische datasets bezwijken vaak onder deze dynamische druk.
Door aanvalskosten in dollars uit te drukken, maakt ACE klassieke beveiligingseconomie toepasbaar op AI. Volgens het Gordon-Loeb-investeringsmodel kun je beoordelen of een systeem incentive-compatible is: als een agent een refund-tool van $25 beheert maar de ACE slechts $1,15 bedraagt, kan de modellaag alleen het systeem niet veilig beschermen.
Hoe het werkt
ACE zet een autonome red-teaming-harnas in — een aanvaller-agent die via een standaard conversatie-interface communiceert met het doelmodel, strategieën plant, uitvoert en aanpast op basis van de reacties. Het totale tokenverbruik tot succesvolle exploitatie wordt omgerekend naar USD tegen de API-prijzen van het aanvallermodel.
De methodologie is elegant simpel: het doelmodel krijgt een persona, een set legitieme tools en één verboden tool die het nooit mag aanroepen. De aanvaller moet die verboden tool-aanroep triggeren. Bij het testen worden alle variabelen constant gehouden behalve het foundation-model, wat een schone per-model beveiligingsmeting oplevert.
Voorbeeld
Onder ACE-testing braken de meeste budgetmodellen bij minder dan $1 aan vijandige compute. Alleen Claude Haiku 4.5 bleek met $10,21 incentive-compatible — alle andere geteste modellen, waaronder GPT-5.4 Nano ($0,41) en Grok 4.1 Fast ($0,23), konden voor minder dan de prijs van een kop koffie worden geëxploiteerd.
Red teaming, prompt injection, jailbreaking, text/action mismatch