
AgentDrift is een onderzoeksframework en benchmark van Wu et al. dat meet hoe tool-versterkte LLM-agents stilzwijgend afwijken van veilig gedrag wanneer tooloutput beschadigd is. Met een gepaard-trajectprotocol injecteren onderzoekers systematisch minimale datacorruptie in toolresponsen en meten ze of agents de corruptie detecteren, bevragen of blindelings propageren. De kernbevinding is vernietigend: over 1.563 gecontamineerde beurten stelde geen enkele agent expliciet de betrouwbaarheid van de tooldata ter discussie. Standaard evaluatiemetrieken zoals NDCG toonden hoge utiliteitsbehoud, waarmee ze het feit maskeerden dat agents risico-ongeschikte financiële producten aanbevolen in 65–93% van de gevallen. AgentDrift bewijst dat huidige evaluatieframeworks de verkeerde dingen meten — ze vangen op wat een agent aanbeveelt, maar niet of die aanbevelingen veilig zijn.
Waarom het belangrijk is
AgentDrift legt een blinde vlek bloot in hoe de AI-industrie agentveiligheid evalueert. Huidige benchmarks meten taakvoltooiing, nauwkeurigheid en gebruikerstevredenheid — maar niet of een agent veilig gedrag handhaaft wanneer zijn informatiebronnen gecompromitteerd zijn. Dit gat is kritiek omdat real-world tooloutputs inherent onbetrouwbaar zijn: API's retourneren verouderde data, databases kunnen beschadigd raken, en webscraping pikt gemanipuleerde content op. In domeinen als financieel advies, gezondheidszorg en juridisch advies kan een agent die hoge nauwkeurigheidsscores behaalt terwijl het stilzwijgend beschadigde data propageert, ernstige materiële schade veroorzaken. AgentDrift toont aan dat we veiligheidsspecifieke evaluatiemetrieken nodig hebben die agents testen onder vijandige omstandigheden, niet alleen ideale.
Hoe het werkt
De benchmark gebruikt een gepaard-trajectmethodologie. Voor elk testscenario draaien twee parallelle agentuitvoeringen: één met schone tooloutputs (baseline) en één met minimaal beschadigde outputs (treatment). De corruptie is ontworpen om subtiel te zijn — een risicoscore verschuiven van 'matig' naar 'agressief,' de feestructuur van een financieel product met enkele basispunten wijzigen, of een medische doseringsaanbeveling licht aanpassen. Onderzoekers vergelijken vervolgens de downstream-beslissingen van de agent over beide trajecten. De gepaarde aanpak isoleert het effect van datacorruptie van andere variabelen. Kernmetrieken omvatten driftdetectiepercentage (merkte de agent het op?), driftpropagatiepercentage (gebruikte het de beschadigde data toch?) en veiligheidsschendingspercentage (werd de uiteindelijke aanbeveling onveilig?). De vernietigende bevinding: 0% detectiepercentage over alle geteste modellen.
Voorbeeld
Een financieel adviesagent krijgt de taak beleggingsproducten aan te bevelen voor een conservatieve gepensioneerde. De agent roept een risicobeoordelingstool aan die portfoliodata retourneert, maar een aanvaller heeft de output van de tool beschadigd — de risicoclassificatie van een volatiel cryptocurrencyfonds gewijzigd van 'hoog risico' naar 'matig risico' en de weergegeven volatiliteitsmetrieken verlaagd. De agent, die hoog scoort op standaard nauwkeurigheidsbenchmarks, accepteert de beschadigde risicodata klakkeloos. Het beveelt het cryptocurrencyfonds aan als onderdeel van een 'gebalanceerd' portfolio, zonder te vragen waarom een cryptofonds matige risicometrieken zou hebben. Standaard evaluatiemetrieken tonen dat de agent goed presteerde: het selecteerde een gediversifieerd portfolio, gebruikte correcte financiële terminologie en interacteerde natuurlijk met de gebruiker. Alleen de gepaarde-trajectvergelijking onthult dat deze specifieke aanbevelingsomslag — van obligatiefonds naar cryptofonds — volledig werd veroorzaakt door de beschadigde tooloutput.
Bronnen
- AgentDrift (arXiv)arXiv