
Wat is Trajectory Refinement?
Trajectory refinement is een techniek om de prestaties van AI-agents te verbeteren door de geplande reeks acties van een agent — zijn traject — te behandelen als een optimaliseerbaar object dat iteratief gecorrigeerd kan worden vóór en tijdens uitvoering, in plaats van eenmalig uitgevoerd te worden zoals gegenereerd.
Waarom het ertoe doet
AI-agents falen regelmatig niet omdat hun model zwak is, maar door een kloof tussen wat ze plannen en wat er feitelijk gebeurt bij uitvoering. Een plan dat in abstractie correct lijkt, valt uiteen wanneer tools onverwachte resultaten teruggeven, omgevingsstatussen afwijken van aannames, of constraints halverwege de reeks worden geschonden.
PIVOT, het toonaangevende trajectory refinement framework, behaalt tot 94% relatieve verbetering in constraint-naleving op DeepPlanning en GAIA-benchmarks terwijl het 3–5× minder tokens gebruikt dan concurrerende verfijningsmethoden — wat het zowel nauwkeuriger als efficiënter maakt.
Hoe het werkt
Een trajectory refinement-cyclus kent vier fases:
- Plan — de agent genereert een initieel meerstapstraject
- Inspect — de agent voert een deel van het traject uit en observeert echte omgevingsresponsen
- Bereken discrepantie — via tekstuele gradiënten (natuurlijke taalomschrijvingen van wat er mis ging en waarom) identificeert de agent waar het plan afweek van uitvoering
- Evolve — de agent genereert een bijgewerkt traject dat die correcties incorporeert, en inspecteert opnieuw
Deze cyclus herhaalt zich totdat het traject een globale constraint-verificatiecontrole doorstaat. Omdat feedback wordt vastgelegd als tekstuele gradiënten in plaats van numerieke verlieswaarden, zijn geen backpropagation of gewichtsupdates vereist.
Praktisch voorbeeld
Een agent die een vergaderruimte moet boeken plant: zoek kalender → controleer ruimtebeschikbaarheid → stuur uitnodiging. Bij inspectie geeft de kalendertool een rechtenfout terug. De tekstuele gradiënt identificeert: "Stap 1 mislukt: kalender-leesrechten niet ingesteld." De agent evolueert een gecorrigeerd traject: vraag kalendermachtiging aan → zoek → controleer beschikbaarheid → stuur uitnodiging. Het verfijnde traject wordt bij de volgende poging succesvol uitgevoerd.
Bron
Zhang, Popa, Xu, Song, Dimitriadis (2026): PIVOT: Bridging Planning and Execution in LLM Agents — arXiv:2605.11225