Agentic Abstention: Do Agents Know When to Stop Instead of Act?
AI 深度解读
背景
当前,基于大语言模型(LLM)的智能体(Agent)被设计为能够在多轮交互中调用搜索、浏览界面和终端工具来完成用户目标。然而,现实场景中并非所有用户指令都定义明确或在当前环境中可执行。一个可靠的智能体应当能够识别出进一步交互无益于目标达成,并主动停止调用工具。现有研究多关注单轮问答中的“弃权”(abstention)决策,即模型选择不回答问题,但智能体场景下的弃权是一个更复杂的序贯决策问题。
核心内容
本文提出了Agentic Abstention(智能体弃权)问题,定义为:在不确定性下,智能体决定何时应停止行动的问题。与标准LLM弃权(通常评估为单轮的“回答或弃权”决策)不同,智能体弃权是一个序贯决策过程:智能体在每一轮可以选择回答、弃权或收集更多信息,且需要弃权的必要性可能在与环境交互后才变得明显。
作者研究了该问题在网页购物(WebShop)、终端环境和问答(QA)三个场景中的表现,评估了13个LLM智能体系统和2个智能体脚手架(scaffold),任务量超过28,000个。实验发现,主要挑战不仅在于智能体能否弃权,更在于何时弃权。部分智能体在该弃权时从不弃权,而另一些则在多次不必要交互后才弃权。这种差距在那些指令看似可行、直到环境反馈才暴露问题的任务上尤为显著(例如,没有有效结果匹配指令)。
进一步研究发现,模型规模、推理能力和智能体脚手架对弃权行为有不同影响,规模更大或能力更强的模型在及时弃权方面有时表现更差。
最后,作者提出了CONVOLVE,一种用于改善智能体弃权的上下文工程(context engineering)方法。该方法将完整的交互轨迹提炼为可复用的停止规则。在WebShop上,CONVOLVE在不更新模型参数的情况下显著改善了及时弃权,将Llama-3.3-70B的及时召回率从26.7提升至57.4。
关键要点
- 问题定义:Agentic Abstention是智能体在不确定性下决定何时停止行动的序贯决策问题,区别于单轮LLM弃权。
- 实验规模:在网页购物、终端环境和问答三个场景下,评估了13个LLM智能体系统和2个脚手架,覆盖超过28,000个任务。
- 核心发现:主要挑战是“何时弃权”而非“能否弃权”;部分智能体在该弃权时从不弃权,另一些则在多次不必要交互后才弃权。
- 任务特性影响:指令看似可行但环境反馈暴露问题的任务上,弃权时机差距尤为显著。
- 模型与脚手架影响:模型规模、推理能力和脚手架对弃权行为有不同影响,更大或更强的模型在及时弃权上有时表现更差。
- 方法贡献:提出CONVOLVE,一种上下文工程方法,通过提炼交互轨迹为可复用停止规则来改善弃权,无需更新模型参数。
- 效果验证:在WebShop上,CONVOLVE将Llama-3.3-70B的及时召回率从26.7提升至57.4。
意义与影响
本文首次系统定义并研究了智能体场景下的弃权问题,揭示了当前智能体在及时停止方面的显著缺陷。这一研究为智能体评估提供了新维度,即不仅关注任务完成率,还需关注其在不确定环境下的“知止”能力。CONVOLVE方法展示了通过上下文工程而非模型微调来改善智能体行为的潜力,为构建更可靠、更高效的智能体系统提供了实用路径。未来工作可进一步探索弃权决策与智能体效率、用户体验及安全性的关联。
