WRIT:合成读写密集型轨迹提升多轮Agent决策能力
速览
针对多轮用户交互Agent训练,提出WRIT流水线合成读写密集型轨迹。该方法通过增加任务中的决策数量和证据负担,解决单一写入决策难以处理复杂读取证据的问题。实验显示,仅用2K合成数据训练的4B模型在基准测试中超越GPT-5.1 no-think,并显著降低推理开销。
AI 深度解读
WRIT:面向多轮用户交互代理的“写-读”密集型轨迹合成
背景
在多轮用户交互(Multi-turn User-Facing)场景中,AI 代理(Agent)面临着极高的复杂性挑战。代理不仅需要从未完成的请求中推断用户意图,还需要通过对话和工具调用收集缺失的信息,最终执行有效的动作。
在训练这类代理时,**训练轨迹(Training Trajectory)**是核心数据。一条完整的轨迹记录了用户消息、代理响应、工具调用等交互过程的交错序列。目前,合成足够复杂的轨迹已成为训练代理的关键路径。然而,现有的数据合成流水线通常采用一种简单粗暴的策略:将多个用户请求组合成更长的任务,从而增加任务的长度和难度。
这种策略产生的数据主要是**“写密集型”(Write-Intensive)**的,即侧重于训练代理执行连续的动作序列。虽然这能提升代理处理长任务的能力,但它忽略了一个关键问题:在单次“写决策”(即执行某个动作或生成某个响应)之前,代理可能需要从大量的“读工具”(Read Tools,如搜索、数据库查询等)中收集证据,并进行复杂的比较和推理,才能确定正确的参数或行动。仅靠增加任务长度(写密集型数据)无法解决这种高信息负载下的证据 grounding(证据锚定)问题。
核心内容
针对上述局限,研究者提出了 WRIT(Write-Read Intensive Trajectory Synthesis,写-读密集型轨迹合成)。这是一种旨在合成多轮代理训练轨迹的新流水线,其核心创新在于从两个维度来定义和增加任务的复杂性:
- 任务中的写决策数量:即代理需要执行多少次动作。
- 单次决策的证据负担(Evidence Burden):即代理在做出单次写决策前,需要收集和对比多少读工具的证据。
WRIT 流水线的具体工作流程如下:
- 生成高难度任务:首先,系统生成既包含多次写决策,又对单次决策具有高读工具证据负担的任务。这意味着代理不仅要做很多事,而且每件事都需要深思熟虑,依赖大量外部信息。
- 多样化用户行为指令:为了反映现实对话中的变化,系统会多样化用户的指令风格和行为模式,避免数据过于单一或机械。
- 模拟交互生成轨迹:最后,在一个可执行的环境中模拟代理与用户的交互过程,从而生成完整的训练轨迹。
通过这种方式,WRIT 生成的数据不仅训练代理执行更长的任务,更关键的是训练其在高信息负载下进行稳健、基于证据的决策能力。
实验结果显示,仅使用 2K(2000条) 合成的 WRIT 轨迹,对 4B 参数规模的模型进行监督微调(SFT)后,该模型在 $\tau^2$-bench 基准测试上的表现超过了 GPT-5.1 no-think 版本。此外,该方法还显著减少了推理时的 Token 使用量。这一结果证明,紧凑的高质量 SFT 数据可以将部分昂贵的测试时推理(Test-time Reasoning)转化为高效的代理行为。
关键要点
- 痛点识别:现有的代理训练数据合成主要关注“写密集型”(长序列动作),忽视了“读密集型”(高证据负担)场景,导致代理在面对需要大量信息收集和比较的复杂决策时表现不佳。
- 双轴复杂度:WRIT 从“写决策数量”和“单次决策的证据负担”两个正交维度来构建任务复杂度,更全面地模拟真实世界的复杂交互。
- 合成流程:WRIT 流水线包括生成高写/高读任务、多样化用户指令、以及在可执行环境中模拟交互以生成最终轨迹三个步骤。
- 高效能验证:仅用 2K 条合成数据,4B 模型即可在 $\tau^2$-bench 上超越 GPT-5.1 no-think,并大幅降低推理成本。
- 范式转变:研究证明了高质量、紧凑的监督微调(SFT)数据可以有效替代部分昂贵的测试时推理(Test-time Reasoning),实现更高效的代理行为。
意义与影响
WRIT 的提出对 AI 代理的训练范式具有重要意义:
- 提升决策质量:通过引入“读密集型”维度,WRIT 迫使代理在做出行动前必须充分理解和整合外部证据。这有助于解决大模型在复杂任务中“幻觉”或“盲目行动”的问题,提升代理的可靠性和鲁棒性。
- 降低训练与推理成本:传统上,提升代理性能往往依赖于增加推理步数或进行昂贵的测试时推理(如 ReAct、ToT 等)。WRIT 证明,通过精心设计的高质量合成数据,可以在微调阶段就内化这种复杂的推理能力,从而在推理阶段实现更高效、更低成本的操作。
- 数据合成的新方向:WRIT 为代理训练数据的合成提供了新的方法论,即不再仅仅追求任务的长度,而是关注单次决策的信息密度和证据依赖程度。这对于构建下一代更智能、更自主的用户交互代理具有指导意义。
