技术博客arXiv cs.CL·1 天前

WRIT：合成读写密集型轨迹提升多轮Agent决策能力

原标题：WRIT: Write-Read Intensive Trajectory Synthesis for Multi-Turn User-Facing Agents

速览

针对多轮用户交互Agent训练，提出WRIT流水线合成读写密集型轨迹。该方法通过增加任务中的决策数量和证据负担，解决单一写入决策难以处理复杂读取证据的问题。实验显示，仅用2K合成数据训练的4B模型在基准测试中超越GPT-5.1 no-think，并显著降低推理开销。

AI 深度解读

WRIT：面向多轮用户交互代理的“写-读”密集型轨迹合成

背景

在多轮用户交互（Multi-turn User-Facing）场景中，AI 代理（Agent）面临着极高的复杂性挑战。代理不仅需要从未完成的请求中推断用户意图，还需要通过对话和工具调用收集缺失的信息，最终执行有效的动作。

在训练这类代理时，**训练轨迹（Training Trajectory）**是核心数据。一条完整的轨迹记录了用户消息、代理响应、工具调用等交互过程的交错序列。目前，合成足够复杂的轨迹已成为训练代理的关键路径。然而，现有的数据合成流水线通常采用一种简单粗暴的策略：将多个用户请求组合成更长的任务，从而增加任务的长度和难度。

这种策略产生的数据主要是**“写密集型”（Write-Intensive）**的，即侧重于训练代理执行连续的动作序列。虽然这能提升代理处理长任务的能力，但它忽略了一个关键问题：在单次“写决策”（即执行某个动作或生成某个响应）之前，代理可能需要从大量的“读工具”（Read Tools，如搜索、数据库查询等）中收集证据，并进行复杂的比较和推理，才能确定正确的参数或行动。仅靠增加任务长度（写密集型数据）无法解决这种高信息负载下的证据 grounding（证据锚定）问题。

核心内容

针对上述局限，研究者提出了 WRIT（Write-Read Intensive Trajectory Synthesis，写-读密集型轨迹合成）。这是一种旨在合成多轮代理训练轨迹的新流水线，其核心创新在于从两个维度来定义和增加任务的复杂性：

任务中的写决策数量：即代理需要执行多少次动作。
单次决策的证据负担（Evidence Burden）：即代理在做出单次写决策前，需要收集和对比多少读工具的证据。

WRIT 流水线的具体工作流程如下：

生成高难度任务：首先，系统生成既包含多次写决策，又对单次决策具有高读工具证据负担的任务。这意味着代理不仅要做很多事，而且每件事都需要深思熟虑，依赖大量外部信息。
多样化用户行为指令：为了反映现实对话中的变化，系统会多样化用户的指令风格和行为模式，避免数据过于单一或机械。
模拟交互生成轨迹：最后，在一个可执行的环境中模拟代理与用户的交互过程，从而生成完整的训练轨迹。

通过这种方式，WRIT 生成的数据不仅训练代理执行更长的任务，更关键的是训练其在高信息负载下进行稳健、基于证据的决策能力。

实验结果显示，仅使用 2K（2000条） 合成的 WRIT 轨迹，对 4B 参数规模的模型进行监督微调（SFT）后，该模型在 $\tau^2$-bench 基准测试上的表现超过了 GPT-5.1 no-think 版本。此外，该方法还显著减少了推理时的 Token 使用量。这一结果证明，紧凑的高质量 SFT 数据可以将部分昂贵的测试时推理（Test-time Reasoning）转化为高效的代理行为。

关键要点

痛点识别：现有的代理训练数据合成主要关注“写密集型”（长序列动作），忽视了“读密集型”（高证据负担）场景，导致代理在面对需要大量信息收集和比较的复杂决策时表现不佳。
双轴复杂度：WRIT 从“写决策数量”和“单次决策的证据负担”两个正交维度来构建任务复杂度，更全面地模拟真实世界的复杂交互。
合成流程：WRIT 流水线包括生成高写/高读任务、多样化用户指令、以及在可执行环境中模拟交互以生成最终轨迹三个步骤。
高效能验证：仅用 2K 条合成数据，4B 模型即可在 $\tau^2$-bench 上超越 GPT-5.1 no-think，并大幅降低推理成本。
范式转变：研究证明了高质量、紧凑的监督微调（SFT）数据可以有效替代部分昂贵的测试时推理（Test-time Reasoning），实现更高效的代理行为。

意义与影响

WRIT 的提出对 AI 代理的训练范式具有重要意义：

提升决策质量：通过引入“读密集型”维度，WRIT 迫使代理在做出行动前必须充分理解和整合外部证据。这有助于解决大模型在复杂任务中“幻觉”或“盲目行动”的问题，提升代理的可靠性和鲁棒性。
降低训练与推理成本：传统上，提升代理性能往往依赖于增加推理步数或进行昂贵的测试时推理（如 ReAct、ToT 等）。WRIT 证明，通过精心设计的高质量合成数据，可以在微调阶段就内化这种复杂的推理能力，从而在推理阶段实现更高效、更低成本的操作。
数据合成的新方向：WRIT 为代理训练数据的合成提供了新的方法论，即不再仅仅追求任务的长度，而是关注单次决策的信息密度和证据依赖程度。这对于构建下一代更智能、更自主的用户交互代理具有指导意义。

查看原文 →arxiv.org