技术博客arXiv cs.CL·3 小时前

ISE: 基于执行反馈的多轮OS智能体轨迹合成方法

原标题：ISE: An Execution-Grounded Recipe for Multi-Turn OS-Agent Trajectories

速览

现有数据集缺乏结构化意图与真实执行反馈，研究提出ISE三阶段合成范式，通过角色锁定模拟器和隔离OS环境生成高质量多轮交互轨迹。在Qwen3-8B模型上微调后，ClawEval通过率从19.3%提升至37.7%，性能超越零样本GPT-4o及更大的Qwen3-32B基座模型。

AI 深度解读

ISE：基于执行反馈的多轮操作系统智能体轨迹合成范式解读

背景

训练具备实际能力的操作系统（OS）智能体（OS Agents）面临着巨大的数据瓶颈。现有的公开数据集往往存在显著缺陷：它们要么缺乏结构化的用户意图，要么无法体现多轮任务委派（multi-turn task delegation）的复杂性，更致命的是，它们通常缺乏对工具执行结果的真实 grounding（接地/锚定）。

在真实的操作系统环境中，智能体调用工具（如打开文件、运行脚本、查询系统状态）会产生具体的执行结果，包括成功、报错或需要重试的情况。现有的合成数据往往通过模拟或静态规则生成这些结果，导致智能体在训练中学不到真实的“失败-恢复”（failure-recovery）动态机制。这种数据与真实环境的脱节，严重限制了智能体在复杂、长程任务中的泛化能力和鲁棒性。

核心内容

为了解决上述数据缺失问题，研究团队提出了 ISE（Intent -> Simulate -> Execute，即“意图 -> 模拟 -> 执行”）这一三阶段合成范式。ISE 旨在同时捕获结构化意图、多轮交互以及基于真实执行的工具调用，从而生成高质量的多轮 OS 智能体轨迹数据。

第一阶段：构建结构化意图池（Intent）

这一阶段的核心是生成大量多样化且结构化的用户意图。研究团队采用了一个 4D 框架 来系统化地构建意图，这四个维度分别是：

Persona（角色）：定义用户的身份特征。
Domain（领域）：限定任务所属的应用领域。
Task（任务）：具体的操作目标。
Complexity（复杂度）：任务的难易程度。

通过这一框架，研究团队初步构建了约 50,000 个结构化意图。经过去重处理后，最终保留了 43,956 个唯一意图。为了评估意图的多样性，团队使用了 mpnet-base-v2 模型生成嵌入向量，并计算了 Vendi Score（一种衡量集合多样性的指标）。在余弦核函数且 $q=1$ 的条件下，整个意图池的 Vendi Score 达到了 61.57，证明了数据具有极高的多样性。

第二阶段：多轮用户-智能体交互模拟（Simulate）

在拥有结构化意图后，第二阶段致力于生成多轮对话轨迹。这一阶段的关键创新在于使用了一个 角色锁定（role-locked）的用户模拟器。

执行接地：该模拟器并非凭空生成用户回复，而是将每一轮的用户输入锚定在实际的执行结果上。这意味着用户的反馈是基于智能体上一步操作后的真实系统状态生成的。
轨迹生成：通过这种机制，研究团队生成了 23,132 条完整的交互轨迹。
数据规模：这些轨迹平均包含 8.12 轮用户交互，总计 68.24 轮对话。这种长程、多轮的结构更接近真实场景中用户与 OS 智能体的复杂互动。

第三阶段：真实环境下的工具执行（Execute）

这是 ISE 范式中最具决定性的步骤。不同于以往研究在沙箱中模拟工具响应，ISE 在 实时、隔离的操作系统工作空间 中运行每一个工具调用。

真实动态：通过在实际 OS 环境中执行，数据捕捉到了真实的失败-恢复动态。例如，当工具调用失败时，智能体会观察到真实的错误代码，并据此调整后续策略。
去模拟化：这种方法避免了模拟响应带来的偏差，确保训练数据中的“错误”和“重试”逻辑与真实部署环境完全一致。

实验结果与验证

研究团队使用 ISE 生成的数据（ISETrace）对 Qwen3-8B 模型进行了微调，并在 ClawEval 基准测试的代理工具使用任务上进行了评估。

性能提升：微调后的模型在 pass@1 指标上从 19.3 提升至 37.7，性能几乎翻倍。
对比优势：这一结果不仅优于零样本（zero-shot）的 GPT-4o，甚至超过了体量大四倍的 Qwen3-32B 基础模型。
消融实验：针对第二阶段的消融实验证明，多轮模拟带来了性能提升的大部分贡献，凸显了长程交互训练的重要性。

关键要点

三阶段合成范式：ISE 通过“意图构建 -> 角色锁定模拟 -> 真实环境执行”的流程，解决了 OS 智能体训练数据中意图、多轮交互和真实执行反馈缺失的问题。
高多样性意图库：基于 4D 框架生成的 43,956 个唯一意图，Vendi Score 高达 61.57，确保了训练数据的丰富性和覆盖度。
真实的失败-恢复机制：第三阶段在隔离 OS 中真实执行工具调用，使智能体能够学习到如何处理真实世界中的错误和异常，而非依赖理想的模拟响应。
小模型超越大模型：使用 Qwen3-8B 微调后，在 ClawEval 基准测试中表现优于 GPT-4o（零样本）和 Qwen3-32B（基础模型），证明了高质量数据对模型能力的决定性作用。
开源贡献：研究团队公开了所有源代码和数据集，促进了 OS 智能体研究社区的进步。

意义与影响

ISE 范式的提出标志着 OS 智能体数据合成从“静态规则生成”向“动态执行反馈”的重要转变。

打破数据瓶颈：通过自动化生成具有真实执行反馈的多轮轨迹，ISE 为训练高性能 OS 智能体提供了可扩展的数据解决方案，缓解了高质量标注数据稀缺的问题。
提升鲁棒性：强调“失败-恢复”动态的训练方式，使得智能体在面对真实环境中不可预测的错误时，具备更强的适应能力和自我修正能力。
效率与性能的平衡：研究证明，通过精心设计的数据合成策略，较小的模型（如 8B 参数）可以通过高质量数据达到甚至超越更大规模基础模型的性能。这降低了部署高性能 OS 智能体的硬件门槛，具有显著的工程应用价值。
社区推动：开源代码和数据集将为后续研究者提供基准，推动多轮 OS 智能体交互、工具使用以及长程任务规划等领域的进一步发展。

查看原文 →arxiv.org