← 返回信息流
AI 资讯量子位·4 天前

复旦通义提出CUA训练新范式:解决Agent工具选择难题

原标题:别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

速览

复旦大学与通义实验室联合提出了一种全新的CUA(Computer Use Agent)训练范式。该研究旨在解决当前Agent在复杂任务中无法准确选择和使用工具的核心痛点。这一新范式有望显著提升AI Agent在自动化操作中的决策能力和执行效率。

AI 深度解读

背景

在计算机使用代理(Computer Use Agent, CUA)的发展进程中,传统的方案主要依赖原子化的 GUI 操作(如点击、输入、拖拽、滚动)。这类操作虽然泛化性强,但在处理复杂任务时存在步骤冗长、误差容易累积导致级联失败(cascading errors)的短板。

与此同时,基于工具调用(Tool Calls)或 API 的操作往往更高效、更精确。例如在 LibreOffice 中批量处理表格,GUI 方案可能需要一系列冗长的菜单点击,而工具调用可能只需一个 API。

业界曾认为,将 Agent 同时接入 GUI 操作和工具调用是自然且高效的方案。然而,复旦大学与通义实验室 MobileAgent 团队发现了一个反直觉的现象:直接将工具接入强大的基座模型,不仅没有提升性能,反而导致准确率下降。模型在 GUI 和 Tool 之间缺乏正确的选择能力,出现“该点按钮时去调 API,该调 API 时又死磕菜单”的混乱局面,即所谓的“路径困惑”(Path Confusion)。

为了解决这一混合动作空间下的决策难题,团队提出了 ToolCUA,一种全新的训练范式,旨在让模型学会在 GUI 和 Tool 之间进行动态、最优的路径选择。

核心内容

ToolCUA 的核心目标是解决 optimal GUI-Tool path selection 问题,即让模型在长程任务中动态决定何时使用 GUI 动作、何时调用工具,从而形成更高效、更可靠的执行路径。其技术路线分为两个主要阶段:

1. 数据合成与 Tool-Bootstrapped RFT(第一阶段)

由于高质量的“GUI-Tool 交错轨迹”数据稀缺,团队设计了一套 Interleaved GUI-Tool Trajectory Scaling Pipeline 来合成数据:

  • 轨迹感知的合成工具库构建:利用多模态大语言模型(MLLM)分析现有的 GUI-only 轨迹,从真实操作流程中抽象出可调用的工具(如从 Chrome 设置流程中抽象出 chrome_open_language_settings)。这些工具 grounded 在具体的轨迹行为中,而非凭空生成的 API 模板。
  • 带下一状态锚定的工具轨迹生成:基于合成工具库和原始 GUI 轨迹,生成功能等价的工具-only 轨迹,并通过“下一状态锚定”(next-state grounding)验证工具执行效果是否与原始 GUI 轨迹中的截图变化一致。
  • 交错轨迹生成:随机采样部分工具调用替换回对应的 GUI 子序列,形成多种 GUI 与 Tool 交错的轨迹。这迫使模型学习不同工具可用性下的决策边界,产生关键的切换步骤(critical switching steps)。

基于合成的约 4k 个唯一工具和 180k 步数据,团队执行了 Tool-Bootstrapped GUI RFT

  • 先在全部数据上进行热身监督微调(Warmup SFT),学习多模态工具调用知识。
  • 随后在关键的切换步骤数据上进行单轮强化学习(Single-turn RL),校准模型在局部边界上的选择。

2. Online Agentic RL 与 Tool-Efficient Path Reward(第二阶段)

为了解决真实环境中的轨迹级路径选择问题,团队构建了具备 GUI 和 Tool 的高可用沙箱,并设计了专门的奖励函数 Tool-Efficient Path Reward

  • 工具适当性奖励 (R_tool):针对每个任务标记 t_b(1 表示适合用工具,-1 表示不适合)。该奖励鼓励模型在适合工具的任务中调用工具,在不适合的任务中避免乱用工具,解决“工具使用不足”或“工具过度使用”的问题。
  • 路径效率奖励 (R_length):采用组内相对比较(group-relative comparison)。如果某条成功轨迹的步数少于同组平均步数,给予线性奖励;否则衰减。这鼓励模型探索更短、更高效的路径,即用高层工具替代冗余 GUI 操作。

3. 性能表现

OSWorld-MCP(引入混合 GUI-Tool 动作空间的基准测试)上:

  • ToolCUA-8B 取得了 46.85% 的准确率,相比基线 Qwen3-VL-8B-Instruct (28.23%) 相对提升约 66%。
  • 该成绩超过了 Claude-4-Sonnet (43.54%),逼近 Claude-4.5-Sonnet (48.35%)。
  • 在效率方面,ToolCUA 的平均完成步数(ACS)仅为 14.93 步,为所有对比模型中最低。
  • 在未见过的 Windows 桌面应用评测集 WindowsAgentArena 上,ToolCUA 也达到了 33.8% 的准确率,显示出良好的跨平台泛化能力。

关键要点

  • 混合动作空间的陷阱:实验证明,直接将工具接入强基座模型(如 Qwen3VL 和 Claude 系列)会导致准确率下降。Qwen3VL-8B 几乎不使用工具,而 Qwen3VL-235B 则过度调用工具,两者均因缺乏路径选择能力而表现不佳。
  • 数据合成的创新:通过从现有的 GUI-only 轨迹中抽象工具并生成交错轨迹,解决了高质量混合训练数据稀缺的问题。这种方法让模型看到了“GUI -> Tool”和“Tool -> GUI”的关键切换点。
  • 奖励函数的针对性设计
    • R_tool 专门解决“何时该用工具”的判别问题,区分任务对工具的依赖性。
    • R_length 通过相对步数比较,鼓励模型发现更高效的执行路径,而非单纯追求调用次数。
  • 消融实验结论
    1. 若无交错轨迹数据的预训练,仅靠在线强化学习无法让模型学会稳定的工具调用行为(TIR 长期偏低)。
    2. 若无 R_toolR_length,仅靠任务成功奖励,模型无法学会高效路径,准确率波动大且缺乏稳定性。
    3. 混合 GUI-Tool 训练范式优于纯 GUI 训练,带来了更高的保真度和泛化能力。
  • 实际案例验证
    • 在 LibreOffice 创建透视表任务中,ToolCUA 利用工具直接生成透视表,避免了冗长且易错的 GUI 菜单导航。
    • 在 VS Code 添加文件夹任务中,ToolCUA 先通过工具添加目录,随后识别到弹出的信任确认对话框,智能切换回 GUI 操作点击“信任”,展示了真正的协同能力。

意义与影响

ToolCUA 的提出揭示了下一代 Computer Use Agent 训练的一个关键瓶颈:混合动作空间下的路径选择能力。它证明了拥有工具并不等于能用好工具,模型必须具备在 GUI 和 Tool 之间动态权衡的智慧。

这一研究对 AI Agent 领域有以下深远影响:

  1. 重新定义 CUA 训练范式:传统的“GUI-only”或简单“GUI+Tool”拼接已不足以应对复杂任务。ToolCUA 提出的分阶段训练(数据合成 -> 局部切换校准 -> 全局路径优化)为构建更智能的 Agent 提供了可复用的方法论。
  2. 提升 Agent 的实用性与效率:通过减少冗余的 GUI 操作和避免无效的工具调用,Agent 在执行复杂任务时的速度和成功率显著提升,更接近人类专家的操作效率。
  3. 推动跨平台泛化能力:ToolCUA 在 Linux 上训练,在 Windows 上依然表现优异,说明其学到的是一种可迁移的“混合动作编排”能力,而非死记硬背特定应用的模板,这为 Agent 在真实多变环境中落地奠定了基础。
  4. 开源贡献:代码、模型权重及数据集的全面开源,将加速社区对 GUI-Tool 混合交互机制的研究,推动更大规模、更原生支持混合动作的 CUA 基座模型的发展。
查看原文 →qbitai.com