AI 资讯量子位·4 天前

复旦通义提出CUA训练新范式：解决Agent工具选择难题

原标题：别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

速览

复旦大学与通义实验室联合提出了一种全新的CUA（Computer Use Agent）训练范式。该研究旨在解决当前Agent在复杂任务中无法准确选择和使用工具的核心痛点。这一新范式有望显著提升AI Agent在自动化操作中的决策能力和执行效率。

AI 深度解读

背景

在计算机使用代理（Computer Use Agent, CUA）的发展进程中，传统的方案主要依赖原子化的 GUI 操作（如点击、输入、拖拽、滚动）。这类操作虽然泛化性强，但在处理复杂任务时存在步骤冗长、误差容易累积导致级联失败（cascading errors）的短板。

与此同时，基于工具调用（Tool Calls）或 API 的操作往往更高效、更精确。例如在 LibreOffice 中批量处理表格，GUI 方案可能需要一系列冗长的菜单点击，而工具调用可能只需一个 API。

业界曾认为，将 Agent 同时接入 GUI 操作和工具调用是自然且高效的方案。然而，复旦大学与通义实验室 MobileAgent 团队发现了一个反直觉的现象：直接将工具接入强大的基座模型，不仅没有提升性能，反而导致准确率下降。模型在 GUI 和 Tool 之间缺乏正确的选择能力，出现“该点按钮时去调 API，该调 API 时又死磕菜单”的混乱局面，即所谓的“路径困惑”（Path Confusion）。

为了解决这一混合动作空间下的决策难题，团队提出了 ToolCUA，一种全新的训练范式，旨在让模型学会在 GUI 和 Tool 之间进行动态、最优的路径选择。

核心内容

ToolCUA 的核心目标是解决 optimal GUI-Tool path selection 问题，即让模型在长程任务中动态决定何时使用 GUI 动作、何时调用工具，从而形成更高效、更可靠的执行路径。其技术路线分为两个主要阶段：

1. 数据合成与 Tool-Bootstrapped RFT（第一阶段）

由于高质量的“GUI-Tool 交错轨迹”数据稀缺，团队设计了一套 Interleaved GUI-Tool Trajectory Scaling Pipeline 来合成数据：

轨迹感知的合成工具库构建：利用多模态大语言模型（MLLM）分析现有的 GUI-only 轨迹，从真实操作流程中抽象出可调用的工具（如从 Chrome 设置流程中抽象出 chrome_open_language_settings）。这些工具 grounded 在具体的轨迹行为中，而非凭空生成的 API 模板。
带下一状态锚定的工具轨迹生成：基于合成工具库和原始 GUI 轨迹，生成功能等价的工具-only 轨迹，并通过“下一状态锚定”（next-state grounding）验证工具执行效果是否与原始 GUI 轨迹中的截图变化一致。
交错轨迹生成：随机采样部分工具调用替换回对应的 GUI 子序列，形成多种 GUI 与 Tool 交错的轨迹。这迫使模型学习不同工具可用性下的决策边界，产生关键的切换步骤（critical switching steps）。

基于合成的约 4k 个唯一工具和 180k 步数据，团队执行了 Tool-Bootstrapped GUI RFT：

先在全部数据上进行热身监督微调（Warmup SFT），学习多模态工具调用知识。
随后在关键的切换步骤数据上进行单轮强化学习（Single-turn RL），校准模型在局部边界上的选择。

2. Online Agentic RL 与 Tool-Efficient Path Reward（第二阶段）

为了解决真实环境中的轨迹级路径选择问题，团队构建了具备 GUI 和 Tool 的高可用沙箱，并设计了专门的奖励函数 Tool-Efficient Path Reward：

工具适当性奖励 (R_tool)：针对每个任务标记 t_b（1 表示适合用工具，-1 表示不适合）。该奖励鼓励模型在适合工具的任务中调用工具，在不适合的任务中避免乱用工具，解决“工具使用不足”或“工具过度使用”的问题。
路径效率奖励 (R_length)：采用组内相对比较（group-relative comparison）。如果某条成功轨迹的步数少于同组平均步数，给予线性奖励；否则衰减。这鼓励模型探索更短、更高效的路径，即用高层工具替代冗余 GUI 操作。

3. 性能表现

在 OSWorld-MCP（引入混合 GUI-Tool 动作空间的基准测试）上：

ToolCUA-8B 取得了 46.85% 的准确率，相比基线 Qwen3-VL-8B-Instruct (28.23%) 相对提升约 66%。
该成绩超过了 Claude-4-Sonnet (43.54%)，逼近 Claude-4.5-Sonnet (48.35%)。
在效率方面，ToolCUA 的平均完成步数（ACS）仅为 14.93 步，为所有对比模型中最低。
在未见过的 Windows 桌面应用评测集 WindowsAgentArena 上，ToolCUA 也达到了 33.8% 的准确率，显示出良好的跨平台泛化能力。

关键要点

混合动作空间的陷阱：实验证明，直接将工具接入强基座模型（如 Qwen3VL 和 Claude 系列）会导致准确率下降。Qwen3VL-8B 几乎不使用工具，而 Qwen3VL-235B 则过度调用工具，两者均因缺乏路径选择能力而表现不佳。
数据合成的创新：通过从现有的 GUI-only 轨迹中抽象工具并生成交错轨迹，解决了高质量混合训练数据稀缺的问题。这种方法让模型看到了“GUI -> Tool”和“Tool -> GUI”的关键切换点。
奖励函数的针对性设计：
- R_tool 专门解决“何时该用工具”的判别问题，区分任务对工具的依赖性。
- R_length 通过相对步数比较，鼓励模型发现更高效的执行路径，而非单纯追求调用次数。
消融实验结论：
1. 若无交错轨迹数据的预训练，仅靠在线强化学习无法让模型学会稳定的工具调用行为（TIR 长期偏低）。
2. 若无 R_tool 和 R_length，仅靠任务成功奖励，模型无法学会高效路径，准确率波动大且缺乏稳定性。
3. 混合 GUI-Tool 训练范式优于纯 GUI 训练，带来了更高的保真度和泛化能力。
实际案例验证：
- 在 LibreOffice 创建透视表任务中，ToolCUA 利用工具直接生成透视表，避免了冗长且易错的 GUI 菜单导航。
- 在 VS Code 添加文件夹任务中，ToolCUA 先通过工具添加目录，随后识别到弹出的信任确认对话框，智能切换回 GUI 操作点击“信任”，展示了真正的协同能力。

意义与影响

ToolCUA 的提出揭示了下一代 Computer Use Agent 训练的一个关键瓶颈：混合动作空间下的路径选择能力。它证明了拥有工具并不等于能用好工具，模型必须具备在 GUI 和 Tool 之间动态权衡的智慧。

这一研究对 AI Agent 领域有以下深远影响：

重新定义 CUA 训练范式：传统的“GUI-only”或简单“GUI+Tool”拼接已不足以应对复杂任务。ToolCUA 提出的分阶段训练（数据合成 -> 局部切换校准 -> 全局路径优化）为构建更智能的 Agent 提供了可复用的方法论。
提升 Agent 的实用性与效率：通过减少冗余的 GUI 操作和避免无效的工具调用，Agent 在执行复杂任务时的速度和成功率显著提升，更接近人类专家的操作效率。
推动跨平台泛化能力：ToolCUA 在 Linux 上训练，在 Windows 上依然表现优异，说明其学到的是一种可迁移的“混合动作编排”能力，而非死记硬背特定应用的模板，这为 Agent 在真实多变环境中落地奠定了基础。
开源贡献：代码、模型权重及数据集的全面开源，将加速社区对 GUI-Tool 混合交互机制的研究，推动更大规模、更原生支持混合动作的 CUA 基座模型的发展。

查看原文 →qbitai.com