PRO-CUA:面向计算机使用代理的过程奖励优化
速览
针对计算机使用代理(CUA)训练成本高及现有方法存在的模仿瓶颈,本文提出PRO-CUA框架。该方法采用迭代式步骤级强化学习,解耦环境交互与策略优化,利用过程奖励模型提供密集反馈。实验表明,该设计能有效分配信用并减少分布偏移,显著提升代理在真实网页任务中的表现。
AI 深度解读
PRO-CUA:面向计算机使用代理的过程奖励优化机制
背景
计算机使用代理(Computer Use Agents, CUAs)在自动化复杂数字工作流方面展现出巨大的潜力。然而,这类代理的训练过程目前仍面临两大核心瓶颈:一是高昂的实时环境交互成本,二是高质量监督信号的匮乏。
现有的基于过滤行为克隆(Filtered Behavior Cloning)的训练管线存在明显的模仿瓶颈。首先,专家演示数据与当前策略之间往往存在分布偏移(Distribution Shift);其次,这类方法缺乏负向学习信号,导致模型难以区分“正确”与“错误”的边界。
另一方面,标准的轨迹级强化学习(Trajectory-level Reinforcement Learning)在处理长视界(Long-horizon)的图形用户界面(GUI)交互时,也面临着严峻挑战。由于奖励信号稀疏,模型难以进行清晰的信用分配(Credit Assignment),即难以判断轨迹中的哪一步导致了最终的成功或失败。此外,长视界交互对基础设施的要求极高,进一步增加了训练成本。
核心内容
针对上述挑战,本文提出了 PRO-CUA(Process-Reward Optimization for Computer Use Agents),这是一种用于训练 CUAs 的过程奖励优化框架。该框架通过迭代式的步级强化学习(Step-level Reinforcement Learning),实现了策略与环境交互的解耦。
PRO-CUA 的核心工作流程如下:
- 在线采集与候选生成:当前策略通过实时滚动(Live Rollouts)收集状态,并为每个状态生成多样化的候选动作。
- 过程奖励模型(PRM)反馈:引入一个过程奖励模型(Process Reward Model, PRM),对每一步动作提供细粒度的反馈信号。
- 基于组相对优势的策略优化:利用 PRM 提供的步级反馈,结合组相对优势(Group-relative Advantages)进行策略优化。
这种设计带来了两个关键优势:
- 密集且灵活的信用分配:PRO-CUA 不依赖“黄金答案”(Golden Answers)或离线专家轨迹,而是通过步级反馈实现密集的奖励信号,从而更准确地评估每一步动作的价值。
- 减少分布偏移:通过在代理自身执行的状态上进行训练,PRO-CUA 有效减少了因依赖专家演示而导致的分布偏移问题。
实验结果表明,在实时网页基准测试中,PRO-CUA 证明了其有效性,并展示了由 PRM 引导的步级训练在可靠性方面的显著优势。
关键要点
- 解耦交互与优化:PRO-CUA 将在线环境交互与策略优化过程解耦,允许策略在收集状态后,通过生成多种候选动作并利用 PRM 进行筛选和优化,而非直接依赖单一的动作执行结果。
- 步级强化学习:不同于传统的轨迹级奖励,PRO-CUA 采用步级(Step-level)奖励机制,解决了长视界 GUI 交互中奖励稀疏和信用分配模糊的问题。
- 过程奖励模型(PRM)的作用:PRM 作为核心组件,提供细粒度的过程反馈,使得模型能够在没有最终结果标签的情况下,对中间步骤进行有效评估。
- 组相对优势优化:通过计算候选动作之间的相对优势进行策略更新,这种方法比绝对奖励更稳定,且能有效利用多样化的候选动作信息。
- 无需专家轨迹:该方法摆脱了对高质量离线专家演示数据的依赖,降低了数据收集和清洗的成本,同时通过在线学习适应自身执行状态,减少了分布偏移。
- 实证有效性:在实时网页基准测试中的实验验证了 PRO-CUA 的性能提升,证实了 PRM 引导的步级训练在复杂数字工作流自动化中的可靠性。
意义与影响
PRO-CUA 的提出为计算机使用代理的训练范式提供了一种新的解决方案。它通过引入过程奖励优化,巧妙地平衡了训练成本与性能提升之间的关系。
首先,该方法降低了对昂贵实时交互和高质量专家数据的依赖,使得训练过程更加经济高效。其次,步级奖励机制和组相对优势优化策略显著改善了长视界任务中的信用分配问题,提高了模型在复杂 GUI 交互中的决策准确性。
从更广泛的角度来看,PRO-CUA 展示了如何将强化学习中的精细反馈机制应用于具身智能和自动化代理领域。随着数字工作流复杂度的增加,这种能够自我修正、细粒度优化的训练框架,有望推动 AI 代理在更广泛场景下的可靠部署和应用。
