技术博客arXiv cs.CL·3 小时前

BiPACE：基于双模拟引导与动作反事实估计的LLM智能体策略优化

原标题：BiPACE: Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation for LLM Agents

速览

BiPACE提出了一种无需学习批评家（critic）的逐步组强化学习方法，解决了现有方法在信用分配上的状态-动作不匹配问题。该方法利用双模拟引导的聚类降低单例率，并通过动作条件同伴基线进行反事实估计，从而更准确地分配信用。实验表明，BiPACE在ALFWorld、WebShop等基准上显著优于GiGPO和GRPO等基线方法，且计算开销极低。

AI 深度解读

BiPACE：基于双模拟引导与动作反事实估计的 LLM 智能体策略优化

背景

在训练长视界（long-horizon）的大语言模型（LLM）智能体时，基于组的强化学习（Stepwise group-based RL）因其无需训练学习器（critic）而成为一种极具吸引力的方法。这类方法通过复用多次采样的轨迹（rollouts）来估计局部优势（local advantages），从而优化策略。

然而，这种范式存在一个隐蔽但根本性的弱点：所有的组相对估计器都隐含地假设，它们所比较的步长（steps）在信用分配（credit assignment）上是等价的。现有的智能体变体（如 GiGPO 等）违反了这一假设，导致了“状态-动作信用不匹配”（state-action credit mismatch）的问题。

具体而言，现有的方法在状态侧过于细化，通常使用观测值的哈希（observation-hash）进行分区，这导致了大量只包含单个样本的“单例组”（singleton groups），使得步长级别的信号为零；而在动作侧又过于粗糙，通常使用组内均值作为基线，这混淆了状态价值估计与特定于动作的信用分配。BiPACE 的提出正是为了解决这两侧的问题，旨在不增加 critic、辅助损失或额外轨迹采样的情况下，提供一个即插即用的优势估计器。

核心内容

BiPACE（Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation，基于双模拟引导的动作反事实估计策略优化）是一种改进的优势估计框架。它通过两个核心组件解决了现有方法的缺陷：

1. BiGPO：基于双模拟引导的聚类

BiGPO（Bisimulation-Guided Group Policy Optimization）利用智能体自身的隐藏状态几何结构，通过余弦距离对步长进行聚类。这种方法是一种经验性的、由策略诱导的双模拟（bisimulation）代理指标。

解决状态侧问题：相比于传统的观测值哈希，BiGPO 显著降低了单例组的比率。它不再仅仅依赖表面的观测值身份，而是寻找近似的行为等价性（approximate behavioral equivalence），从而为信用分配提供了更丰富的信号。

2. PACE：动作条件反事实估计

PACE（Policy Advantage via Counterfactual Estimation）在每个行为聚类内部重新中心化回报（returns）。

解决动作侧问题：它使用动作条件的对等基线（action-conditioned peer baselines）。其 Q 风格实例（Q-style instance）以非参数化的方式估计局部的 $Q(s,a) - V(s)$。这意味着它不仅考虑了状态的价值，还考虑了特定动作带来的反事实差异，从而更精确地分配动作信用。

3. 效率与实现

BiPACE 是一个“即插即用”的优势估计器。它不需要引入额外的 critic 网络、辅助损失函数或额外的轨迹采样。其特定的计算开销仅占单个训练步骤墙钟时间（wall time）的 11.3%，具有极高的工程实用性。

关键要点

问题诊断：现有的组相对强化学习方法存在“状态-动作信用不匹配”。状态侧因观测哈希过细导致信号缺失（单例组），动作侧因组内均值过粗导致信用混淆。
方法创新：
- BiGPO：利用 Actor 隐藏状态的余弦距离进行聚类，作为双模拟的代理，减少单例组，捕捉行为等价性。
- PACE：在聚类内部使用动作条件的对等基线，非参数化估计局部 $Q(s,a) - V(s)$，实现动作侧的精确信用分配。
零额外成本：BiPACE 不需要训练 Critic，不需要辅助损失，也不需要额外的 Rollouts，仅增加约 11.3% 的训练时间开销。
性能提升：
- 在 ALFWorld/Qwen2.5-7B 上，BiPACE_Q 将验证集成功率从 GiGPO 的 90.8% 提升至 $97.1\pm0.9%$。在所有三个随机种子中均跨越了 95% 的成功率阈值，而 GiGPO 在相同预算下从未达到。
- 在 Qwen2.5-1.5B 上，BiPACE 达到 $93.5\pm1.2%$ 的成功率，优于 GiGPO 的 86.7%。
- 在 WebShop 和 TextCraft 基准测试中，BiPACE 在两种模型规模下均优于 GRPO 和 GiGPO。
本质改变：BiPACE 将估计器的比较单位从“表面身份”（surface identity）转变为“近似行为等价性 + 动作侧反事实”。

意义与影响

BiPACE 的提出标志着 LLM 智能体训练在信用分配机制上的重要进步。通过解决组相对强化学习中长期被忽视的状态-动作信用不匹配问题，BiPACE 证明了在不引入复杂 Critic 架构的情况下，依然可以实现高精度的策略优化。

其意义主要体现在三个方面：

理论层面：它揭示了观测值哈希在信用分配中的局限性，并验证了基于隐藏状态几何结构的双模拟聚类作为行为等价性代理的有效性。
工程层面：作为一种低开销、即插即用的模块，BiPACE 可以无缝集成到现有的 RLHF 或 RLVR 训练流程中，无需重构整个训练管线。
应用层面：在 ALFWorld、WebShop 等复杂任务中的显著性能提升，表明更精确的信用分配能够直接转化为智能体在长视界任务中的鲁棒性和成功率，为构建更可靠的 LLM 智能体提供了新的技术路径。

查看原文 →arxiv.org