BV-Blend: Uncertainty-Weighted Historical Baselines for Stable Critic-Free RL with Verifiable Rewards
AI 深度解读
背景
在大模型对齐领域,传统的 PPO 算法依赖价值函数来估计优势函数,这带来了巨大的内存和计算开销。为此,基于可验证奖励的无评论家强化学习(RLVR)应运而生,以 GRPO 为代表。GRPO 通过组内相对奖励统计来估计优势,避免了训练 Critic,显著降低了开销。然而,GRPO 存在固有缺陷:其优势估计极度依赖提示词局部(组内)的奖励统计。在冷启动阶段或使用二元验证器时,同一提示词组内的所有 rollout 可能获得相同奖励,导致组内方差为零,组归一化后优势为零,从而使得学习过程完全停滞。
核心内容
针对 GRPO 在零方差场景下学习停滞的问题,本文提出了 BV-Blend 框架。该框架的核心思想是将提示词局部的在策略统计量与基于语义聚类条件的历史矩相结合,从而
查看原文 →arxiv.org
