技术博客arXiv cs.AI·7 天前

EAPO：面向开放域问答策略优化的熵驱动自适应正负样本加权方法

原标题：EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA

速览

针对现有强化学习方法在开放域问答中固定样本权重导致泛化性差的问题，本文提出EAPO方法。该方法基于策略熵动态调整正负样本权重，在熵减阶段降低正样本权重以保留探索能力，在熵增阶段提高权重以增强稳定性。实验表明，该方法在医疗开放域问答数据集中显著优于固定权重基线，有效缓解了熵坍缩问题。

AI 深度解读

EAPO：基于熵驱动的自适应正负样本加权策略，优化开放域问答中的策略优化

背景

大型推理模型（Large Reasoning Models）的训练范式正逐渐从传统的监督微调转向基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards, RLVR）。在这一过程中，模型通过探索不同的响应路径并根据奖励信号调整策略，以获得更优的回答质量。

然而，现有的 RLVR 方法在处理**开放域问答（Open-Ended QA）**任务时存在显著局限。主要问题在于，大多数现有方法对“正样本”（高质量响应）和“负样本”（低质量响应）采用固定的权重比例进行优化。这种静态的加权方式难以适应开放域问答中答案多样性和不确定性的特点，导致模型结论难以泛化，且在探索新策略与保持收敛稳定性之间难以取得平衡。

核心内容

本文系统地研究了在开放域问答的强化学习中，正样本与负样本各自扮演的角色，并据此提出了一种名为 EAPO（Entropy-Driven Adaptive Policy Optimization，基于熵驱动的自适应策略优化）的新方法。

1. 正负样本的角色洞察

研究团队首先提出了一种基于奖励均值（reward-mean-based）的策略来区分正样本和负样本。通过深入分析，他们观察到两者在训练过程中具有截然不同的功能：

负样本（Negative Samples）：主要掌控响应的多样性以及性能的上限。负样本迫使模型避开低质量路径，从而为模型探索更广泛的答案空间提供了动力。
正样本（Positive Samples）：主要决定响应的质量以及收敛的稳定性。正样本引导模型向高质量答案聚集，确保训练过程的稳定收敛。

2. EAPO 方法机制

基于上述观察，EAPO 的核心创新在于自适应地计算正样本的权重系数。该机制不依赖固定值，而是根据当前策略熵（Policy Entropy）与初始策略熵的比率进行动态调整。

熵减阶段（Entropy-decreasing Phase）：在训练初期或模型探索能力较强时，策略熵较高。此时，EAPO 会降低正样本的权重。这一策略旨在保留更多的探索空间（Exploration），防止模型过早收敛到局部最优解，从而利用负样本带来的多样性压力去探索更优的性能上限。
熵增阶段（Entropy-increasing Phase）：当模型进入需要稳定收敛或应对分布偏移的阶段，策略熵可能出现波动或需要重新校准。此时，EAPO 会放大正样本的权重。通过强化高质量响应的引导作用，增强训练的稳定性，从而缓解“熵坍塌”（Entropy Collapse）现象——即策略分布过早退化、丧失多样性的问题。

3. 实验验证

研究团队在两个公开的开放域医学问答数据集上进行了实验。结果表明，EAPO 方法在响应多样性和稳定性两个关键指标上，均一致且显著地优于采用固定权重的基线模型。这证明了动态调整正负样本权重对于提升开放域问答模型性能的有效性。

关键要点

现有痛点：当前基于 RLVR 的大型推理模型在开放域问答中，因使用固定的正负样本权重，导致泛化能力差，难以平衡探索与利用。
角色分离：研究证实负样本主导响应多样性和性能上限，而正样本主导响应质量和收敛稳定性。
动态加权：EAPO 提出了一种基于当前策略熵与初始熵比率的新策略，动态调整正样本权重，而非使用固定值。
两阶段适应：
- 在熵减阶段降低正样本权重，以维持探索能力。
- 在熵增阶段提高正样本权重，以增强稳定性并防止熵坍塌。
性能提升：在开放域医学 QA 数据集上，EAPO 在多样性和稳定性方面均显著优于固定权重基线。

意义与影响

EAPO 的提出为大型推理模型的强化学习训练提供了新的视角。它打破了传统 RLVR 中“正负样本权重固定”的教条，揭示了在开放域任务中，正负样本对模型行为影响的非对称性。

通过引入基于熵的自适应机制，EAPO 有效地解决了强化学习中经典的“探索-利用”困境。特别是在开放域问答这种答案空间巨大且无标准答案的任务中，该方法能够更灵活地平衡模型的创造性（多样性）与准确性（稳定性）。这对于提升医疗、法律等专业领域大模型的回答质量和鲁棒性具有重要的应用价值，也为后续研究如何动态优化强化学习超参数提供了有力的参考范式。

查看原文 →arxiv.org