技术博客arXiv cs.CL·1 天前

HDPO：提示引导的多样化策略优化提升大模型推理能力

原标题：Hint-Guided Diversified Policy Optimization for LLM Reasoning

速览

针对现有可验证奖励强化学习（RLVR）缺乏多样性引导的问题，研究提出提示引导多样化策略优化（HDPO）。该方法让模型先列出候选方案作为提示，再选择最可靠路径进行推理，遵循“提出-选择-思考”轨迹。实验表明，HDPO有效提升了大模型的推理性能及识别可靠解决方案的能力。

AI 深度解读

Hint-Guided Diversified Policy Optimization for LLM Reasoning 深度解读

背景

近年来，大型语言模型（LLMs）在推理能力方面取得了显著进展，其中基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）被视为一种极具潜力的增强策略。RLVR 的核心逻辑在于：对于具有明确正确答案的问题（如数学题、代码生成），模型可以通过试错学习，根据最终答案的正确与否获得奖励信号，从而优化策略。

然而，现有的 RLVR 机制存在一个明显的局限性：它们主要局限于结果层面的正确性（outcome-level correctness）。这意味着，只要最终答案对了，无论模型推导过程是否合理、是否依赖了某种特定的“捷径”，它都会获得相同的奖励。这种机制缺乏显式的信号来引导模型去探索和思考多样化的解决方案。

相比之下，人类的解决问题过程通常涉及评估多种潜在的方法，并从中选择最可靠的一个进行执行。这是一种复杂的认知过程，而当前的 RLVR 框架并未显式地激励模型模仿这一过程。为了解决这一差距，研究者提出了 Hint-Guided Diversified Policy Optimization (HDPO)。

核心内容

HDPO 的核心理念是模拟人类“提出-选择-思考”（propose-select-think）的认知轨迹。该方法旨在让模型在得出最终结论之前，先生成多个潜在的解题思路，评估其可靠性，再选择最优路径进行深入推理。HDPO 框架主要包含两个关键阶段：

1. 结构化推理的冷启动 (Cold Start for Structured Reasoning)

在正式进行强化学习之前，模型需要建立一种结构化的推理习惯。这一阶段旨在通过监督微调或初步训练，让模型学会如何生成结构化的解题大纲。这一步骤为后续的多样化策略优化奠定了结构基础，确保模型在生成候选方案时具备一定的逻辑框架，而非杂乱无章的随机输出。

2. 提示引导的多样化强化学习 (Hint-Guided Diversified Reinforcement Learning)

这是 HDPO 的核心创新部分，旨在激励模型生成多样化且可靠的解决方案。该过程遵循以下“提出-选择-思考”轨迹：

提出 (Propose)：模型首先列出所有潜在的候选解决方案大纲（Candidate Solution Outlines），这些大纲被视为“提示”（Hints）。这一步鼓励模型发散思维，探索多种可能的解题路径。
选择 (Select)：模型对这些候选方案进行评估，识别并选择其中最可靠的一个。这一步引入了对方案质量的内部评估机制，而不仅仅是看最终结果。
思考 (Think)：基于选定的最可靠方案，模型进行详细的推理和计算，得出最终答案。

通过这种分阶段的策略，HDPO 不仅关注最终答案的正确性，还通过奖励机制鼓励模型生成多样化的候选思路，并提升其识别可靠方案的能力。

关键要点

突破单一结果导向：现有的 RLVR 仅奖励最终答案的正确性，而 HDPO 引入了对解题过程多样性和方案可靠性的显式激励。
模拟人类认知轨迹：HDPO 模仿了人类“先列举多种方法，再择优执行”的问题解决策略，采用了“提出-选择-思考”（propose-select-think）的推理框架。
两阶段优化框架：
1. 冷启动阶段：建立结构化推理能力，确保模型能生成有逻辑的解题大纲。
2. 强化学习阶段：通过提示引导，激励模型生成多样化的候选方案并选择最可靠者进行深入推理。
双重提升效果：实验表明，HDPO 不仅提升了 LLM 的最终推理准确率，还显著增强了候选解决方案的多样性以及模型识别可靠解决方案的能力。

意义与影响

HDPO 的提出为 LLM 推理能力的提升提供了一条新的技术路径。其意义主要体现在以下几个方面：

解决 RLVR 的探索性不足：传统的 RLVR 容易陷入局部最优，即模型可能学会通过某种固定的、非通用的模式来“猜”对答案。HDPO 通过强制模型生成多种候选方案，增加了探索空间，有助于模型学习到更通用、更鲁棒的推理策略。
提升模型的可解释性与可靠性：通过“选择”步骤，模型需要评估不同路径的可靠性。这不仅有助于提高最终答案的准确性，还使得模型的推理过程更加透明和可解释，因为我们可以观察到模型为何选择某条路径而非其他路径。
对齐人类思维模式：HDPO 试图让 AI 的推理过程更接近人类的认知方式，即通过多角度思考和权衡来做出决策。这种对齐可能有助于提升模型在复杂、开放性问题上的表现，而不仅仅是封闭式的数学或逻辑题。
推动推理增强技术的发展：HDPO 证明了在强化学习中引入过程级奖励（process-level rewards）和多样化生成机制的有效性，为后续研究如何更好地引导 LLM 进行复杂推理提供了重要的参考框架。

总之，HDPO 通过引入提示引导的多样化策略优化，有效地弥补了现有 RLVR 框架在引导模型思考多样性和可靠性方面的不足，为提升 LLM 的推理能力提供了新的视角和工具。

查看原文 →arxiv.org