技术博客arXiv cs.CL·2 天前

SPADER：基于分步同伴优势与多样性探索的多答案问答强化学习框架

原标题：SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

速览

大型语言模型常被用作工具增强代理以获取参数知识外的信息，但现有方法多聚焦于单一正确答案任务。针对多答案问答中细粒度信用分配和持续探索对齐的挑战，研究提出SPADER强化学习框架。该框架包含无评论家的分步同伴优势机制及多样性感知探索奖励，实验显示其在多项基准上优于提示工程和强化学习方法。

随着大型语言模型（LLMs）被广泛部署为增强工具的智能体（Tool-augmented Agents），它们获取超出参数化知识范围信息的能力得到了显著提升。尽管近期研究在长视野（Long-horizon）工具使用推理方面取得了进展，但大多数现有方法仍聚焦于具有单一正确答案的任务场景。

然而，现实世界中的许多查询要求发现一组全面的有效答案，这一设定被称为多答案问答（Multi-Answer QA）。与单答案任务不同，多答案问答面临两个核心挑战：

现有的强化学习（RL）方法在处理此类问题时，往往难以平衡探索的广度与深度，或者依赖复杂的批评家模型（Critic models）导致训练不稳定。

为了解决上述挑战，研究人员提出了 SPADER，这是一个专为多答案问答场景设计的、用于长视野工具使用的强化学习框架。SPADER 的核心创新在于其独特的信用分配机制和奖励函数设计。

SPADER 引入了一个无需批评家模型（Critic-free）的步级信用分配机制，称为 SPA。

并行轨迹对齐：SPA 通过将并行生成的搜索轨迹按决策步骤进行对齐，使得模型能够在同一时间步比较不同动作的效果。
同伴回报估计优势：该机制不依赖独立的价值网络来估计优势函数（Advantage Function），而是直接从“同伴”（即同一时间步其他并行轨迹中的动作）的回报中估算优势。这种方法简化了架构，降低了训练复杂度，同时提供了更稳定的梯度信号。

为了鼓励模型发现多样化的答案，特别是那些难以获取的长尾实体，SPADER 设计了一种特殊的奖励函数：

这种机制有效地解决了多答案问答中常见的“早熟收敛”问题，即模型过早地只返回少数几个高频答案而忽略了其他有效答案。

研究团队在四个基准数据集上对 SPADER 进行了评估：QAMPARI、Mintaka、WebQSP 和 QUEST。实验结果表明：

问题定义：SPADER 针对的是**多答案问答（Multi-Answer QA）**场景，旨在从复杂查询中挖掘全面的答案集合，而非单一答案。
核心架构：这是一个基于强化学习的框架，专门优化长视野下的工具使用推理。
技术创新一（SPA）：提出步级同伴优势（Step-wise Peer Advantage），这是一种无批评家模型的机制，通过并行轨迹的对齐和同伴回报比较来实现细粒度的步级信用分配。
技术创新二（奖励函数）：引入多样性感知探索奖励，通过上调罕见实体的权重、下调冗余实体的权重，促进对长尾实体的发现。
性能优势：在 QAMPARI、Mintaka、WebQSP 和 QUEST 数据集上，SPADER 在召回率和 F1 分数上均优于基于提示的方法、结果监督 RL 方法以及步级监督方法。
开源资源：代码和模型权重已公开，便于社区复现和进一步研究。

SPADER 的提出标志着 LLM 智能体在复杂信息检索和推理任务上的重要进步。

突破单答案范式：它证明了强化学习可以有效解决多答案场景下的信用分配难题，为处理更复杂的、非确定性的查询提供了新的思路。
简化 RL 架构：通过消除对批评家模型（Critic）的依赖，SPADER 展示了在长视野任务中，利用并行轨迹进行自我评估的可行性，这有助于降低训练成本并提高稳定性。
促进知识发现的全面性：多样性感知奖励机制鼓励模型探索长尾知识，这对于构建更全面、更公平的知识检索系统具有重要意义，有助于减少算法偏见并提高信息获取的覆盖率。
推动工具使用智能体的发展：随着 LLM 越来越多地作为工具使用智能体部署，SPADER 提供的框架为优化这些智能体的长期规划和探索策略提供了宝贵的参考。