技术博客arXiv cs.CL·8 天前

RICE-PO：将检索交互转化为推理智能体的信用信号

原标题：RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

速览

针对检索式推理智能体训练中隐性推理步骤难以评估的信用分配难题，研究提出RICE-PO框架。该方法通过选取高不确定性操作作为锚点，利用检索指标评估局部反事实分支，并将信用精准传播至关键推理步骤。实验表明，该方法在BRIGHT和BEIR数据集上显著优于现有基线，证明智能体与环境的交互结构可为训练提供有效监督。

AI 深度解读

RICE-PO：将检索交互转化为推理智能体的信用信号

背景

随着大语言模型（LLM）能力的提升，检索增强生成（RAG）系统正经历从“一次性匹配”向“交互式推理”的范式转变。在这一新范式中，智能体（Agent）不再仅仅是根据初始查询检索一次文档，而是需要迭代地检查证据、重构查询，并再次进行搜索。这种多步交互使得智能体能够更精准地定位所需信息。

然而，训练此类交互式推理智能体面临着一个核心的**信用分配（Credit Assignment）**难题。在强化学习或策略优化过程中，我们需要判断哪些步骤对最终结果做出了贡献。

可执行动作（Executable Actions）：如具体的查询语句或摘要生成，可以直接通过检索器的反馈进行评估。
潜在推理步骤（Latent Reasoning Steps）：如智能体内部的思维链、策略调整或意图理解，这些步骤是不可直接观测的，它们仅通过影响未来的可执行动作来间接发挥作用。

这种不对称性导致基于最终结果（Outcome-level）的奖励分配变得不可靠。因为相同的最终奖励可能被错误地归因于那些并未真正塑造检索成功的推理步骤，从而误导模型的学习方向。

核心内容

为了解决上述信用分配问题，研究人员提出了 RICE-PO（Retrieval Interaction Credit Assignment via Policy Optimization），这是一种无需批评家（Critic-free）的策略优化框架。RICE-PO 的核心思想是将检索交互过程转化为局部的学习信号，从而更精确地指导智能体的训练。

1. 锚点选择：高不确定性动作

RICE-PO 首先识别出那些具有“高不确定性”的可执行动作作为锚点（Anchors）。这些动作通常是智能体在探索过程中感到困惑或需要更多信息的关键节点。通过聚焦于这些高不确定性时刻，框架能够捕捉到推理过程中最具信息量的部分。

2. 局部反事实评估

一旦确定了锚点，RICE-PO 会评估局部的反事实分支（Local Counterfactual Branches）。具体来说，它利用检索指标（Retrieval Metrics）来衡量如果采取不同的动作或推理路径，检索效果会有何不同。这种方法避免了依赖全局最终奖励的模糊性，转而关注局部决策对检索质量的直接影响。

3. 信用传播机制

RICE-PO 设计了一种精细的信用传播机制，仅在满足以下两个条件时，才将信用分配给潜在的推理步骤：

推理对动作的影响力强：即推理步骤确实显著改变了后续的可执行动作。
未来残差效应稳定：即该推理步骤带来的影响在后续步骤中是稳定且可预测的，而非随机波动。

通过这种机制，RICE-PO 能够区分出真正有价值的推理过程，避免将噪声或无关的思维步骤误认为成功因素。

4. 实验验证

在 BRIGHT 和 BEIR 两个基准数据集上，RICE-PO 在相同的检索器设置下，一致优于基于提示（Prompt-based）的智能体以及基于组策略的强化学习（Group-based RL）基线模型。这些结果证明，智能体与环境交互的结构本身就可以为训练基于推理的检索智能体提供有用的监督信号。

关键要点

解决信用分配难题：RICE-PO 旨在解决交互式检索中，潜在推理步骤与可执行动作之间奖励分配不对称的问题。
无批评家优化：作为一种 Critic-free 框架，RICE-PO 不需要额外的价值网络来评估状态价值，降低了训练复杂度和资源消耗。
基于不确定性的锚点：通过选择高不确定性的可执行动作作为学习信号的锚点，聚焦于智能体最需要指导的时刻。
局部反事实评估：利用检索指标评估局部反事实分支，而非依赖全局最终奖励，提高了信号的信噪比。
严格的信用传播条件：仅在“推理-动作影响力强”且“未来残差效应稳定”时，才将信用回溯到推理步骤，确保归因的准确性。
性能提升：在 BRIGHT 和 BEIR 基准测试中，RICE-PO 的表现优于现有的提示工程和强化学习基线方法。

意义与影响

RICE-PO 的提出标志着检索增强智能体训练方法的一个重要进步。其意义主要体现在以下几个方面：

重新定义监督信号来源：传统方法往往依赖最终结果或外部奖励模型，而 RICE-PO 证明了智能体与环境的交互结构本身蕴含丰富的监督信息。这为无需大量人工标注或外部奖励模型的训练提供了新思路。
提升推理智能体的可靠性：通过更精确的信用分配，RICE-PO 能够帮助智能体学会更有效的检索策略，减少因错误归因导致的策略退化，从而提升复杂任务下的表现。
降低训练成本：作为 Critic-free 框架，RICE-PO 避免了训练额外批评家网络的成本，使得在大规模检索场景下训练复杂推理智能体变得更加可行。
推动交互式检索的发展：随着 RAG 系统从简单检索向复杂推理演进，RICE-PO 提供了一套有效的训练框架，有助于解决多步交互中的学习难题，推动下一代智能检索系统的发展。

总之，RICE-PO 不仅是一个具体的算法改进，更是对“如何从交互中学习”这一根本问题的深刻洞察。它为构建更智能、更可靠的检索增强 AI 系统奠定了新的理论基础。

查看原文 →arxiv.org

RICE-PO：将检索交互转化为推理智能体的信用信号

速览

AI 深度解读

RICE-PO：将检索交互转化为推理智能体的信用信号

背景

核心内容

1. 锚点选择：高不确定性动作

2. 局部反事实评估

3. 信用传播机制

4. 实验验证

关键要点

意义与影响

相关推荐