技术博客arXiv cs.CL·2 小时前

AB-RAG：无需训练的自适应检索增强生成框架

原标题：AB-RAG: Adaptive Budgeted Retrieval-Augmented Generation for Reliable Question Answering

速览

AB-RAG是一种无需训练且与底层模型无关的框架，旨在解决传统RAG系统检索固定数量片段导致的计算浪费问题。该框架通过结合模型置信度、答案与证据的一致性以及检索分数方差来评估答案可靠性，并据此动态调整检索预算。实验表明，该方法能有效区分答案的正确性，并在具备能力的基座上提升准确率，且仅需极低的API成本即可运行。

AI 深度解读

AB-RAG：自适应预算检索增强生成，让大模型“量体裁衣”地回答问题

背景

检索增强生成（Retrieval-Augmented Generation, RAG）已成为将大型语言模型（LLM）锚定在外部知识上的标准范式。然而，当前的 RAG 系统大多存在一个显著的缺陷：无论用户提问的难度如何，系统都会为每个问题检索固定数量的文档片段（passages）。

这种“一刀切”的策略带来了两个主要问题：

资源浪费：对于简单问题，检索大量文档是计算资源的浪费。
能力不足：对于复杂难题，固定数量的文档可能不足以支撑模型生成准确答案，导致信息“饥饿”。

此外，现有的系统通常无法提供关于生成答案可信度的明确信号。随着越来越多基于商业语言模型 API 构建的问答系统涌现，业界亟需一种方法，能够在不重新训练底层模型的前提下，动态决定“检索多少内容”以及“在多大程度上信任自己的答案”。

在此背景下，研究人员提出了 AB-RAG（Adaptive Budgeted Retrieval-Augmented Generation，自适应预算检索增强生成）。这是一个无需训练（training-free）且与模型主干（backbone-agnostic）无关的框架，旨在通过自适应策略优化检索过程并评估答案可靠性。

核心内容

AB-RAG 的核心逻辑在于引入“自适应预算”机制。系统首先基于初始检索生成一个答案，然后通过结合三个关键信号来估算该答案的置信度。根据置信度评估结果，系统决定是停止检索并输出答案，还是在剩余的“检索预算”内继续检索更多证据。

1. 置信度估算的三大信号

AB-RAG 的置信度估算器综合了以下三个维度的信息：

模型自身的确定性（Model's Own Certainty）：
- 对于开放权重模型，可以直接读取 token 概率。
- 对于封闭 API（如商业模型），由于无法直接获取内部概率，该方法通过**自一致性（self-consistency）**来近似这一信号。这意味着该方法具有极高的通用性，无需访问模型内部参数即可工作。
答案与证据的一致性（Agreement between Answer and Evidence）：
- 评估生成的答案是否与检索到的文档片段内容相符。
检索分数的方差（Variance of Retrieval Scores）：
- 分析检索返回的多个文档片段的相关性得分分布。高分方差可能意味着检索结果杂乱或相关性低，从而降低置信度。

2. 自适应检索策略

系统设定了一个固定的检索预算（retrieval budget）。AB-RAG 会根据上述置信度信号动态调整行为：

如果置信度高，则提前停止检索，节省计算成本。
如果置信度低，则利用剩余预算进行多轮检索，获取更多证据以辅助生成更准确的答案。

3. 实验结果与发现

研究者在三种不同的模型主干（backbones）和两个数据集上进行了评估，主要发现包括：

置信度分离能力显著：置信度估计能够可靠地将正确答案与错误答案区分开来。在事实型数据集（factoid dataset）上，高置信度答案的精确匹配率（Exact Match）达到 57.6%，而低置信度答案的精确匹配率为 0%，呈现出清晰的分离界限。
提升准确率：在能力较强的模型主干上，自适应策略确实提高了最终答案的准确率。
诚实的负面发现：研究团队坦诚报告了方法的局限性：
- 某些置信度信号在短答案场景下并不适用。
- 检索信号的方向性（sign）在测量中被发现存在偏差，并经过修正。

4. 低成本验证

值得注意的是，整个研究过程仅在一台消费级笔记本电脑上完成，API 调用花费仅为几美元。这证明了该框架在资源受限环境下的可行性和经济价值。

关键要点

无需训练，即插即用：AB-RAG 是一个训练无关（training-free）的框架，不依赖于对底层大模型的微调，适用于各种模型主干。
动态资源分配：摒弃了固定检索数量的传统做法，根据问题难度动态调整检索深度，既节省算力又提升复杂问题的处理能力。
通用性强的置信度估算：通过结合模型确定性、答案-证据一致性和检索分数方差，构建了一个鲁棒的置信度评估体系。特别是针对封闭 API，利用自一致性近似模型确定性，解决了黑盒模型难以评估置信度的痛点。
明确的性能增益：在事实型问答任务中，高置信度答案的准确率远高于低置信度答案，证明了该机制在筛选可靠答案方面的有效性。
极高的性价比：研究验证了该方法在极低计算成本（单台笔记本、几美元 API 费用）下的有效性，适合大规模商业应用部署。

意义与影响

AB-RAG 的提出对 RAG 系统的工程实践具有深远意义：

优化成本与效率：在商业 API 按 token 或请求计费的背景下，AB-RAG 能够通过识别简单问题并提前终止检索，显著降低运营成本。同时，通过为难题分配更多检索资源，提升了整体系统的回答质量。
增强系统可靠性：提供明确的置信度信号，使得系统能够“自知”其回答的可靠性。这对于医疗、法律等高风险领域至关重要，系统可以在置信度低时主动请求人工介入或提供更谨慎的回答。
推动黑盒模型的可解释性：通过自一致性等方法近似内部概率，AB-RAG 为无法访问内部参数的商业模型提供了一种评估自身不确定性的新途径，促进了黑盒模型在关键任务中的可信应用。
轻量化部署范式：证明复杂的自适应推理逻辑可以在消费级硬件上运行，降低了企业部署高级 RAG 系统的门槛，有助于该技术在小微企业和开发者社区中的普及。

查看原文 →arxiv.org