技术博客arXiv cs.CL·3 小时前

ProvenAI：构建可溯源的多跳问答证据链

原标题：ProvenAI: Provenance-Native Traces of Evidence in Generated Answers

速览

该研究提出ProvenAI框架，将多跳问答的透明度分解为答案正确性、引用保真度和单文档影响力三个独立可测的层级。通过七阶段流水线在HotpotQA基准上评估了7405个验证样本，揭示了“引用-影响力差距”现象。研究结合因果中介分析与数据库溯源理论，为检索增强生成系统的可信度评估提供了新标准。

AI 深度解读

ProvenAI：生成式回答中的溯源原生证据链

背景

检索增强生成（RAG）系统已成为当前大语言模型应用的主流架构。在这些系统中，生成的答案通常伴随着参考文献或引用（Citations），旨在向用户展示答案的来源依据。然而，现有的 RAG 系统存在一个核心痛点：引用并不等于事实上的因果影响。

仅仅在输出中列出引用，并不能证实对应的源文档确实有意义地塑造了最终的输出内容。模型可能只是机械地复制了引用文本，或者答案实际上是由未引用的文档驱动的，而引用文档仅作为“装饰”存在。这种“引用-影响”的脱节使得用户难以真正信任生成的答案，也无法有效评估系统的透明度。

为了解决这一问题，研究人员提出了 ProvenAI 框架。该框架旨在将多跳问答（Multi-hop Question Answering）中的透明度分解为三个可独立测量的层级，从而实现对生成过程更深层、更本质的溯源。

核心内容

ProvenAI 是一个专注于评估生成答案中证据溯源（Provenance）完整性的框架。它通过一个七阶段的流水线，对 HotpotQA 干扰项基准（HotpotQA distractor benchmark）进行了深度评估。

1. 评估框架的三层结构

ProvenAI 将透明度分解为以下三个独立且可测量的层级：

答案正确性（Answer Correctness）：这是最基础的层级，衡量模型生成的答案是否在事实层面上是正确的。
引用保真度（Citation Fidelity）：针对基准测试中的支持性证据，评估引用与源文档之间的对应关系。即：引用的文档是否确实包含了支持答案的关键信息？
单文档影响力（Per-document Influence）：这是 ProvenAI 的核心创新点。通过“留一资源干预”（leave-one-resource-out intervention）方法，评估每个文档对最终答案生成的实际因果影响。即：如果移除某个文档，答案是否会发生变化？

2. 七阶段评估流水线

为了实现对上述三层级的精确测量，ProvenAI 设计了一套包含七个步骤的处理流程：

数据规范化（Data Normalization）：统一数据格式，确保后续处理的一致性。
检索索引（Retrieval Indexing）：构建高效的文档索引，以便快速检索相关片段。
感知引用的答案生成（Citation-aware Answer Generation）：生成带有引用标记的答案。
归属审计（Attribution Auditing）：检查引用是否准确指向了包含关键信息的源文档。
基于消融的影响力估计（Ablation-based Influence Estimation）：通过逐一移除检索到的文档，观察答案的变化，从而量化每个文档的影响力。
批量评估（Batch Evaluation）：对大量样本进行自动化评估。
交互式检查（Interactive Inspection）：提供可视化工具，供研究人员深入分析具体案例。

3. 实验结果与发现

ProvenAI 在一个包含 509,300 个段落的规范语料库中，对 7,405 个验证示例进行了评估。主要结果如下：

答案准确率：53.53%。
平均引用保真度得分：71.55%。

4. “引用-影响力差距”（Citation-Influence Gap）

通过工作示例（Worked Example），研究揭示了一个关键现象：引用-影响力差距。

在某些案例中，审计结果显示引用是“干净”的（即引用文档确实包含相关信息），但在影响力分析中，其中一个被引用的文档仅表现出微弱的影响力，而另外七个未被引用的文档却显著地改变了输出结果。

这表明，传统的引用机制无法反映模型真实的推理路径。模型可能依赖了未引用的信息，或者引用的文档虽然相关，但对最终答案的贡献微乎其微。

5. 理论支撑

ProvenAI 在理论上进行了严谨的推导：

忠实度条件（Faithfulness Condition）：形式化了实现的表面代理（Surface Proxy，即引用）与基于 token 级别的 KL 散度目标（Token-level KL-divergence Target）之间的关系。
因果中介分析（Causal-Mediation Analysis）：将框架建立在因果中介分析的基础上，以量化变量间的因果效应。
数据库溯源理论（Database-Provenance Theory）：借鉴数据库领域的溯源理论，确保数据来源的可追溯性。

关键要点

透明度需分层测量：RAG 系统的透明度不能仅靠“是否有引用”来衡量，必须分解为答案正确性、引用保真度和单文档影响力三个独立层级。
引用不等于因果影响：存在“引用-影响力差距”，即被引用的文档可能对答案生成影响微弱，而未引用的文档可能起决定性作用。
留一法评估影响力：通过“留一资源干预”（逐一移除文档）的方法，可以精确量化每个检索文档对最终答案的实际贡献。
理论结合实践：框架结合了因果中介分析和数据库溯源理论，并通过 KL 散度从理论上证明了表面引用与深层影响力之间的关系。
大规模实证：在 HotpotQA 基准上对 7,405 个样本进行了评估，验证了框架的有效性和发现问题的能力。

意义与影响

ProvenAI 的提出标志着检索增强生成系统评估从“表面合规”向“深层可信”的转变。

提升可信度：通过揭示“引用-影响力差距”，ProvenAI 帮助用户和开发者识别那些看似有引用但实际推理过程不可靠的答案，从而提升系统的可信度。
优化 RAG 架构：为 RAG 系统的优化提供了新的指标。开发者不再仅仅关注引用是否准确，而是关注哪些文档真正驱动了答案生成，从而优化检索策略和模型训练。
推动自动化科学发现：ProvenAI 讨论了其三层测量结构如何与自主科学发现中新兴的密码学溯源架构（Cryptographic Provenance Architectures）相结合。这意味着该方法不仅适用于通用问答，还可能应用于对证据链要求极高的科学发现领域，确保研究结论的可追溯性和不可篡改性。
建立新的评估标准：ProvenAI 确立了检索 grounded QA 中 meaningful transparency（有意义透明度）的新标准：必须存在可追溯的链接，覆盖检索、引用和行为影响三个层面，且这三个层面需独立测量。

总之，ProvenAI 为解决 RAG 系统中的“黑盒”问题提供了系统性的方法论和工具，是迈向可解释、可信赖 AI 的重要一步。

查看原文 →arxiv.org