技术博客arXiv cs.CL·1 小时前

CAMS框架：通过声明锚定实现多文档摘要的可信溯源

原标题：Faithful by Construction: Claim-Anchored Attribution for Multi-Document Summarization

速览

针对端到端大语言模型在多文档摘要中易产生幻觉且溯源粗糙的问题，研究提出CAMS（声明锚定多文档摘要）框架。该框架重构了提取-选择-重写范式，将中间表示作为溯源单元，通过提取带标记的原子声明、聚类冲突并选择支持性声明，实现每句摘要均可追溯至源文本。实验表明，CAMS在保持摘要质量的同时，显著提升了忠实度和引用精度，多源溯源准确率提升约三分之二。

AI 深度解读

Faithful by Construction: Claim-Anchored Attribution for Multi-Document Summarization

背景

端到端的大型语言模型（LLMs）在生成流畅的多文档摘要方面表现出色，但它们仍然容易受到“幻觉”（hallucination）问题的困扰。更关键的是，这些模型提供的归因（attribution）通常较为粗糙，往往仅指向整个文档或段落，且这些归因是在生成之后事后生成的（post hoc）。这种机制导致摘要中的每一个陈述都难以进行独立验证。

传统的模块化方法遵循“提取（Extract）—选择（Select）—重写（Rewrite）”范式，但在多文档摘要任务中，如何确保中间表示的细粒度可追溯性，以及如何有效处理跨文档的信息冲突，一直是亟待解决的难题。现有的归因机制缺乏结构化的支持，使得事实核查变得异常困难。

核心内容

为了解决上述问题，研究团队重新审视了模块化范式，并将其中间表示形式重构为归因的基本单位。研究提出了 CAMS（Claim-Anchored Multi-document Summarization，基于声明锚定的多文档摘要框架），该框架旨在通过结构化的设计，从构建层面保证摘要的忠实度（faithfulness）和可追溯性。

CAMS 框架主要包含以下四个核心步骤：

原子声明提取（Atomic Claim Extraction）：从每一个源文档中提取原子声明（atomic claims），并为每个声明保留 token 级别的血统信息（provenance）。这一步将非结构化的文本转化为细粒度的、带有来源标记的事实单元。
跨文档聚类与冲突检测（Clustering and Conflict Flagging）：在多个文档之间对等效声明进行聚类，同时标记出不同来源之间的冲突信息。这一步骤确保了模型能够识别并处理多源信息中可能存在的不一致性。
支持感知选择（Support-Aware Selection）：从聚类后的声明子集中，选择一个既具有显著性（salient）又具备充分支持证据的子集。这种选择机制不仅关注信息的重要性，还关注其被源文档支持的程度。
受限重写与锚定生成（Constrained Rewriting and Anchoring）：将选定的声明重写为摘要，但要求摘要中的每一句话都必须锚定到一个经过支持检查的声明上，该声明链接回一个或多个源文本片段。

核心设计理念： CAMS 的核心在于“构建即归因”（attribution-oriented by construction）和“构建即忠实”（faithfulness-oriented by construction）。由于内容在转化为自然语言之前就已经被局部化和结构化，该流水线在结构上保留了细粒度的多源可追溯性。通过支持感知选择、受限重写和验证机制，CAMS 旨在鼓励而非绝对保证事实的忠实度。

评估协议与结果： 研究在 MultiNews 数据集上评估了摘要质量、忠实度和定位能力，在 DiverseSumm 上分析了冲突处理机制，并在 WCEP 上测试了零样本迁移能力。评估采用了一种两阶段协议，将无参考的引用质量与对齐黄金标准（gold-aligned）的定位准确性分开评估。此外，研究还引入了一个评估器解耦的审计机制，使用一个从未用于选择或验证的支持模型来测试引用精度。

实验结果表明，CAMS 在摘要质量上与强大的端到端模型及基于片段归因的基线模型相当，但在忠实度和引用精度上有了显著提升。具体而言，CAMS 将多源归因准确率提高了约三分之二，并揭示了一种端到端模型所隐含的、可控的“忠实度-覆盖率”权衡关系。

关键要点

细粒度归因单位：CAMS 将“原子声明”而非整个文档或段落作为归因的基本单位，实现了 token 级别的血统追踪。
冲突处理机制：框架显式地识别并标记跨文档的声明冲突，增强了多文档摘要中的逻辑一致性。
结构化忠实度：通过“提取-选择-重写”的模块化流程，CAMS 在生成摘要之前就确立了事实锚点，从而在结构上保障了可追溯性。
性能提升：相比基线模型，CAMS 在多源归因准确率上提升了约 66%（三分之二），同时在摘要质量上保持竞争力。
可控的权衡：CAMS 暴露并允许用户控制“忠实度”与“覆盖率”之间的权衡，这是端到端黑盒模型所不具备的特性。
严格的评估协议：研究采用了分离式的评估协议和解耦的审计机制，确保了评估结果的客观性和可靠性，避免了评估模型与生成模型之间的数据泄露或偏见。

意义与影响

这项研究对多文档摘要领域具有重要的理论和实践意义：

解决幻觉与可验证性难题：通过引入声明锚定的归因机制，CAMS 显著降低了幻觉风险，并为摘要中的每一句话提供了可验证的来源链接。这对于新闻聚合、法律文档分析和医疗信息摘要等对事实准确性要求极高的应用场景至关重要。
重塑摘要生成范式：研究证明了模块化方法在结合细粒度中间表示时，依然具有强大的竞争力，甚至在忠实度方面优于端到端模型。这为未来设计更透明、更可控的生成式 AI 系统提供了新的思路。
提供可解释的 AI 接口：CAMS 框架不仅生成摘要，还生成结构化的事实图谱和冲突报告。这种可解释性使得人类用户能够更轻松地审核 AI 的输出，增强了人机协作的信任基础。
推动评估标准的发展：研究提出的两阶段评估协议和解耦审计机制，为衡量生成式 AI 的忠实度和引用精度提供了更严谨的方法论，有助于推动整个社区在事实核查方面的技术进步。

总之，CAMS 框架通过“构建即忠实”的设计理念，为多文档摘要提供了一种既流畅又可验证的新解决方案，标志着从“生成即遗忘”到“生成即溯源”的重要转变。

查看原文 →arxiv.org