技术博客arXiv cs.CL·2 小时前

训练免费的多模态长文档问答归因方法登场

原标题：MultAttnAttrib: Training-Free Multimodal Attribution in Long Document Question Answering

速览

MultAttnAttrib是一种训练免费的多模态归因生成方法，利用模型预填充过程、选定注意力头以及校准阈值，在长文档中定位来源证据。该方法显著提升了归因准确性，无论是单模态还是多模态，都优于多种提示工程方法并达到前沿模型GPT 5.4的水平。论文还推出了MultAttrEval基准数据集，这是首个专为长文档多模态归因标注的评估集。结果显示，该方法不仅在准确性上大幅进步，还将推理延迟缩短到直接推理的七分之一，助力AI助手在用户信任和模型安全方面获得可靠证据支持。

AI 深度解读

背景

随着AI助手类应用日益广泛部署，基于事实的问答系统在实际使用中越来越重要。用户对模型生成答案的可信度要求日益提高，而可靠的归因机制正是保障这一信任的关键，尤其是当模型回答需要引用长文档中的证据时。针对此问题，现有研究在单模态归因方面已经深入探讨，但多模态归因（同时涉及文本和视觉/图文证据）仍相对欠缺。

arXiv论文《MultAttnAttrib: Training-Free Multimodal Attribution in Long Document Question Answering》正是在这一背景下提出，旨在解决长文档多模态问答中的归因问题。该工作提交于2026年7月1日，属于计算机科学领域（Computation and Language）。

核心内容

计算机科学 > 计算语言学

[提交于 2026年7月1日]

标题：MultAttnAttrib：训练-free的多模态归因方法应用于长文档问答

摘要：随着基于事实的QA系统在AI助手中日益部署，准确地将生成答案归因到证据来源对于用户信任和模型安全性至关重要。虽然单模态归因研究已较为深入，但多模态场景仍相对研究不足。因此，我们引入MultAttnAttrib，这是一种训练-free的归因生成方法，它利用模型的prefill pass（预填充阶段）、选定的注意力头（attention heads）以及校准的阈值，在文档中定位证据来源。为了建立该方法的基准结果，我们还引入了MultAttrEval，这是一个互补的基准数据集，由细粒度的标注提供答案组件的真实归因，这些答案组件基于多模态来源文档。为我们所知，这是首个专门针对长形式文档多模态归因设计的评估数据集。实验结果表明，MultAttnAttrib在归因准确率上始终优于各种归因生成方法，包括几种强大的基于提示的（prompting-based）方法，甚至可以与最新的前沿模型（如GPT 5.4）相媲美。该方法不仅显著提高了单模态和多模态归因的准确率，还与同一基础模型上基于提示的方法相比，在直接推理延迟（latency）方面产生了高达七分之一的提升。

核心方法MultAttnAttrib的设计思路是通过模型预填充阶段提取的注意力分数，选择特定注意力头，并结合校准阈值来识别答案中每个组成部分所对应的证据来源，无需进行额外训练即可完成归因生成。这种方式特别适用于长文档问答场景，因为它能有效处理多模态证据（文本+图像/表格等），并保持较高的效率。

为了验证方法有效性，研究者构建了MultAttrEval数据集。该数据集包含细粒度标注，覆盖答案中每个具体组件与其在多模态源文档中的对应证据，专为长形式文档设计，是首个此类专用评估集。

实验对比显示，MultAttnAttrib在多种归因任务中均优于现有方法，包括纯提示工程（prompting）技术以及其他前沿归因策略。它不仅在准确率上领先，还能与GPT 5.4等前沿模型的归因效果相当，但计算开销更低，推理延迟大幅减少。

关键要点

首次提出训练-free的多模态归因框架MultAttnAttrib，利用模型预填充注意力分数、选定头和校准阈值实现高效证据定位；
构建首个专为长文档多模态归因设计的基准数据集MultAttrEval，提供细粒度真实标注；
实验结果：MultAttnAttrib在归因准确率上优于多种提示基方法，甚至匹配GPT 5.4等前沿模型；
在推理延迟上实现显著提升，与同一模型的提示方法相比可减少高达7倍；
方法适用于单模态和多模态归因，适用于长文档问答场景，提升用户信任和模型安全性；
无需训练即可部署，适合实际AI助手部署需求。

意义与影响

该方法通过训练-free的设计，显著降低了多模态长文档问答归因的部署门槛，同时保持高准确率和低延迟。这一突破对AI助手的安全性和可靠性有重要意义，尤其在高风险场景中，模型必须明确说明“基于哪些证据回答”，以避免幻觉和增强用户信任。

作为首个针对长形式多模态归因的专用数据集，MultAttrEval将为后续研究提供标准化评估平台，推动领域快速发展。MultAttnAttrib的效率优势使得它易于集成到现有模型中，相比昂贵的微调或复杂提示工程，成本更低、实用性更强。

整体而言，该工作填补了多模态归因在长文档场景中的空白，展示了高效注意力机制在实际QA系统中的潜力，有望成为提升AI助手可信度的重要技术基础。未来，该方法及其数据集可能被广泛应用于生产级AI系统中，进一步规范和标准化多模态归因实践。

查看原文 →arxiv.org

训练免费的多模态长文档问答归因方法登场

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐