技术博客arXiv cs.AI·2 天前

TIGER框架：基于图证据路由的多模态生成幻觉修复

原标题：TIGER: Traceable Inference with Graph-Based Evidence Routing for Mitigating Hallucinations in Multimodal Generation

速览

针对多模态生成中事实性幻觉问题，研究提出TIGER推理时修复框架。该方法独立提取输入观察图和输出主张图，基于支持度与冲突度为每个主张分配风险评分。实验表明，TIGER在图像、音频及视频到文本等多种跨模态任务中，能在保持任务质量的同时显著减少无依据内容。

AI 深度解读

TIGER：基于图证据路由的可追溯推理，缓解多模态生成中的幻觉问题

背景

在多模态生成任务中，模型（如大型语言模型或视觉-语言模型）往往能够生成流畅且看似合理的文本，但这些输出中可能包含与输入数据（图像、音频、视频或文本）不匹配的具体事实。这种现象被称为“幻觉”（Hallucinations），是制约多模态AI在医疗、法律、新闻等高风险领域应用的主要瓶颈。

现有的推理时修复（Inference-time repair）方法通常采用一种联合条件生成的策略：模型同时基于原始输入和当前生成的输出来生成反馈信息，试图纠正错误。然而，这种设计存在两个显著的局限性：

输入解释偏差：如果当前输出中已经包含了幻觉内容，模型在解释原始输入时可能会受到这些错误信息的干扰和偏见，导致“将错就错”。
缺乏细粒度控制：自由形式的反馈难以在“事实层面”（fact-level）进行排序或调度，使得修复过程缺乏针对性和效率。

为了解决这些问题，研究人员提出了 TIGER（Traceable Inference with Graph-Based Evidence Routing，基于图证据路由的可追溯推理）框架。该框架旨在通过重新设计反馈机制，实现针对局部事实的精准修复。

核心内容

TIGER 是一个推理时的框架，其核心思想是将“输入证据”与“输出主张”解耦，并通过图结构进行显式的比对和风险评估。具体工作流程如下：

1. 双图提取机制

TIGER 不再让模型同时处理输入和输出，而是分别构建两个独立的图结构：

观察图（Observation Graph）：从原始输入数据中提取。例如，在图像到文本的任务中，这代表图像中实际存在的实体、属性和关系。
主张图（Claim Graph）：从当前生成的输出中提取。这代表模型声称的事实，包括其断言的实体、属性和逻辑关系。

2. 基于图条件的风险评估

对于输出中的每一个主张（Claim），TIGER 会计算一个基于图条件的风险分数（Risk Score）。该分数主要依据两个维度：

支持度（Support）：该主张在输入的观察图中有多少证据支持。
冲突度（Conflict）：该主张与输入的观察图中是否存在矛盾。

通过这种方式，模型可以量化每个事实断言的可信度，而不仅仅是依赖语言流畅度。

3. 局部修复与骨干网络冻结

基于风险评分，TIGER 会选择高风险的主张进行修复。值得注意的是，该框架在修复过程中保持底层骨干网络（Backbone）冻结（Frozen），仅通过外部机制调整输出。这种设计避免了重新训练或微调模型的高昂成本，实现了即插即用的推理时增强。

4. 收敛性分析

研究团队提供了理论分析，证明在温和假设下，TIGER 的期望总风险会以几何级数递减，并收敛到一个明确的上界。这意味着随着修复步骤的增加，模型输出的整体事实准确性会稳步提升并趋于稳定。

5. 实验验证

TIGER 在四种跨模态路径上进行了广泛实验，包括：

图像到文本（Image-to-text）
图像+文本到文本（Image+text-to-text）
音频到文本（Audio-to-text）
视频到文本（Video-to-text）

实验结果显示，TIGER 在显著减少不支持内容（即幻觉）的同时，保持了任务质量（如流畅性和相关性）。这种增益在多个不同的骨干网络中均保持一致。此外，在 CrisisFACTS 案例研究中，结果表明相同的修复机制也能在多源设置下改善模型的接地能力（Grounding）。

关键要点

解耦输入与输出：TIGER 打破了传统方法中输入与输出联合处理的模式，分别构建输入的观察图和输出的主张图，避免了幻觉内容对输入理解的污染。
事实级细粒度控制：通过图结构将非结构化的文本输出转化为结构化的主张，使得模型能够在“事实层面”对每个断言进行独立的风险评估和排序。
无需微调的推理时增强：TIGER 是一个推理时框架，保持骨干网络冻结，通过外部路由机制进行修复，降低了部署成本和计算开销。
理论保证：研究提供了收敛性分析，证明了该方法在减少总体风险方面的理论有效性，风险随迭代几何级数下降。
广泛的适用性：实验涵盖图像、音频、视频等多种模态到文本的生成任务，证明了其跨模态的通用性。
多源场景下的潜力：在 CrisisFACTS 案例中，TIGER 展示了在多源信息融合场景下提升事实接地（Grounding）的能力，暗示其在复杂信息检索和验证任务中的应用前景。

意义与影响

TIGER 的提出标志着多模态 AI 可靠性研究的一个重要进展。它从方法论上解决了现有推理时修复方法中“输入-输出耦合”导致的偏差问题，提供了一种更透明、更可追溯的幻觉缓解路径。

提升可信度：通过显式的图证据路由，TIGER 使得模型的决策过程更加透明。用户或下游系统可以追溯每个事实断言的来源和支持证据，这对于医疗、法律等高信任要求领域至关重要。
降低部署门槛：由于不需要对大型基础模型进行微调或重新训练，TIGER 可以作为一种轻量级的插件，快速集成到现有的多模态生成管线中，加速了可靠 AI 技术的落地。
推动结构化推理：TIGER 强调了将非结构化生成结果转化为结构化图表示的价值。这种思路可能启发未来更多研究，探索如何利用知识图谱或结构化数据来增强大模型的推理能力和事实一致性。
应对复杂信息场景：在 CrisisFACTS 等案例中的表现表明，TIGER 不仅适用于简单的单模态生成，还能处理多源、多模态的复杂信息验证任务，为构建更鲁棒的智能代理（Agents）提供了技术基础。

总之，TIGER 为缓解多模态生成中的幻觉问题提供了一套系统化、理论严谨且工程可行的解决方案，有助于推动多模态 AI 从“能生成”向“生成可信内容”迈进。

查看原文 →arxiv.org