技术博客arXiv cs.CL·1 小时前

Ground Then Rank：免训练实体识别重塑知识型视觉问答

原标题：Ground Then Rank: Revisiting Knowledge-Based VQA with Training-Free Entity Identification

速览

针对多模态大模型在知识型视觉问答中实体识别与证据检索的瓶颈，提出免训练的IBA框架。该方法先让模型从候选集中识别高置信度实体，再使用现成文本重排序器选择证据。实验表明，该方法在Encyclopedic-VQA等数据集上优于微调基线，且显著降低了训练和推理成本。

AI 深度解读

Ground Then Rank: 重新审视基于知识的视觉问答与免训练实体识别

背景

基于知识的视觉问答（Knowledge-Based Visual Question Answering, KB-VQA）是计算机视觉与自然语言处理交叉领域的一个关键任务。与普通的视觉问答不同，KB-VQA 要求模型不仅理解图像中的直接可见内容，还需要将视觉查询（visual queries）与外部知识库中的信息进行“接地”（grounding），即建立视觉元素与外部事实之间的精确对应关系。

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在感知能力上取得了显著进步，但在处理 KB-VQA 任务时仍面临巨大挑战。这些任务通常要求模型在两个层面进行接地：

细粒度实体层面：准确识别图像中涉及的具体实体（如特定的人、地点或物体）。
证据层面：从大量文档片段中筛选出支持答案的具体证据段落。

现有的多模态检索增强生成（MM-RAG）方法通常将“实体判别”和“段落级证据排序”紧密耦合在一个单一的重新排序（re-ranking）阶段。这种设计导致了两个主要问题：

高计算成本：联合处理增加了推理复杂度。
泛化能力有限：模型难以在开放域中灵活适应不同的实体命名和证据结构。

核心内容

本文从工作流（workflow）的角度重新审视了现有的 MM-RAG 解决方案，指出实体级接地和事实级接地是当前的主要瓶颈。作者通过观察发现，虽然 MLLMs 在开放式的实体命名任务中经常失败（即难以凭空生成正确的实体名称），但当它们被限制在一组候选名称中进行选择时，能够更准确地识别出正确的实体。

基于这一洞察，作者提出了一种简单且**免训练（Training-Free）**的框架，名为 IBA（Identify-Before-Answer，先识别后回答）。该框架的核心思想是将实体识别与段落级重新排序解耦，具体流程如下：

实体识别阶段：首先提示 MLLM 仅使用候选实体名称列表，从中选择高置信度的实体。这一步避免了开放式生成的困难，利用了 MLLM 在多项选择任务中的优势。
证据选择阶段：在确定正确实体后，使用现成的（off-the-shelf）文本重新排序器（textual re-ranker）来从知识库中筛选相关的证据段落。

实验在 Encyclopedic-VQA 和 InfoSeek 两个基准数据集上进行。结果表明，该方法不仅显著优于经过微调的多模态重新排序基线模型，还大幅降低了训练和推理的复杂性。

进一步的深入分析揭示，性能的提升不仅源于更准确的实体识别，还因为一旦正确实体被固定，模型能够选择到信息量更丰富的证据片段。为了促进可复现性，作者已公开了代码实现。

关键要点

解耦策略：IBA 框架将 KB-VQA 任务分解为两个独立的步骤：先识别实体，再排序证据。这种解耦避免了传统 MM-RAG 方法中实体判别与证据排序紧密耦合带来的高成本和低泛化性问题。
免训练优势：该方法无需对模型进行任何微调（fine-tuning），直接利用现成的 MLLM 和文本重排序器即可运行，极大地降低了部署门槛和计算资源消耗。
利用 MLLM 的选择能力：针对 MLLM 在开放式实体生成上的弱点，IBA 采用“候选集选择”策略。实验证明，MLLM 在从有限候选项中进行判别时，其准确性远高于开放式生成。
性能超越微调基线：在 Encyclopedic-VQA 和 InfoSeek 数据集上，这种简单的免训练方法 consistently（一致性地）优于需要复杂训练过程的多模态重新排序基线模型。
证据质量提升：分析显示，准确的实体识别有助于过滤噪声，使得后续的文本重排序器能够更有效地定位到包含关键信息的证据段落，从而提升最终答案的准确性。
开源复现：作者公开了代码实现，强调了研究的可复现性，有助于社区进一步验证和改进该方法。

意义与影响

这项工作在 KB-VQA 和多模态检索增强生成领域具有重要的理论和实践意义：

简化 MMLM 应用范式：它挑战了“必须通过大规模微调才能解决复杂多模态任务”的固有观念。通过巧妙的工作流设计（Ground Then Rank），证明了简单的组合策略（MLLM + 传统重排序器）在某些场景下可以超越复杂的端到端模型。
降低部署成本：免训练的特性使得企业或研究人员可以更快速地部署基于知识的视觉问答系统，无需承担高昂的数据标注和模型训练成本。
提升系统鲁棒性：将实体识别与证据检索解耦，使得系统对实体名称变化的鲁棒性增强。即使知识库中的实体命名方式发生变化，只要候选列表更新，识别模块即可适应，而无需重新训练整个模型。
推动可解释性：分步处理使得系统的决策过程更加透明。用户可以清晰地看到模型首先选择了哪个实体，随后引用了哪些证据，这有助于调试和优化模型性能。

总之，Ground Then Rank 提供了一种高效、低成本且高性能的 KB-VQA 解决方案，为多模态大模型在实际知识密集型任务中的应用提供了新的思路。

查看原文 →arxiv.org