← 返回信息流
技术博客arXiv cs.CL·14 小时前

视觉语言模型是看图还是靠猜?新基准测试揭示文本先验依赖

原标题:Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark

速览

视觉语言模型在推理时常依赖问题措辞和记忆知识而非图像本身,导致分数虚高。研究构建了包含540张图像和四种变体问题的基准,发现所有模型在难变体上表现下降。通过上下文示例和GRPO后训练,可有效降低模型对文本先验的依赖。

AI 深度解读

视觉-语言模型是在“看”还是在“猜”?——基于短语控制基准测试的文本先验依赖测量与缓解

背景

随着视觉-语言模型(Vision-Language Models, VLMs)在需要严格依据图像内容作答的场景中日益普及,一个隐蔽但严重的问题浮出水面:许多模型并非真正“理解”图像,而是依赖“文本先验”(Textual Priors)进行回答。

所谓文本先验,是指模型利用问题中的措辞以及记忆中的世界知识(World Knowledge)来生成答案,而非真正从图像中提取信息。这种行为导致基准测试分数虚高,并产生看似自信但缺乏事实依据(Ungrounded)的答案。

现有的评估基准通常存在一个设计缺陷:每张图像通常只配对一个固定的问题。这种单一维度的评估难以将“模型对图像的依赖”与“模型对文本线索的依赖”隔离开来。因此,业界缺乏一种有效的方法来量化 VLMs 对文本先验的依赖程度,也难以区分模型是真正“看见”了图像,还是仅仅在“猜测”基于文本线索的最可能答案。

核心内容

为了解决上述评估盲区,研究人员构建了一个名为 Phrasing-Controlled Benchmark(短语控制基准) 的新评估框架,旨在精确测量并减少 VLMs 对文本先验的依赖。

1. 基准测试设计:控制变量法

该基准测试包含 540 张图像,涵盖 6 个推理类别。其核心创新在于对每张图像生成了 4 种不同变体的问题(Question Variants)

  • 控制变量:在这些变体中,图像内容保持不变,唯一变化的变量是问题的措辞(Phrasing)。
  • 最难变体(Hardest Variant):其中一种变体的问题直接根据图像内容编写,旨在最小化文本泄露(Text Leakage),迫使模型必须依赖视觉信息而非文本线索来作答。

2. 模型评估与表现

研究对 11 个 VLMs 进行了基准测试,涵盖了从小型的开源权重模型到大型闭源系统。结果揭示了一个普遍现象:

  • 性能下降:所有模型在“最难变体”上的表现均出现下降。
  • 开源模型劣势:开源模型的性能下降幅度最大,表明它们更严重地依赖文本先验。

3. 核心诊断工具:无图像消融实验(No-image Ablation)

为了验证模型是否真的依赖图像,研究引入了“无图像消融”作为核心诊断手段。

  • 结果:当移除图像输入时,开源权重模型的性能急剧下降至仅基于文本的基准水平(准确率仅为 1% 到 9%)。
  • 佐证分析
    • LLM 评级难度:由大型语言模型评估的问题难度与模型表现负相关。
    • 低基础-最终文本相似度:证明模型并未简单复用问题中的文本模式。
    • 人工重新标注:人工验证确认了模型对图像真实内容的依赖性。

4. 缓解策略:训练与推理优化

研究进一步探索了减少文本先验依赖的方法:

  • 上下文示例(In-context Exemplars):如果上下文示例的构建方式与测试变体的构建方式相匹配,可以恢复最多的准确率。这表明通过提示工程(Prompt Engineering)引导模型关注特定类型的视觉推理是有效的。
  • 后训练优化(Post-training):对一个小规模 VLM 使用 GRPO(Group Relative Policy Optimization,一种强化学习算法)进行后训练,在所有四个变体上均获得了 consistent gains(一致的收益),并且这种提升能够迁移到未见的分布外(Out-of-Distribution, OOD)数据集上。

关键要点

  • 文本先验依赖是普遍现象:VLMs 经常利用问题措辞和记忆知识而非图像内容来作答,导致基准分数虚高和答案缺乏 grounding(事实依据)。
  • 现有基准的局限性:传统基准因图像与固定问题的一一对应关系,无法隔离文本线索对模型决策的影响。
  • 短语控制基准(Phrasing-Controlled Benchmark):通过在同一图像上生成四种不同措辞的问题,将“措辞”作为控制变量,有效量化了模型对文本先验的依赖。
  • 开源模型更脆弱:在去除了文本线索优势的最难变体测试中,开源模型的性能衰减最为严重,其无图像输入时的表现仅相当于纯文本模型(1%-9% 准确率)。
  • 可测量且可训练:文本先验依赖不仅是可测量的,而且可以通过特定的训练策略(如 GRPO 后训练)和推理策略(如匹配的上下文示例)部分消除。
  • 泛化能力:针对文本先验依赖优化的模型,其性能提升能够泛化到分布外的新数据集中。

意义与影响

这项研究对 VLM 的开发和评估具有深远影响:

  1. 重塑评估标准:它揭示了当前 VLM 基准测试中存在的“虚假繁荣”,呼吁业界采用更严格的评估方法(如短语控制基准),以区分模型是真正具备视觉推理能力,还是仅仅擅长利用文本线索进行概率猜测。
  2. 指导模型训练:研究证明,通过强化学习(如 GRPO)和精心设计的上下文提示,可以显著降低模型对文本先验的依赖。这为未来 VLM 的训练提供了明确的方向:不仅要增加数据量,更要优化模型对视觉信号的注意力机制。
  3. 提升可信度与安全性:在医疗、自动驾驶等高风险领域,模型“自信但错误”的回答可能带来严重后果。通过减少文本先验依赖,可以提高模型输出的可靠性和事实准确性,使其更适合作为关键决策的支持工具。
  4. 开源与闭源模型的差距分析:研究指出开源模型在视觉 grounding 方面可能存在更大短板,这提示开源社区需要投入更多资源在视觉-语言对齐训练上,以缩小与闭源领先模型的差距。

总之,该研究不仅提供了一个新的评估工具,更指出了 VLM 从“感知”走向“真正理解”的关键路径:即摆脱对文本线索的过度依赖,建立坚实的视觉事实基础。

查看原文 →arxiv.org