技术博客arXiv cs.CL·13 小时前

多模态大模型多视频摘要存在显著位置偏见

原标题：A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

速览

多模态大语言模型（MLLMs）在视频理解领域应用广泛，但其处理多视频输入时的可靠性尚不明确。研究构建了包含烹饪、新闻等场景的基准，评估了九种模型，发现摘要质量受视频输入位置显著影响。结果表明，增加视觉或生成预算无法消除这种不平衡，需开发更鲁棒的位置不变系统。

AI 深度解读

多视频摘要中多模态大语言模型的位置偏差：系统性评估

背景

随着多模态大语言模型（Multimodal Large Language Models, MLLMs）在视频理解领域的广泛应用，其处理复杂输入的能力备受关注。然而，现有的研究大多集中在单视频理解或简单的多模态任务上，对于 MLLMs 在处理多视频输入时的可靠性和稳定性，尤其是其内部机制如何受输入顺序影响，尚缺乏深入的理解。

在实际应用场景中，用户往往需要同时处理多个视频片段以生成综合摘要（例如新闻聚合、监控回放分析等）。如果模型对视频在输入序列中的位置（Position）存在系统性偏差，即“位置偏差”（Positional Bias），那么即使视频内容完全相同，仅因其在输入列表中的排序不同，生成的摘要质量也会发生显著变化。这种不稳定性严重影响了 MLLMs 在关键任务中的可信度。

本文旨在系统性地评估 MLLMs 在多视频摘要任务中的位置偏差现象，通过构建基准测试，量化不同模型对输入位置的敏感度，并探索缓解这一偏差的方法。

核心内容

1. 问题定义：什么是多视频摘要中的位置偏差？

研究聚焦于“多视频摘要”（Multi-Video Summarization）任务。在该任务中，模型接收多个视频作为输入，并为每个视频生成独立的摘要，或者生成一个涵盖所有视频的综合摘要。

位置偏差被定义为：当底层视频内容保持不变时，仅因视频在输入序列中的插槽（Input Slot）位置不同，导致生成的单视频摘要质量发生变化的现象。这种偏差可能表现为模型倾向于更好地处理开头或结尾的视频，而忽略中间的视频，或者反之。

2. 基准构建：ActivityNet 与 News 数据集

为了全面评估这一现象，研究团队构建了一个新的基准测试（Benchmark），主要基于以下两个数据集：

ActivityNet：涵盖日常活动视频。
News Videos：涵盖新闻类视频。

实验设置了四种具体的场景设置（Settings）：

Cooking（烹饪）
Domestic（家庭/日常）
Leisure（休闲）
News（新闻）

在输入规模上，分别测试了两视频输入和四视频输入的情况，以观察不同上下文长度对位置偏差的影响。

3. 评估对象与指标

研究评估了9 个主流的开源和专有 MLLMs（具体模型名称未在摘要中逐一列出，但涵盖了当时主流的代表性模型）。为了量化位置效应，采用了三个互补的评估指标：

Coverage（覆盖率）：衡量生成的摘要是否充分覆盖了视频中的关键信息。
Directional Positional Bias (DPB, 方向性位置偏差)：量化模型是否存在特定的方向性偏好（例如，是否总是更倾向于处理序列开头的视频，或结尾的视频）。
Middle-Edge Gap (MEG, 中间-边缘差距)：衡量位于序列中间位置的视频与位于边缘位置（开头或结尾）的视频在摘要质量上的差异。

4. 主要研究发现

实验结果揭示了位置偏差的复杂性和依赖性：

领域与模型依赖性：位置效应并非普遍一致，而是高度依赖于具体的应用领域（Domain）和所使用的模型（Model）。
DPB 与 MEG 的非对称性：研究发现，即使方向性位置偏差（DPB）数值很小（意味着没有明显的“头重脚轻”或“尾重头轻”），中间位置的视频表现仍可能显著低于边缘位置。这表明仅看 DPB 不足以全面反映位置偏差，MEG 是一个重要的补充指标。
增加预算无效性：增加视觉处理预算（Visual Budget，如增加帧数或分辨率）或增加生成预算（Generation Budget，如增加输出 token 数）并不能均匀地消除这种不平衡。这意味着简单的“堆资源”策略无法解决根本的位置敏感性结构问题。

5. 缓解策略分析

研究进一步分析了在 Prompt 层面（Prompt-level）的缓解方法。虽然具体的缓解技术细节未在摘要中展开，但指出通过调整提示工程策略可以在一定程度上减轻位置偏差的影响。

关键要点

可靠性盲区：尽管 MLLMs 在视频理解中表现强劲，但在多视频输入场景下，其输出质量对输入顺序高度敏感，存在未被充分认知的可靠性问题。
位置偏差的本质：位置偏差是指视频内容不变，仅因输入位置不同而导致摘要质量波动的现象。
评估体系创新：引入了 Coverage、DPB 和 MEG 三个指标，特别是 MEG 指标揭示了“中间位置劣势”这一容易被 DPB 掩盖的问题。
偏差的复杂性：位置偏差受领域（如新闻 vs. 烹饪）和模型架构的双重影响，不存在统一的偏差模式。
资源堆叠的局限性：单纯增加视觉或生成的计算/Token 预算，无法自动消除位置偏差带来的性能不平衡。
未来方向：当前的多视频摘要系统对输入协议和位置过于敏感，亟需开发更具鲁棒性、顺序不变性（Order-invariant）的多模态系统。

意义与影响

这项研究对多模态 AI 的发展具有重要的理论和实践意义：

揭示系统脆弱性：它指出了当前 MLLMs 在处理长上下文或多实例输入时的一个结构性弱点。对于依赖多视频分析的应用（如自动化新闻编辑、视频监控分析、教育视频总结），这种位置偏差可能导致信息遗漏或偏见，影响决策的公正性和准确性。
推动评估标准完善：通过提出 MEG 等指标，研究丰富了多模态模型评估的维度，提醒开发者不能仅依赖传统的生成质量指标，还需关注模型对输入结构的敏感性。
指导模型架构优化：研究结果暗示，现有的 Transformer 架构在处理多视频序列时，可能隐含地赋予了不同位置不同的权重。这激励研究人员设计新的架构或注意力机制，以实现真正的“顺序不变性”（Order-invariance），即无论视频以何种顺序输入，模型都能生成一致且高质量的摘要。
提示工程的启示：虽然 Prompt 层面的缓解方法被提及，但研究也暗示这可能只是治标不治本。未来的工作应结合模型微调、架构改进和提示工程，共同解决这一根本性问题。

总之，该论文不仅是一份评估报告，更是对多模态大模型在多视频场景下鲁棒性的一次重要警示，为后续构建更可靠、更公平的多模态系统指明了方向。

查看原文 →arxiv.org