技术博客arXiv cs.CL·11 小时前

VCIFBench：评估视频理解中复杂指令遵循能力

原标题：VCIFBench: Evaluating Complex Instruction Following for Video Understanding

速览

现有视频理解基准多依赖简单提示，难以验证模型是否满足明确的输出约束。VCIFBench通过构建包含内容、格式、风格和结构要求的丰富约束指令，评估多模态大模型的复杂指令遵循能力。实验表明联合约束满足仍具挑战，但在该数据上进行DPO训练可提升指令遵循性能。

AI 深度解读

VCIFBench：评估视频理解中的复杂指令遵循能力

背景

多模态大语言模型（Multimodal Large Language Models, MLLMs）在视频理解领域取得了显著进展。然而，现有的评估基准（Benchmarks）大多依赖于简单的提示词（prompts），且主要关注模型对视频内容的直接回答能力。这种评估方式存在一个明显的盲区：它缺乏足够的证据来证明模型是否能够严格满足显式的输出约束。

在实际应用场景中，用户往往不仅要求模型“看懂”视频，还要求模型以特定的格式、风格或结构输出结果。例如，“请提取视频中所有出现红色物体的时刻，并以 JSON 格式列出，每个条目包含时间戳和置信度，且置信度需保留两位小数”。现有的简单基准难以全面衡量模型在满足此类复杂指令时的能力。因此，业界亟需一个能够专门评估模型在视频理解任务中“复杂指令遵循”（Complex Instruction Following）能力的标准化基准。

核心内容

为了解决上述问题，研究团队提出了 VCIFBench，这是一个专为评估视频理解中复杂指令遵循能力而设计的基准测试。VCIFBench 的核心设计理念是通过构建富含约束条件的指令，全面测试模型在内容、格式、风格和结构四个维度的执行能力。

1. 数据集构建方法

VCIFBench 的指令来源具有双重特性，旨在覆盖广泛的真实场景需求：

基准适配指令（Benchmark-adapted prompts）：基于现有的视频理解基准进行改造，增加约束条件。
直接视频 grounded 提示（Directly video-grounded prompts）：直接从视频内容出发构建指令，确保指令与视频内容的紧密关联。

这些指令涵盖了以下四类关键约束：

内容约束（Content）：要求模型关注特定的视频元素或事件。
格式约束（Format）：规定输出的数据结构，如 JSON、CSV 或特定标记语言。
风格约束（Style）：要求输出符合特定的语气、长度或表达方式。
结构约束（Structure）：要求输出遵循特定的逻辑顺序或层级结构。

2. 验证管道

为了准确评估模型输出是否满足上述多重约束，VCIFBench 采用了一种混合验证管道（Hybrid Verification Pipeline）。这种混合方法结合了自动化评估和人工/规则校验，以确保对格式、风格和结构等难以量化的约束进行准确评分。

3. 数据集规模与组成

VCIFBench 包含以下核心组件：

306 个可满足的测试指令（Satisfiable Test Instructions）：这些指令设计为在理论上是可以被正确执行的，用于测试模型的上限能力。
540 对 DPO 偏好数据集（DPO Preference Dataset）：用于直接偏好优化（Direct Preference Optimization, DPO）的训练数据，包含模型输出的人类偏好排序。
30 项冲突诊断子集（Conflict Diagnostic Subset）：专门用于诊断当多个约束条件发生冲突时，模型如何处理和权衡的能力。

4. 实验结果

研究团队在 10 个主流的多模态大语言模型（MLLMs）上进行了实验。结果显示，尽管模型在基础视频理解任务上表现良好，但在**联合约束满足（Joint Constraint Satisfaction）**方面仍然面临巨大挑战。许多模型能够理解视频内容，但无法同时严格遵守格式、风格等多重输出约束。

此外，研究还发现，使用 VCIFBench 数据进行 DPO 训练，可以显著提升模型在指令遵循方面的性能。这表明，针对复杂约束的偏好优化是提升模型实用性的有效途径。

关键要点

填补评估空白：VCIFBench 首次系统性地评估了 MLLMs 在视频理解任务中满足显式输出约束（格式、风格、结构等）的能力，弥补了现有基准仅关注内容理解的不足。
多维约束覆盖：基准不仅关注“说了什么”（内容），还严格评估“怎么说”（格式、风格、结构），更贴近实际工业界对结构化输出的需求。
混合验证机制：采用混合验证管道，解决了传统自动化评估在处理非结构化约束（如风格、结构）时的局限性，提高了评估的准确性。
模型能力瓶颈：实验表明，当前主流的 10 个 MLLMs 在同时满足多重复杂约束时表现不佳，联合约束满足仍是该领域的主要难点。
DPO 优化有效性：基于 VCIFBench 数据进行的 DPO（直接偏好优化）训练被证明能有效提升模型的指令遵循能力，为后续模型微调提供了新的数据方向。
冲突诊断价值：提供的 30 项冲突诊断子集有助于研究者深入分析模型在约束冲突时的决策逻辑，为模型鲁棒性研究提供工具。

意义与影响

VCIFBench 的发布对多模态人工智能领域具有重要的理论和实践意义。

首先，它推动了视频理解评估从“内容感知”向“指令执行”的范式转变。随着 MLLMs 在更多垂直领域（如医疗影像分析、法律视频证据提取、工业质检）的应用，用户不再满足于模型“看懂”视频，而是要求模型输出符合特定业务规范的结构化数据。VCIFBench 为衡量模型在这些高要求场景下的可用性提供了标准化工具。

其次，该基准揭示了当前模型在“格式与风格控制”方面的短板。许多模型虽然具备强大的视觉编码能力，但在生成符合严格格式要求的输出时容易出错。这一发现促使研究人员和工程师更加重视输出层的约束控制机制，如引入后处理模块或优化解码策略。

最后，VCIFBench 提供的 DPO 数据集和冲突诊断子集为模型优化提供了新的切入点。研究表明，通过针对复杂指令的偏好优化，可以显著提升模型性能。这为开发更智能、更可靠的视频理解助手提供了数据基础和方法论指导，有助于加速多模态大模型在需要高精度结构化输出的实际场景中的落地应用。

查看原文 →arxiv.org