技术博客arXiv cs.CL·4 小时前

让图表会说话：基于论文的视频生成技术解析复杂科学图表

原标题：Helping Figures Tell their Story! Paper-Grounded Video Generation Explaining Complex Scientific Figures

速览

针对当前视频生成系统缺乏对科学图表逐步叙事理解的问题，研究团队提出了基于论文锚定的图表到视频生成方法。该方法通过MINARD管线，能够生成与论文内容一致且按区域分解的叙述性视频。同时发布的FigTalk基准测试表明，该技术在自动和人工评估中均优于现有方法，能生成拟人化且忠实于原文的解说。

AI 深度解读

让图表“开口说话”：基于论文语境的复杂科学图表视频生成解读

背景

在科学研究中，图表（Figures）是压缩复杂流程、展示实验结果和理论架构的核心载体。一张精心设计的科学图表往往包含了从数据预处理到模型架构，再到最终评估的完整逻辑链条。然而，对于读者而言，理解这些高度浓缩的视觉信息并非易事。传统的阅读方式要求读者自行在文本与图像之间建立映射，这不仅耗时，而且容易遗漏细节。

当前的视频生成系统（Video Generation Systems）虽然能在通用场景下生成高质量视频，但在处理科学图表时存在显著缺陷：它们缺乏“论文接地”（Paper-Grounded）的能力。也就是说，现有的模型无法将图表中的特定区域与论文文本中的具体描述进行精准对齐，也无法生成符合视觉高亮步骤的、逐步的叙事解说。这种能力的缺失，使得自动化生成科学图表解说视频成为可能，但难以保证准确性和逻辑连贯性。

核心内容

为了解决上述问题，研究团队提出了一种新的任务范式：基于论文语境的图表到视频生成（Paper-Grounded Figure-to-Video Generation）。该任务旨在从一张科学图表及其对应的论文文本出发，生成带有旁白解说、且对图表特定区域进行空间定位（Region-Grounded）的逐步演示视频。

为了实现这一目标，研究团队提出了 MINARD（Multimodal Interpretation of Narrated Architecture via Region Decomposition，通过区域分解的多模态叙述架构解释）流水线。MINARD 的核心创新在于它将生成过程分解为两个关键阶段：

生成基于论文的叙述（Paper-Grounded Narrations）：模型首先阅读论文文本，提取与图表相关的逻辑步骤，生成自然语言解说。这些解说严格忠实于论文原文，确保科学准确性。
序列化的区域定位（Sequentially Grounds to Figure Regions）：在生成叙述的同时，模型将每一句解说与图表中的特定视觉区域进行对齐。这意味着当旁白提到“数据预处理模块”时，视频画面会高亮显示图表中对应的部分。

此外，为了评估这一新任务的性能，研究团队发布了 FigTalk 基准测试集。FigTalk 引入了两项新的评估指标：

序列接地指标（Sequential Grounding Metrics）：评估生成的叙述顺序是否与图表的逻辑流程一致。
组件级接地指标（Component-Level Grounding Metrics）：评估生成的解说词是否准确指向了图表中的具体组件或区域。

在 FigTalk 基准测试中，MINARD 展现了显著优势。无论是自动评估还是人工评估，MINARD 生成的解说都更具人性化（Humanlike）且忠实于论文原文（Paper-Faithful）。特别是在“叙述条件下的图表空间接地”（Narration-Conditioned Figure Spatial Grounding）任务上，MINARD 的表现优于现有的基线方法，证明了其在将文本语义映射到视觉空间方面的有效性。

关键要点

新任务定义：首次明确提出并定义了“基于论文语境的图表到视频生成”任务，强调视频生成必须结合论文文本和图表视觉信息，并具备区域定位能力。
MINARD 架构：提出了一种两阶段流水线，先基于论文生成忠实于原文的逐步解说，再将解说序列化为对图表特定区域的空间定位。
FigTalk 基准：发布了包含新评估指标（序列接地和组件级接地）的 FigTalk 基准，填补了该领域缺乏标准化评估工具的空白。
性能优势：实验表明，MINARD 在生成叙说的自然度、对论文原文的忠实度以及视觉区域的定位准确性上，均优于现有方法。
解决痛点：解决了当前视频生成模型无法理解科学图表内部逻辑、无法将文本描述与视觉元素精准对齐的核心痛点。

意义与影响

这项研究在科学传播和人机交互领域具有重要的意义。

首先，它推动了科学可视化的自动化与智能化。通过自动生成带有精准解说和视觉高亮的视频，可以大幅降低科研人员和非专业读者理解复杂科学图表的认知负荷，提高科学知识的传播效率。

其次，它促进了多模态大模型在垂直领域的深度应用。MINARD 展示了如何将通用视频生成能力与特定领域的知识（论文文本）相结合，通过“论文接地”机制确保内容的科学严谨性。这为其他专业领域（如医学影像、工程图纸）的自动化解说生成提供了可借鉴的范式。

最后，FigTalk 基准的发布为该领域的后续研究提供了统一的评估标准。随着科学数据量的爆炸式增长，如何高效、准确地解析和呈现这些多模态数据将成为关键挑战，而基于论文语境的视频生成技术有望成为解决这一挑战的重要工具。

查看原文 →arxiv.org