技术博客arXiv cs.AI·2 小时前

MathVis-Fine：渐进式依赖引导训练提升多模态数学推理精度

原标题：MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

速览

针对多模态数学推理中视觉监督信号粗糙及反馈不准确的问题，研究提出MathVis-Fine框架。该框架构建了包含细粒度视觉依赖评级的数据集，并引入两阶段渐进式视觉增强训练范式。通过根据样本内在视觉依赖水平平衡答案正确性与视觉定位奖励，有效缓解奖励偏差，显著提升多模态数学推理的精确度。

随着大语言模型（LLM）的发展，思维链（Chain-of-Thought, CoT）推理能力已从纯文本领域扩展至多模态场景。然而，现有的多模态数学推理方法存在一个根本性的缺陷：它们往往将视觉输入视为同质化或辅助性的信号，未能捕捉数学解题过程中文本与图像之间复杂且样本特定的依赖关系。

这种处理方式导致了两个核心问题：

这些局限性阻碍了模型实现精确的多模态推理。为了解决这一问题，研究人员提出了 MathVis-Fine 框架，旨在通过建模细粒度的视觉依赖关系，提升多模态数学推理的准确性。

MathVis-Fine 的核心贡献在于提出了一种新的训练范式和数据集构建方法，以解决视觉监督与任务必要性之间的对齐问题。

研究团队首先构建了 MathVis-Fine 数据集。该数据集不仅包含常规的数学问题，还增强了细粒度的视觉标注，并引入了视觉依赖评级（visual dependency ratings）。这一评级机制旨在量化每个样本中视觉信息对于解题的必要程度，从而为后续的精细化训练提供数据基础。

基于上述数据集，MathVis-Fine 引入了一种两阶段渐进式视觉增强训练方法。该方法的核心逻辑是：

广泛的实验结果表明，MathVis-Fine 框架能够有效地根据视觉依赖关系逐步增强模型的视觉感知能力。相比基线方法，它提供了一个更精确的训练框架，显著提升了多模态数学推理的性能。研究团队表示，将在论文被接受后公开该数据集。

MathVis-Fine 的研究对多模态人工智能领域，特别是多模态大语言模型（MLLMs）的训练策略具有重要的启示意义：

从“通用监督”到“精细化监督”：该工作挑战了传统多模态训练中“一刀切”的视觉监督方式，证明了根据样本特性进行差异化监督的重要性。这为后续研究如何更有效地利用视觉信息提供了新的思路。
解决奖励模型偏差问题：在多模态强化学习或偏好优化中，如何设计合理的奖励函数是一个难题。MathVis-Fine 通过引入依赖评级来平衡不同维度的奖励，为解决视觉奖励偏差提供了可行的技术方案。
推动数学推理的精确化：数学推理对逻辑严密性和信息准确性要求极高。通过细化视觉依赖关系，模型能够更准确地利用图表、公式图像等视觉线索，从而提升在复杂数学任务上的表现。
数据驱动的改进路径：MathVis-Fine 数据集的发布将填补该领域在细粒度视觉依赖标注方面的空白，有助于社区进一步探索视觉信息在认知过程中的作用机制。

总之，MathVis-Fine 不仅是一个新的模型训练框架，更是一种强调“必要性对齐”的多模态学习哲学，为构建更智能、更精准的多模态推理系统奠定了基础。