技术博客arXiv cs.AI·11 小时前

VAMPS基准测试揭示大模型借助可视化工具解题能力不足

原标题：VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark

速览

研究推出VAMPS基准，评估多模态大模型利用可视化工具解决数学问题的能力。测试涵盖1168道代数与微积分题目，旨在诊断模型在构建图形并基于可视化结果推理时的表现。实验结果表明，尽管绘图是自然解题策略，但直接解析求解的效果仍优于工具辅助的视觉求解。

AI 深度解读

VAMPS：视觉辅助数学解题基准测试深度解读

背景

多模态大语言模型（Multimodal Large Language Models, LLMs）在复杂推理任务上的能力日益增强，但在实际工程与科学工作流中，一个关键痛点依然存在：当模型需要借助外部工具将问题“外化”（externalize），并基于工具输出进行推理时，其表现往往会出现显著退化。这种现象在依赖视觉辅助（visual aids）的场景中尤为突出。

现实中的工程分析和科学决策高度依赖可视化工具来进行分析、验证和判断。然而，现有的多模态基准测试主要评估模型对固定视觉输入的推理能力，却很少测试模型是否能够通过构建有用的图表，并将答案建立在由此产生的可视化结果之上。这种“生成-推理”闭环中的能力缺失，构成了当前多模态 AI 的一个重要研究空白。

核心内容

为了解决这一差距，研究团队引入了 VAMPS（Visual-Assisted Mathematical Problem Solving，视觉辅助数学解题），这是一个专注于图辅助数学的基准测试集。

1. 数据集构建

VAMPS 包含 1,168 个多模态、双语的选择题问答对。其数据构成如下：

基础数据：源自伊朗大学入学考试（Iranian University Entrance Exam）中的代数和微积分问题。
扩展数据：通过人工审核的 LLM 生成合成变体进行扩充。
筛选标准：所有题目均经过精心挑选，确保“绘图”（plotting）是解决这些问题的自然策略。例如，通过图表可以直观地揭示函数的交点、极值点、渐近线等关键特征。

2. 测试目标

VAMPS 的设计目的不仅是基准测试（benchmarking），更是为了诊断（diagnosis）。它超越了以往仅评估模型“看图说话”能力的基准，重点测试以下能力：

模型能否利用工具构建出有用的图形？
模型能否基于生成的可视化结果进行有效的推理并得出答案？

3. 核心发现

研究团队对一系列多样化的模型进行了评估，得出了一个出人意料的结论：

直接解析求解优于工具辅助视觉求解：即使在绘图被视为自然解题策略的问题上，直接使用解析方法（analytical solving）求解的模型表现，依然优于那些启用工具进行视觉辅助求解的模型。

这一发现表明，当前多模态模型在“生成视觉辅助材料并据此推理”这一特定闭环任务中，仍存在显著的能力短板，甚至不如传统的纯文本/符号解析方法稳定。

关键要点

能力断层：多模态 LLMs 在处理“工具生成 -> 视觉输入 -> 推理”这一链条时存在性能下降，特别是在需要视觉辅助的场景中。
VAMPS 的独特性：不同于评估静态图像理解的基准，VAMPS 强调模型主动构建图表并利用图表进行推理的能力。
数据规模与来源：包含 1,168 个双语（波斯语/英语）多模态题目，源自伊朗大学入学考试，并经人工审核的 LLM 合成数据扩充。
题目特征：所有题目均设计为通过绘图（如寻找交点、极值、渐近线）能提供更直观的解题路径。
反直觉结果：实验显示，直接解析求解（Direct Analytical Solving）在准确率上意外地超过了工具辅助的视觉求解（Tool-Enabled Visual Solving）。
现实映射：该基准旨在模拟真实工程/科学工作流中依赖可视化工具进行分析、验证和决策的场景。

意义与影响

VAMPS 基准的提出揭示了多模态 AI 发展的一个深层挑战：从“感知”到“行动”再到“再感知”的闭环能力尚未成熟。

重新定义多模态能力：传统的多模态评估往往停留在“输入图像，输出文本”的单向映射。VAMPS 指出，真正的智能应包含利用工具改变环境（生成图表）并理解新环境（分析图表）的能力。
工具使用的局限性：研究结果警示开发者，简单地给模型增加绘图工具并不必然提升其解题能力。如果模型无法正确解读自己生成的图表，或者生成图表的过程引入了噪声，工具反而可能成为负担。
未来研究方向：这一发现为改进多模态架构指明了方向。未来的研究可能需要关注如何增强模型对动态生成内容的 grounding（锚定/理解）能力，以及如何优化模型在“解析推理”与“视觉推理”之间的策略选择机制，而不是盲目依赖视觉辅助。
工程应用价值：在科学计算和工程设计软件中，AI 助手若不能可靠地通过可视化辅助用户决策，其实际应用价值将大打折扣。VAMPS 为衡量此类助手的能力提供了标准化的标尺。

查看原文 →arxiv.org