技术博客arXiv cs.AI·3 天前

BilliardPhys-Bench：多模态大模型物理推理与视觉动态能力评测

原标题：BilliardPhys-Bench: Benchmarking Physical Reasoning and Visual Dynamics of Multimodal LLMs

速览

当前多模态模型在静态图像识别上表现良好，但在直观物理推理方面存在短板。研究提出BilliardPhys-Bench基准，利用合成台球环境中的摩擦和弹性碰撞场景，测试模型预测碰撞、墙壁反弹及最终位置的能力。评估结果显示，随着模拟时间增加和场景复杂度提升，GPT、Claude、Gemini和Qwen等主流模型性能下降，并普遍存在“静止偏差”现象。该研究揭示了多模态架构在视觉动态理解上的不足，指出需引入更好的物理归纳偏置。

AI 深度解读

BilliardPhys-Bench：多模态大模型物理推理与视觉动态能力的基准测试

背景

当前，多模态大语言模型（Multimodal LLMs, MLLMs）在静态图像识别任务上已经取得了显著进展，能够准确处理复杂的视觉信息。然而，在涉及“直觉物理推理”（intuitive physical reasoning）的领域，这些模型依然表现出明显的弱点。

人类具备一种与生俱来的能力，即通过观察静态画面或简短的视频片段，就能推断出物体未来的运动轨迹、相互作用以及最终状态。这种基于物理规律的视觉动态预测（visual dynamics prediction）对于机器人导航、自动驾驶、视频生成等应用至关重要。但对于现有的 MLLMs 而言，仅凭单张图像预测物体的运动方式和交互结果仍然是一个巨大的挑战。现有的模型往往缺乏对物理世界基本规律（如摩擦力、弹性碰撞、动量守恒等）的深层理解，导致其在处理动态场景时表现不佳。

为了量化并深入探究这一短板，研究人员提出了 BilliardPhys-Bench，这是一个专门针对合成台球环境设计的物理推理基准测试平台。

核心内容

BilliardPhys-Bench 是一个旨在评估多模态大模型物理推理能力的基准测试工具。该基准测试的核心在于其过程生成引擎（procedural engine），该引擎能够生成具有随机性的台球场景，并精确模拟现实世界中的物理特性，包括摩擦力（friction）和弹性碰撞（elastic collisions）。

该基准测试主要评估 MLLMs 的以下三项核心能力：

预测球与球之间的碰撞：模型需要根据初始状态，判断两个或多个台球在运动过程中是否会发生碰撞。
推理墙壁反弹行为：模型需要理解台球撞击边界（墙壁）后的反射路径和角度变化。
估算运动停止后的最终位置：在考虑摩擦力和多次碰撞后，模型需要准确估算台球最终静止时的坐标位置。

为了验证该基准测试的有效性，研究人员对来自 GPT、Claude、Gemini 和 Qwen 等主流家族的近期多模态大模型进行了全面评估。

评估结果揭示了几个关键现象：

性能随复杂度下降：随着模拟时间的增加以及场景几何结构的复杂化，所有测试模型的推理性能均出现显著下降。
“静止偏差”（Stasis Bias）：研究人员观察到一个一致的失败模式，称为“静止偏差”。当正确的物理结果难以推断或计算复杂时，模型倾向于预测“无交互”或“物体保持静止”。这是一种保守但错误的策略，表明模型并未真正理解物理动力学，而是依赖统计上的常见模式（即许多物体最终是静止的）。

这些发现清晰地指出了当前 MLLMs 在视觉动态处理上的失效点，并暗示了多模态架构中亟需引入更好的物理归纳偏置（physical inductive biases）。

关键要点

基准测试名称：BilliardPhys-Bench。
测试环境：合成台球环境，利用过程生成引擎创建随机场景，包含摩擦力和弹性碰撞模拟。
评估的三项能力：
1. 球-球碰撞预测。
2. 墙壁反弹推理。
3. 运动停止后的最终位置估算。
受测模型家族：GPT、Claude、Gemini、Qwen 等主流多模态大模型。
主要发现：
- 模型性能随模拟时间延长和场景几何复杂度增加而降低。
- 存在“静止偏差”（Stasis Bias）：当物理结果难以推断时，模型倾向于错误地预测无交互或物体静止。
结论指向：当前 MLLMs 在视觉动态推理上存在根本性缺陷，未来架构需要引入更强的物理归纳偏置。

意义与影响

BilliardPhys-Bench 的提出及其评估结果，对多模态人工智能的发展具有重要的警示和指导意义。

首先，它揭示了当前多模态大模型的一个核心盲区：静态感知与动态推理之间的巨大鸿沟。尽管模型能“看懂”图像中的物体，但它们并不真正“理解”物体在物理世界中的行为逻辑。这种理解缺失限制了模型在需要长期规划、物理交互和因果推理的任务中的应用潜力。

其次，“静止偏差”的发现为模型调试和评估提供了新的视角。它表明，仅仅提高模型在静态分类任务上的准确率，并不能保证其在动态任务中的可靠性。模型可能在简单场景下表现良好，但在复杂物理情境下会退化为一种“懒惰”的预测策略。这要求开发者在评估模型时，必须引入更具挑战性的动态基准测试，以检测此类隐蔽的失败模式。

最后，该研究指明了未来多模态架构改进的方向。为了提升物理推理能力，未来的模型设计可能需要：

引入显式的物理模块：将物理引擎或物理定律作为模型架构的一部分，而非仅依赖数据驱动的学习。
增强因果推理能力：使模型能够理解动作与结果之间的因果关系，而不仅仅是相关性。
优化归纳偏置：在设计神经网络结构时，融入对时间连续性、空间几何和物理守恒律的假设，从而帮助模型更好地泛化到未见过的动态场景中。

总之，BilliardPhys-Bench 不仅是一个评估工具，更是一个推动多模态大模型从“视觉识别者”向“物理世界理解者”转变的重要里程碑。

查看原文 →arxiv.org