技术博客arXiv cs.AI·4 小时前

求解器驱动自动形式化与定理提出，提升几何问题可验证推理

原标题：Verifiable Geometry Problem Solving: Solver-Driven Autoformalization and Theorem Proposing

速览

针对现有几何求解框架在自动形式化和定理预测阶段的瓶颈，研究提出SD-GPS框架。该框架以符号求解器为执行预言机，将可执行性作为核心训练信号，并引入死锁感知智能体提出局部辅助引理。在Geometry3K和PGPS9K数据集上的实验表明，该方法在多项指标上均优于现有方法，证明了闭环机制对提升几何推理的有效性。

AI 深度解读

可验证几何问题求解：求解器驱动的自动形式化与定理提出

背景

几何问题求解（Geometry Problem Solving, GPS）近年来日益采用神经符号范式（neuro-symbolic paradigm），旨在结合神经网络的直觉能力与符号逻辑的严谨性。然而，现有的框架在两个核心阶段面临严重的瓶颈：

自动形式化（Autoformalization）：目前的方法通常将多模态翻译视为一个静态任务，将其与下游求解器的兼容性脱钩。这意味着视觉信息转化为符号语言的过程往往是孤立的，未能充分考虑后续逻辑推导的需求。
定理预测（Theorem Prediction）：在推理过程中，求解器经常因为固定的规则库限制而陷入演绎僵局（deductive impasse），导致无法继续推进证明过程。

为了解决上述问题，研究人员提出了一种新的框架，旨在通过闭环反馈机制，将多模态感知与符号执行紧密结合，从而实现可验证的问题求解能力。

核心内容

本文提出了 SD-GPS（Solver-Driven Geometry Problem Solving，求解器驱动的几何问题求解）框架。该框架的核心创新在于将符号求解器（symbolic solver）视为整个形式化过程和演绎过程中的“执行预言机”（execution oracle）。SD-GPS 主要包含两个关键模块：

1. 求解器驱动的自动形式化（Solver-Driven Autoformalization）

传统的自动形式化往往缺乏对“可执行性”的关注。SD-GPS 通过以下统一模块解决了这一问题：

基础模型：基于 QwenVL3-2B 模型构建。
训练信号：将“可执行性”（executability）作为核心训练信号。
方法融合：将监督式的形式语言适应（supervised formal-language adaptation）与可解性引导的强化学习（solvability-guided reinforcement learning）统一到一个模块中。
目标：确保生成的符号表示不仅语义正确，而且能够被下游的符号求解器成功执行和推理。

2. 验证定理提出（Verified Theorem Proposing）

针对求解器在固定规则库下容易陷入僵局的问题，SD-GPS 引入了一个“僵局感知代理”（impasse-aware agent）：

动态引理生成：该代理能够根据当前的证明状态（current proof states），动态地提出局部辅助引理（local auxiliary lemmas）。
符号验证过滤：为了确保推导的正确性（soundness），所有提出的引理都必须通过符号验证（symbolic verification）的过滤。只有经过验证的引理才会被纳入证明过程。
打破僵局：通过这种方式，系统能够突破固定规则库的限制，自主发现并引入新的推理步骤，从而走出演绎僵局。

关键要点

闭环反馈机制：SD-GPS 的核心思想是“求解器驱动”。它不再将形式化和推理视为线性、独立的步骤，而是利用求解器的反馈来指导形式化的生成和定理的提出，形成了“感知-形式化-执行-反馈”的闭环。
可执行性优先：在自动形式化阶段，不再仅仅追求从图像到文本的翻译准确率，而是追求生成的符号语言能否被求解器“执行”。这通过结合监督学习和强化学习来实现。
动态定理发现：传统的神经符号方法依赖预定义的规则库，容易遇到瓶颈。SD-GPS 通过引入僵局感知代理，能够根据证明进度动态生成并验证新的辅助引理，极大地扩展了推理能力。
模型基础：该框架建立在 QwenVL3-2B 这一多模态大语言模型之上，利用其强大的多模态理解能力进行初始的形式化翻译。
验证机制：所有由 AI 提出的新定理或引理，都必须经过严格的符号逻辑验证，确保了最终结果的可验证性和可靠性，避免了纯神经网络方法常见的“幻觉”问题。

意义与影响

在 Geometry3K 和 PGPS9K 这两个标准几何问题求解数据集上的实证评估表明，SD-GPS 在标准完成（standard completion）、多项选择（multiple-choice）以及跨模态参考（cross-modal reference）设置下，均一致地优于现有的多模态大语言模型（MLLM）、纯神经网络方法以及现有的神经符号方法。

这一成果证明了以下观点：

闭环的重要性：在多模态感知与符号执行之间建立闭环，能够显著提升几何推理的能力。
神经代理的根基：为神经智能体（neural agents）如何被形式化系统（formal systems）所“接地”（grounded）提供了深刻的见解。通过形式化系统的约束和验证，神经网络可以克服其固有的不确定性，实现真正可验证的问题求解能力。
范式转变：从静态的多模态翻译转向动态的、求解器驱动的形式化与定理生成，代表了神经符号 AI 在几何推理领域的一个重要进步。

查看原文 →arxiv.org