技术博客arXiv cs.AI·2 小时前

VeriGeo：基于数值与分析验证的可控几何题生成框架

原标题：VeriGeo: Controllable Geometry Question Generation with Numerical and Analytical Verification

速览

VeriGeo提出了一种基于可执行推理轨迹的可控几何问题生成框架，解决了现有方法在可控性与可靠性之间的权衡难题。该框架通过Author和Solver智能体协同工作，利用共享动作序列连接自然语言、图形与证明步骤，并采用三阶段流水线进行数值一致性、分析可实现性及全局一致性验证。实验表明，基于VeriGeo生成的8.7k样本进行监督微调，在GeoQA、PGPS9K和MathVista-GPS等基准上取得了端到端多模态大模型求解器的最佳性能。

AI 深度解读

VeriGeo：基于数值与分析验证的可控几何题目生成框架

背景

几何问题的自动生成在 AI 辅助教育和多模态数学推理领域具有重要价值。然而，这一领域长期面临一个核心挑战：如何确保生成的题目陈述、几何图形、约束条件以及解题过程之间保持严格的相互一致性。

现有的生成方法往往在“可控性”和“可靠性”之间做出妥协：

基于种子的重写方法（Seed-based rewriting）：虽然灵活，允许用户指定特定约束，但其生成的题目往往难以验证，可靠性较弱。
先图后文构建法（Diagram-first construction）：通过先构建几何图形来保证题目的有效性，但这种方法难以适应用户任意指定的复杂约束条件，可控性较差。

这种权衡使得生成既符合用户意图又具备数学严谨性的几何题目变得异常困难。

核心内容

为了解决上述问题，研究团队提出了 VeriGeo，这是一个基于可执行推理轨迹（executable reasoning traces）的可控几何生成框架。该框架的核心在于通过两个智能体（Agent）的协作以及严格的三阶段验证流程，实现从用户约束到高质量几何题目的端到端生成。

1. 双智能体协作架构

VeriGeo 引入了两个核心智能体，分别承担不同的职责：

Author Agent（作者智能体）：根据用户指定的约束条件（如目标知识点、难度等级等），生成几何题目描述和对应的几何图形。
Solver Agent（求解者智能体）：基于生成的题目，生成与证明逻辑对齐的解题步骤。

这两个智能体共享一套动作序列（action sequence），将自然语言描述、几何图形、几何约束和证明步骤连接到一个可验证的统一表示中。这种设计确保了题目文本与图形、逻辑推导之间的内在一致性。

2. 三阶段验证管道

为了过滤掉无效或错误的生成结果，VeriGeo 实施了一个严格的三阶段验证流程：

数值一致性检查（Numerical Consistency）：验证题目中涉及的数值关系是否自洽。
分析可实现性检查（Analytical Realizability）：从几何分析角度验证题目描述的图形是否存在（即是否满足几何公理和定理）。
全局一致性检查（Global Consistency）：确保题目陈述、图形、约束和解决方案在整个逻辑链条中完全一致。

3. 验证引导的反思修复机制

VeriGeo 不仅是一个生成器，也是一个修复器。当生成结果未能通过上述验证检查时，系统会启动“验证引导的反思”（verification-guided reflection）机制：

对于可恢复的错误，系统会自动尝试修复并重新生成。
对于不可恢复的错误，系统会直接拒绝该生成结果，从而保证最终输出数据的质量。

4. 实验验证与性能表现

研究团队在五种大型语言模型（LLM）后端上进行了测试。结果显示：

原始生成失败率高：未经 VeriGeo 处理的原始 LLM 生成结果经常无法通过验证检查。
修复效果显著：VeriGeo 成功修复了大量无效的生成尝试，显著提高了有效数据的产出率。
数据增强效果：利用 VeriGeo 生成的 8,700 个高质量示例进行监督微调（SFT），所训练的多模态 LLM 求解器在 GeoQA 基准测试中取得了端到端多模态 LLM 求解器中报告的最佳性能。
泛化能力：该方法在 PGPS9K 和 MathVista-GPS 基准测试中也取得了强劲的结果，证明了经过验证的合成数据对于提升多模态几何推理能力的有效性。

关键要点

解决一致性难题：VeriGeo 通过共享动作序列和可执行推理轨迹，解决了几何题目中文本、图形、约束和证明之间的不一致性问题。
平衡可控性与可靠性：结合了基于种子重写的灵活性和先图构建的严谨性，实现了既符合用户约束又具备数学正确性的题目生成。
自动化修复机制：引入验证引导的反思机制，能够自动修复可恢复的生成错误，大幅降低了人工清洗数据的成本。
高质量合成数据：生成的 8.7k 验证数据被证明是提升多模态几何推理模型性能的关键资源。
SOTA 性能提升：基于 VeriGeo 数据微调的模型在 GeoQA、PGPS9K 和 MathVista-GPS 等多个主流几何推理基准上取得了领先或极具竞争力的成绩。

意义与影响

VeriGeo 的提出标志着 AI 在数学教育内容生成和多模态推理领域迈出了重要一步。

首先，在教育技术方面，VeriGeo 提供了一种可扩展的解决方案，能够根据学生的具体需求（如特定知识点或难度）自动生成高质量、可验证的几何练习题，有助于实现个性化的自适应学习。

其次，在多模态 AI 研究方面，该工作强调了“验证”在合成数据生成中的核心作用。它证明了仅仅依靠 LLM 的生成能力是不够的，必须引入严格的逻辑和数值验证机制，才能生成真正可用于训练高精度推理模型的数据。

最后，VeriGeo 展示了可执行推理轨迹作为一种中间表示形式的强大潜力。通过将自然语言、图形和逻辑步骤统一到一个可计算的框架中，为未来更复杂的数学问题生成和推理提供了新的范式。

查看原文 →arxiv.org