Maxproof
AI 深度解读
MaxProof:基于生成-验证强化学习与群体级测试时扩展的数学证明新范式
背景
在人工智能领域,大语言模型(LLMs)在自然语言处理任务上取得了显著进展,但在需要严格逻辑推理的数学证明任务上,仍面临“幻觉”和逻辑断裂的挑战。传统的生成式模型往往难以保证每一步推导的严密性,尤其是在处理奥林匹克级别的复杂数学问题时。
为了突破这一瓶颈,MiniMax(MiniMax-M3系列)团队提出了一种新的框架,旨在通过结合生成、验证和修正能力,并利用测试时计算资源(Test-Time Scaling)来扩展模型的推理深度。这项工作不仅关注模型本身的训练,更侧重于如何在推理阶段通过系统性的搜索和筛选机制,最大化模型的潜在能力。该研究发表于2026年6月11日,标志着AI在形式化数学证明领域迈出了关键一步。
核心内容
本文介绍了 MaxProof,这是一个面向竞赛级数学证明的群体级测试时扩展(Population-Level Test-Time Scaling)框架,基于 MiniMax-M3 系列模型构建。其核心工作流程和架构创新如下:
1. M3 模型的多能力训练
M3 模型首先通过一种专为低误报率设计的“纵深防御生成验证器”(defense-in-depth generative verifier),训练了三种与证明相关的核心能力:
- 证明生成(Proof Generation):生成初步的解题步骤和逻辑链条。
- 证明验证(Proof Verification):评估生成步骤的逻辑正确性。
- 批判性条件证明修复(Critique-Conditioned Proof Repair):根据验证器的反馈或批判意见,对错误的证明进行修正。
这三种能力被融合到单一的发布版 M3 模型中,使其具备端到端的数学推理潜力。
2. MaxProof 的测试时扩展机制
在推理阶段,MaxProof 不再仅仅将模型视为一个生成器,而是将其角色扩展为生成器、验证器、精炼器和排名器。具体流程包括:
- 群体搜索:模型生成一个候选证明的群体(Population of candidate proofs)。
- 多角色协同:利用模型内部的验证和精炼能力,对这些候选证明进行迭代式的评估和优化。
- 锦标赛选择(Tournament Selection):通过多轮对抗或比较,从群体中筛选出最终的一个最优证明。
这种机制允许模型在测试时投入更多的计算资源(即“测试时扩展”),通过增加搜索空间和迭代次数来提升最终答案的准确性,而非仅仅依赖模型参数的静态能力。
3. 性能表现
通过 MaxProof 的测试时扩展,M3 模型在权威数学竞赛中取得了超越人类金牌选手的成绩:
- IMO 2025(国际数学奥林匹克):得分 35/42。
- USAMO 2026(美国数学奥林匹克):得分 36/42。
这两个分数均超过了人类金牌选手的阈值,证明了该框架在处理高难度、高复杂度数学证明时的有效性。
关键要点
- 多能力融合架构:M3 模型并非单一的生成器,而是集成了生成、验证和修复三种能力的统一模型,通过“纵深防御”策略降低逻辑错误率。
- 测试时计算扩展:MaxProof 的核心创新在于利用测试时的计算资源进行群体级搜索。通过生成多个候选解并相互竞争、验证,从而挖掘模型在静态推理中无法触及的高阶逻辑能力。
- 角色动态转换:在推理过程中,模型动态地在生成者、验证者、精炼者和排名者之间切换,形成闭环的自我纠错机制。
- 超越人类基准:在 IMO 2025 和 USAMO 2026 中,M3 模型通过 MaxProof 框架分别达到 35/42 和 36/42 的分数,正式超越了人类金牌水平。
- 低误报率验证器:训练阶段特别强调了验证器的准确性,通过减少假阳性(False Positives)来确保生成的证明路径是可靠且可被接受的。
意义与影响
MaxProof 的提出标志着 AI 数学推理从“单次生成”向“系统性搜索与验证”的范式转变。其意义主要体现在以下几个方面:
- 重新定义 AI 推理能力:传统观点认为提升模型推理能力主要依赖预训练数据的规模和模型参数量的增加。MaxProof 证明了通过优化推理阶段的算法(如测试时扩展和群体搜索),可以在不增加模型参数的前提下,显著提升复杂逻辑任务的表现。
- 解决“幻觉”问题的新路径:通过引入严格的验证器和自我修复机制,MaxProof 为缓解大模型在逻辑密集型任务中的幻觉问题提供了可行的工程方案。这种“生成-验证-修正”的闭环是构建可靠 AI 助手的关键。
- 推动形式化验证的发展:在数学、法律和代码验证等领域,逻辑的严密性至关重要。MaxProof 的成功表明,AI 已经具备处理高度形式化、高难度证明任务的能力,这为 AI 在科学发现、定理证明和软件验证等高风险领域的应用铺平了道路。
- 竞赛级 AI 的里程碑:超越 IMO 和 USAMO 的人类金牌阈值,不仅是技术上的突破,也象征着 AI 在通用智能(AGI)道路上,特别是在逻辑推理这一核心认知能力上,达到了新的里程碑。这为后续更复杂的科学推理任务(如物理模拟、化学合成路径设计等)提供了重要的技术参考。
