留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题
速览
谷歌DeepMind宣布利用人工智能技术成功解决了9道著名的埃尔德什数学问题。其中包含一道困扰人类数学家长达56年的经典难题。这一突破展示了AI在复杂数学证明领域的强大潜力,标志着人工智能在科学探索中迈出了重要一步。
AI 深度解读
背景
数学界长期存在由匈牙利数学家保罗·埃尔德什(Paul Erdős)提出的众多开放性问题,这些问题往往困扰人类数十年甚至上百年,并伴随着丰厚的悬赏金。近期,AI在数学领域的突破速度令人瞩目。继OpenAI内部模型突破埃尔德什80年未解的“单位距离问题”后,谷歌DeepMind再次展示了AI在纯数学推理上的强大能力。
DeepMind发布了名为 AlphaProof Nexus 的新框架,基于Gemini大模型驱动。该系统不仅一口气解决了9道悬置多年的埃尔德什开放问题,还证明了OEIS(整数序列百科全书)中的44个猜想,解决了一道搁置15年的代数几何难题,并改进了凸优化领域的理论边界。这一成果标志着AI从“辅助工具”向“独立解题者”角色的进一步转变,且其推理成本极低,每道题仅需几百美元。
核心内容
AlphaProof Nexus 的核心架构是一个基于 Gemini 3.1 Pro 和 Lean 证明助手 的闭环迭代系统。其基本工作流程为:Gemini生成Lean语言证明步骤 → Lean编译器逐行检查逻辑 → 若报错,将错误信息反馈给模型 → 模型根据反馈修改代码 → 再次检查,直至证明通过。这种“写代码+查错循环”的模式类似于软件开发中的Debug过程,但对象是数学定理。
为了优化解题效率,DeepMind设计了四种不同层级的智能体(Agent):
- Agent A(基础循环模式):仅依赖Gemini 3.1 Pro梳理解题思路并编写证明代码,随后通过编译器反馈进行自我修正。这是最基础的架构,没有额外辅助工具。
- Agent B(引入AlphaProof):在Agent A的基础上,引入了DeepMind此前为奥数题目训练的强化学习证明工具AlphaProof。当基础模式在局部步骤卡壳时,调用AlphaProof进行强化学习驱动的树搜索,专门攻克难点。
- Agent C(进化算法模式):引入进化搜索思路。多个子Agent共享一个证明草图种群,通过Elo评分系统从合理性、清晰度、新颖性三个维度对草稿打分。高分草稿相互组合衍生新解法,低分草稿淘汰,实现证明空间的进化搜索。
- Agent D(全功能协同模式):结合进化筛选、专项工具(AlphaProof)和大模型逻辑推理,是理论上最强大的组合。
令人意外的是,论文数据显示,最简单的 Agent A 同样成功解出了全部9道难题。研究团队分析认为,这主要得益于Gemini 3.1 Pro本身强大的推理能力,以及Lean编译器提供的精确纠错反馈对AI引导作用远超预期。这意味着未来复杂的多工具组合系统可能不再是刚需,简单的“大模型+专业校验工具”循环足以应对大多数数学难题。
具体解决的难题案例包括:
- Erdős #12(1970年提出,悬置56年):
- 问题:构造一个无限整数集合,满足任意三个不同数字a,b,c中,a不整除b+c,且集合在自然数中保持一定密度。
- AI解法:利用中国剩余定理将大问题拆解为独立区块,每个区块内部使用三项等差数列的回避集满足约束,最后拼接成完整的无限集。
- Erdős #125(1996年提出,30年无定论):
- 问题:比较两个集合(三进制下仅含0/1的整数集合,与四进制下仅含0/1的整数集合)两两相加后的新集合,其在自然数中的下密度是否为正?
- AI答案:密度为零。
- 证明思路:利用 $\log_4 / \log_3$ 是无理数这一纯数论性质,证明3的幂次和4的幂次可任意精度逼近。通过归纳性稀疏化论证,使密度以0.99比率衰减直至归零。
- Erdős #846(1992年提出,34年未解):
- 问题:平面几何问题。是否存在一个无限扩展的平面点集,使得任意有限子集中大部分点不共线,但该集合无法被拆分为有限个“无三点共线”的子集?
- AI解法:将完全图的边映射到平面点,用二次多项式编码坐标,结合无穷Ramsey定理,将几何问题转化为图论和逻辑语言进行证明。
此外,该系统还解决了整除集构造、范德瓦尔登数间隙、西顿集孤立点等6道埃尔德什问题,以及希尔伯特函数对数凹性等代数几何难题。菲尔兹奖得主陶哲轩曾指出AI解决此类问题的成功率约为1-2%,DeepMind此次挑战353道题解开9道,比例与预期高度吻合。
关键要点
- 突破性成果:AlphaProof Nexus 一次性解决9道埃尔德什开放问题,证明44个OEIS猜想,解决1道15年代数几何悬案,改进1项凸优化理论边界。
- 技术架构:基于Gemini 3.1 Pro生成Lean代码,通过Lean编译器进行严格逻辑校验和错误反馈,形成闭环迭代。
- Agent对比:设计了A(基础循环)、B(加AlphaProof)、C(进化算法)、D(全功能)四种智能体。结果显示,最简单的Agent A也能解决所有9道难题,表明大模型自身能力与编译器反馈是关键,复杂工具链并非必需。
- 成本效益:每道题的推理成本仅为几百美元,远低于传统人类研究或复杂AI系统的算力投入。
- 具体解法示例:
- Erdős #12:中国剩余定理 + 三项等差数列回避集。
- Erdős #125:利用对数比值的无理性进行稀疏化论证,证明密度为零。
- Erdős #846:图论映射 + 二次多项式编码 + 无穷Ramsey定理。
- 成功率验证:353道题中解决9道,约2.5%的成功率,符合菲尔兹奖得主陶哲轩对AI当前解决埃尔德什问题成功率1-2%的预估。
- 开源情况:整套证明代码已在GitHub开源,论文发表于arXiv。
意义与影响
- AI数学能力的范式转变:此次突破表明,AI不再仅仅是人类数学家的辅助计算器或灵感启发器,而是能够独立完成高难度、长周期数学证明的独立主体。特别是Agent A的成功,证明了“大模型+形式化验证”这一简洁范式的有效性,降低了AI数学推理的技术门槛。
- 算力替代部分人类智慧:埃尔德什生前为这些难题设置悬赏,期望激励人类智慧。如今,解开这些谜题主要依赖算力和算法迭代。这引发了关于数学研究本质的思考:当算力可以以极低成本解决数十年悬案时,人类数学家的角色将如何重新定位?
- 推动形式化验证普及:Lean编译器的核心作用凸显了形式化方法在确保数学证明严谨性上的价值。未来,数学研究可能会更加依赖形式化验证工具,以减少人为疏忽,提高证明的可信度。
- 跨学科问题的解决新路径:AI展示了将不同数学分支(如数论、组合几何、图论)知识融合解决复杂问题的能力。例如,用纯数论性质解决组合几何问题,用图论语言翻译几何问题,这种跨域迁移能力是人类研究者难以时刻兼顾的。
- 对OpenAI竞争的回应:在OpenAI刚刚宣布突破埃尔德什单位距离问题后,DeepMind迅速跟进并解决更多难题,显示了谷歌在AI基础模型(Gemini)及其专用数学框架(AlphaProof)上的强劲竞争力。这标志着AI数学竞赛已进入白热化阶段。
