← 返回信息流
技术博客arXiv cs.AI·14 小时前

ComBench:评估大模型奥林匹克组合数学推理与构造能力的新基准

原标题:ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics

速览

研究团队推出ComBench,这是一个针对奥林匹克级别组合数学的基准测试,旨在评估和诊断大语言模型的组合推理能力。该基准包含100个人工标注的问题,分为以分析为中心的证明推理和以构造为中心的具体构造两类。实验显示,当前最先进模型在该基准上远未饱和,最高得分仅为65.4%,揭示了前沿模型在创造性数学推理方面仍存在显著差距。

AI 深度解读

ComBench:奥林匹克级组合数学中的严格证明推理与构造实现基准

背景

组合数学(Combinatorics)是奥林匹克级别数学解题的核心领域,它不仅要求解题者具备深厚的离散推理能力,还需要创造性的构造技巧以及对结构严谨的洞察力。尽管近年来大型语言模型(LLMs)在数学推理任务上取得了显著进展,但现有证据表明,即使是当前最先进的顶级模型(Frontier Models),在应对奥林匹克级别的组合数学问题时,表现依然参差不齐。

这种不稳定性揭示了一个关键缺口:当前的 AI 模型在创造性数学推理方面仍存在不足。为了更准确地评估和诊断大语言模型在组合推理方面的能力,研究人员引入了 ComBench——一个专门针对奥林匹克级组合数学问题的基准测试。

核心内容

ComBench 是一个包含 100 个人类标注的竞争级问题的基准数据集,旨在评估大语言模型在组合推理方面的能力。该基准围绕两个互补的设置组织问题:

  1. 以分析为中心的问题(Analysis-centric problems):主要要求提供严格的数学论证。
  2. 以构造为中心的问题(Construction-centric problems):除了需要证明正确性外,还要求提供显式的构造方案。

评估协议

ComBench 的评估协议结合了基于评分指南的证明评分(rubric-guided proof grading)和确定性构造验证(deterministic construction verification)。这种混合评估方法能够暴露出“证明质量”与“构造有效性”之间的差异情况,即模型可能写出了看似合理的证明,但未能给出有效的构造,或者反之。

实验结果

在前沿开源和闭源模型上的实验显示,ComBench 远未达到饱和状态。最强的模型仅达到了 65.4% 的整体平均分(Avg.)和 75.3% 的整体 Best@4 得分。

此外,研究进一步发现,“严格证明推理”和“构造实现”是两种截然不同的能力:

  • Kimi-K2.6 在以分析为中心的证明评分上落后于 GPT-5.5
  • 然而,在以构造为中心的 Best@4 指标上,Kimi-K2.6 却超越了 GPT-5.5。
  • 无论模型如何,存在性问题(Existence)构造性问题(Construction) 在代表性的前沿模型中始终是最难的。

关键要点

  • 基准定义:ComBench 是一个专为奥林匹克级组合数学设计的基准,包含 100 个经过人类标注的问题,旨在解决当前模型在创造性数学推理上的能力缺口。
  • 双重视角评估
    • 分析型:侧重严格的数学逻辑论证。
    • 构造型:侧重具体的对象/方案构造及其正确性验证。
  • 混合验证机制:采用“评分指南+确定性验证”的双重协议,有效区分了模型在“写证明”和“做构造”上的不同表现。
  • 性能天花板:当前最强模型在 ComBench 上的整体平均分仅为 65.4%,表明该领域仍有巨大的提升空间,远未饱和。
  • 能力解耦发现
    • 严格证明推理与构造实现是两种独立的能力维度。
    • 不同模型在不同维度上表现各异(例如 Kimi-K2.6 在构造方面优于 GPT-5.5,但在分析证明方面稍逊)。
  • 难点共识:存在性问题和构造性问题是目前所有前沿模型共同面临的 hardest cases(最难案例)。

意义与影响

ComBench 的发布对人工智能与数学交叉领域具有重要的指导意义:

  1. 揭示模型能力的细粒度差异:传统的数学基准往往将证明和构造混为一谈,而 ComBench 通过分离“分析”与“构造”,揭示了模型在处理离散结构时的具体弱点。例如,一个模型可能在逻辑推导上很强,但在生成具体构造方案时失败,这种细微差别在传统评估中容易被掩盖。
  2. 推动创造性推理的发展:组合数学中的构造问题往往需要跳出常规逻辑链条的创造性思维。ComBench 的低饱和率表明,当前模型在模仿人类创造性解题策略方面仍有巨大潜力,这为未来模型架构的训练目标提供了明确方向。
  3. 提供诊断工具:通过暴露证明质量与构造有效性的分歧,ComBench 可作为诊断工具,帮助研究人员理解模型失败的根本原因——是逻辑错误,还是构造算法的缺失。
  4. 基准的公平性与挑战性:由于 Olympiad-level 问题的特殊性,ComBench 为评估顶级模型设定了极高的标准。65.4% 的最高分意味着即使是最先进的 AI,在面对高水平人类数学竞赛题目时,仍无法稳定超越人类专家水平,这为衡量 AI 数学智能的真实水平提供了更可靠的标尺。
查看原文 →arxiv.org