技术博客arXiv cs.AI·14 小时前

ComBench：评估大模型奥林匹克组合数学推理与构造能力的新基准

原标题：ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics

速览

研究团队推出ComBench，这是一个针对奥林匹克级别组合数学的基准测试，旨在评估和诊断大语言模型的组合推理能力。该基准包含100个人工标注的问题，分为以分析为中心的证明推理和以构造为中心的具体构造两类。实验显示，当前最先进模型在该基准上远未饱和，最高得分仅为65.4%，揭示了前沿模型在创造性数学推理方面仍存在显著差距。

AI 深度解读

ComBench：奥林匹克级组合数学中的严格证明推理与构造实现基准

背景

组合数学（Combinatorics）是奥林匹克级别数学解题的核心领域，它不仅要求解题者具备深厚的离散推理能力，还需要创造性的构造技巧以及对结构严谨的洞察力。尽管近年来大型语言模型（LLMs）在数学推理任务上取得了显著进展，但现有证据表明，即使是当前最先进的顶级模型（Frontier Models），在应对奥林匹克级别的组合数学问题时，表现依然参差不齐。

这种不稳定性揭示了一个关键缺口：当前的 AI 模型在创造性数学推理方面仍存在不足。为了更准确地评估和诊断大语言模型在组合推理方面的能力，研究人员引入了 ComBench——一个专门针对奥林匹克级组合数学问题的基准测试。

核心内容

ComBench 是一个包含 100 个人类标注的竞争级问题的基准数据集，旨在评估大语言模型在组合推理方面的能力。该基准围绕两个互补的设置组织问题：

以分析为中心的问题（Analysis-centric problems）：主要要求提供严格的数学论证。
以构造为中心的问题（Construction-centric problems）：除了需要证明正确性外，还要求提供显式的构造方案。

评估协议

ComBench 的评估协议结合了基于评分指南的证明评分（rubric-guided proof grading）和确定性构造验证（deterministic construction verification）。这种混合评估方法能够暴露出“证明质量”与“构造有效性”之间的差异情况，即模型可能写出了看似合理的证明，但未能给出有效的构造，或者反之。

实验结果

在前沿开源和闭源模型上的实验显示，ComBench 远未达到饱和状态。最强的模型仅达到了 65.4% 的整体平均分（Avg.）和 75.3% 的整体 Best@4 得分。

此外，研究进一步发现，“严格证明推理”和“构造实现”是两种截然不同的能力：

Kimi-K2.6 在以分析为中心的证明评分上落后于 GPT-5.5。
然而，在以构造为中心的 Best@4 指标上，Kimi-K2.6 却超越了 GPT-5.5。
无论模型如何，存在性问题（Existence） 和 构造性问题（Construction） 在代表性的前沿模型中始终是最难的。

关键要点

基准定义：ComBench 是一个专为奥林匹克级组合数学设计的基准，包含 100 个经过人类标注的问题，旨在解决当前模型在创造性数学推理上的能力缺口。
双重视角评估：
- 分析型：侧重严格的数学逻辑论证。
- 构造型：侧重具体的对象/方案构造及其正确性验证。
混合验证机制：采用“评分指南+确定性验证”的双重协议，有效区分了模型在“写证明”和“做构造”上的不同表现。
性能天花板：当前最强模型在 ComBench 上的整体平均分仅为 65.4%，表明该领域仍有巨大的提升空间，远未饱和。
能力解耦发现：
- 严格证明推理与构造实现是两种独立的能力维度。
- 不同模型在不同维度上表现各异（例如 Kimi-K2.6 在构造方面优于 GPT-5.5，但在分析证明方面稍逊）。
难点共识：存在性问题和构造性问题是目前所有前沿模型共同面临的 hardest cases（最难案例）。

意义与影响

ComBench 的发布对人工智能与数学交叉领域具有重要的指导意义：

揭示模型能力的细粒度差异：传统的数学基准往往将证明和构造混为一谈，而 ComBench 通过分离“分析”与“构造”，揭示了模型在处理离散结构时的具体弱点。例如，一个模型可能在逻辑推导上很强，但在生成具体构造方案时失败，这种细微差别在传统评估中容易被掩盖。
推动创造性推理的发展：组合数学中的构造问题往往需要跳出常规逻辑链条的创造性思维。ComBench 的低饱和率表明，当前模型在模仿人类创造性解题策略方面仍有巨大潜力，这为未来模型架构的训练目标提供了明确方向。
提供诊断工具：通过暴露证明质量与构造有效性的分歧，ComBench 可作为诊断工具，帮助研究人员理解模型失败的根本原因——是逻辑错误，还是构造算法的缺失。
基准的公平性与挑战性：由于 Olympiad-level 问题的特殊性，ComBench 为评估顶级模型设定了极高的标准。65.4% 的最高分意味着即使是最先进的 AI，在面对高水平人类数学竞赛题目时，仍无法稳定超越人类专家水平，这为衡量 AI 数学智能的真实水平提供了更可靠的标尺。

查看原文 →arxiv.org