技术博客arXiv cs.AI·3 小时前

LLM在Lean中形式化数学证明能力评估

原标题：Evaluation of LLMs for Mathematical Formalization in Lean

速览

本文对比了多种大语言模型在Lean 4中生成形式化数学证明的有效性。研究采用miniF2F和miniCTX数据集子集，通过pass@$k$和refine@$k$指标进行基准测试。结果显示，Gemini 3.1 Pro和Claude Opus 4.7整体表现最佳，而NVIDIA Nemotron 3 Super和GPT-OSS 120B在成本效益方面最具竞争力。

AI 深度解读

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）

查看原文 →arxiv.org

LLM在Lean中形式化数学证明能力评估

速览

AI 深度解读

相关推荐