← 返回信息流
技术博客arXiv cs.AI·3 小时前

LLM在Lean中形式化数学证明能力评估

原标题:Evaluation of LLMs for Mathematical Formalization in Lean

速览

本文对比了多种大语言模型在Lean 4中生成形式化数学证明的有效性。研究采用miniF2F和miniCTX数据集子集,通过pass@$k$和refine@$k$指标进行基准测试。结果显示,Gemini 3.1 Pro和Claude Opus 4.7整体表现最佳,而NVIDIA Nemotron 3 Super和GPT-OSS 120B在成本效益方面最具竞争力。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org