LLM在Lean中形式化数学证明能力评估
原标题:Evaluation of LLMs for Mathematical Formalization in Lean
速览
本文对比了多种大语言模型在Lean 4中生成形式化数学证明的有效性。研究采用miniF2F和miniCTX数据集子集,通过pass@$k$和refine@$k$指标进行基准测试。结果显示,Gemini 3.1 Pro和Claude Opus 4.7整体表现最佳,而NVIDIA Nemotron 3 Super和GPT-OSS 120B在成本效益方面最具竞争力。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
