技术博客美团技术团队·1 小时前

ACL 2026美团精选：从代码评测到生成式推荐构建AI新范式

原标题：ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式

速览

本文解读了被ACL 2026收录的六篇美团相关论文，技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化及生成式推荐等领域。研究内容涉及CoreCodeBench代码智能解耦、SOP-Maze复杂业务评估、AMO-Bench高难度数学挑战、LLM过度思考追踪、MASPO强化学习优化以及FLR生成式推荐方法。这些成果展示了在提升大模型推理能力、评测精度及应用落地方面的最新进展。

AI 深度解读

背景

ACL（Annual Meeting of the Association for Computational Linguistics，计算语言学协会年会）是计算语言学和自然语言处理（NLP）领域的国际顶级学术会议。自 1962 年创办以来，ACL 已成为该领域规模最大、影响力最高的学术盛会，汇聚了来自全球学术界和工业界的顶尖研究者。

美团技术团队近期发布了被 ACL 2026 收录的 6 篇论文精选。这些研究覆盖了大模型能力评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等多个前沿技术方向，旨在通过从能力评测到推理优化的全方位探索，构建生成式人工智能的新范式。

核心内容

本次精选的 6 篇论文分别从评测基准构建、复杂场景评估、高难度推理挑战、推理过程优化、强化学习算法改进以及推荐系统应用六个维度，深入探讨了大语言模型（LLM）的技术现状与优化路径。

1. CoreCodeBench：细粒度仓库级代码智能评测

针对现有代码评测缺乏细粒度视角的问题，论文提出了 CoreCodeBench 基准。该基准利用 COREPIPE 框架，从 12 个 Python 开源库中自动生成了 1,524 个结构化任务。这些任务涵盖了开发、修复、测试驱动开发等多种软件工程场景，能够有效区分不同的认知负载并动态调整任务复杂度。实验数据显示，其有效性达到 78.55%，显著优于现有方法，并揭示了模型在不同任务类型上存在的能力错配现象。CoreCodeBench 支持多任务组合评测，模拟真实开发环境，具备高自动化、强鲁棒性和可复现性，为代码智能评测提供了更精准的框架。

2. SOP-Maze：复杂业务标准操作流程评估

随着大模型作为智能体进入真实业务场景，现有的评测多关注指令遵循和决策能力，忽视了对复杂标准操作流程（SOP）的评估。SOP-Maze 基于真实业务数据构建，包含 23 个复杂 SOP 场景的 397 个实例和 3,422 个子任务。研究将 SOP 任务分为两类：“侧根系统”（LRS，选项众多、需精准选择的宽广型任务）和“主根系统”（HRS，强调复杂分支的深度逻辑推理）。实验表明，当前最先进的模型在该基准上表现吃力，主要错误集中在“路线盲区”（难以遵循流程）、“对话脆弱性”（无法处理细微之处）和“计算错误”（复杂语境下的推理出错），揭示了模型在真正执行复杂业务流程方面的短板。

3. AMO-Bench：高中数学竞赛级推理挑战

鉴于顶尖大模型在 AIME 等现有竞赛基准上性能趋于饱和，论文提出了 AMO-Bench，一个包含 50 道人工命题的极高难度数学推理基准。该基准经过专家验证，难度达到国际奥数（IMO）或更高水平，且完全原创以杜绝数据污染，仅需最终答案以支持自动评测。对 26 款大模型的评测显示，最强模型的准确率仅为 52.4%，多数模型不足 40%。尽管增加“测试时计算”展现出扩展潜力，但结果表明大模型在超高难度推理能力上仍有巨大的提升空间。

4. 思维的进化：追踪大模型的过度思考

该研究聚焦于大模型长链推理中的“过度思考”现象，即模型在答案已形成后仍继续生成冗余的 thinking 过程。通过分析两类推理动态（thinking 长度与 content 长度的补偿关系，以及语义表示从探索到收敛的轨迹变化），论文提出了实例级的 Reasoning Completion Point (RCP)，用于区分答案形成前的有效探索和答案稳定后的冗余延伸。基于此设计的 RCP 检测器，能在 AIME、GPQA 等任务上有效减少生成 token 数量，同时基本保持模型准确率，实现了推理效率的优化。

5. MASPO：鲁棒且样本高效的强化学习优化

针对现有 RLVR（可验证奖励的强化学习）方法（如 GRPO）在训练稳定性和样本效率上的不足，论文提出了 MASPO 优化方案。现有方法依赖固定、对称的硬截断信任域，与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。MASPO 引入了三大创新：

Soft Gaussian Gating：替代硬裁剪，保留有效梯度；
Mass-Adaptive Limiter：根据 token 概率动态调整约束，提升长尾探索能力；
Asymmetric Risk Controller：区分正负样本可靠性，谨慎处理噪声负样本。实验证明，MASPO 在多个数学推理基准和不同模型规模上，相比基线取得了更优的 Avg@32 与 Pass@32 表现，展现出更好的鲁棒性和可扩展性。

6. Factorized Latent Reasoning：生成式推荐中的分解式隐式推理

在生成式推荐任务中，现有方法通常采用单一隐向量表征用户意图，难以捕捉用户偏好的多维性。论文提出了 FLR 方法，将隐式推理分解为多个语义解耦的偏好因子，并引入轻量级多因子注意力模块，在隐式思维空间中进行多维推理。此外，提出了 FLR-GRPO，利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上的实验显示，FLR 相比最强基线 LatentR3 平均提升 3.2%，其中 Games 子集提升达 10.26%，实现了隐式推理的语义透明化与性能提升。

关键要点

评测基准的精细化与真实性：CoreCodeBench 和 SOP-Maze 分别从代码工程和业务流程两个维度，指出了当前评测缺乏细粒度区分和真实场景模拟的问题，揭示了模型在特定复杂任务中的能力错配和短板。
高难度推理仍是瓶颈：AMO-Bench 的结果表明，尽管模型在常规竞赛中表现优异，但在 IMO 级别的极高难度数学推理上，准确率仍不足半数，说明推理能力尚未饱和。
推理效率与质量的平衡：通过 RCP 检测过度思考，可以在不牺牲准确率的前提下显著减少推理 token 的消耗，为长链推理的成本优化提供了新思路。
强化学习算法的适应性改进：MASPO 通过引入软截断、动态约束和不对称风险控制，解决了传统 RLVR 方法在处理长尾分布和噪声样本时的不稳定性，提升了训练效率和鲁棒性。
推荐系统的语义解耦：FLR 方法通过分解用户偏好因子，解决了单一隐向量表征能力的局限性，在生成式推荐中实现了性能与可解释性的双重提升。

意义与影响

这 6 篇论文共同描绘了大语言模型从“通用能力”向“垂直深度”和“推理效率”演进的技术路径。

首先，在评测体系方面，美团团队提出的 CoreCodeBench、SOP-Maze 和 AMO-Bench 打破了以往评测基准的局限性，强调了细粒度、真实业务场景和高难度挑战的重要性。这不仅为学术界提供了更严苛的测试床，也促使工业界重新审视模型在实际应用中的可靠性。

其次，在模型优化方面，RCP 和 MASPO 的研究直接针对大模型落地过程中的痛点——推理成本高和训练不稳定。通过算法层面的创新，这些工作为降低推理成本、提升训练效率提供了可落地的技术方案。

最后，在应用场景方面，FLR 在生成式推荐领域的成功应用，展示了大模型技术如何与传统推荐系统结合，通过语义解耦提升推荐精度。这表明生成式 AI 正在深入渗透到搜索、推荐、代码辅助等核心业务场景，推动行业从简单的内容生成向复杂的逻辑推理和决策支持转变。

总体而言，这些研究成果不仅丰富了 NLP 领域的理论体系，也为构建更高效、更鲁棒、更懂业务的生成式 AI 系统奠定了坚实基础。

查看原文 →tech.meituan.com