← 返回信息流
技术博客美团技术团队·1 小时前

ACL 2026美团精选:从代码评测到生成式推荐构建AI新范式

原标题:ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式

速览

本文解读了被ACL 2026收录的六篇美团相关论文,技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化及生成式推荐等领域。研究内容涉及CoreCodeBench代码智能解耦、SOP-Maze复杂业务评估、AMO-Bench高难度数学挑战、LLM过度思考追踪、MASPO强化学习优化以及FLR生成式推荐方法。这些成果展示了在提升大模型推理能力、评测精度及应用落地方面的最新进展。

AI 深度解读

背景

ACL(Annual Meeting of the Association for Computational Linguistics,计算语言学协会年会)是计算语言学和自然语言处理(NLP)领域的国际顶级学术会议。自 1962 年创办以来,ACL 已成为该领域规模最大、影响力最高的学术盛会,汇聚了来自全球学术界和工业界的顶尖研究者。

美团技术团队近期发布了被 ACL 2026 收录的 6 篇论文精选。这些研究覆盖了大模型能力评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等多个前沿技术方向,旨在通过从能力评测到推理优化的全方位探索,构建生成式人工智能的新范式。

核心内容

本次精选的 6 篇论文分别从评测基准构建、复杂场景评估、高难度推理挑战、推理过程优化、强化学习算法改进以及推荐系统应用六个维度,深入探讨了大语言模型(LLM)的技术现状与优化路径。

1. CoreCodeBench:细粒度仓库级代码智能评测

针对现有代码评测缺乏细粒度视角的问题,论文提出了 CoreCodeBench 基准。该基准利用 COREPIPE 框架,从 12 个 Python 开源库中自动生成了 1,524 个结构化任务。这些任务涵盖了开发、修复、测试驱动开发等多种软件工程场景,能够有效区分不同的认知负载并动态调整任务复杂度。实验数据显示,其有效性达到 78.55%,显著优于现有方法,并揭示了模型在不同任务类型上存在的能力错配现象。CoreCodeBench 支持多任务组合评测,模拟真实开发环境,具备高自动化、强鲁棒性和可复现性,为代码智能评测提供了更精准的框架。

2. SOP-Maze:复杂业务标准操作流程评估

随着大模型作为智能体进入真实业务场景,现有的评测多关注指令遵循和决策能力,忽视了对复杂标准操作流程(SOP)的评估。SOP-Maze 基于真实业务数据构建,包含 23 个复杂 SOP 场景的 397 个实例和 3,422 个子任务。研究将 SOP 任务分为两类:“侧根系统”(LRS,选项众多、需精准选择的宽广型任务)和“主根系统”(HRS,强调复杂分支的深度逻辑推理)。实验表明,当前最先进的模型在该基准上表现吃力,主要错误集中在“路线盲区”(难以遵循流程)、“对话脆弱性”(无法处理细微之处)和“计算错误”(复杂语境下的推理出错),揭示了模型在真正执行复杂业务流程方面的短板。

3. AMO-Bench:高中数学竞赛级推理挑战

鉴于顶尖大模型在 AIME 等现有竞赛基准上性能趋于饱和,论文提出了 AMO-Bench,一个包含 50 道人工命题的极高难度数学推理基准。该基准经过专家验证,难度达到国际奥数(IMO)或更高水平,且完全原创以杜绝数据污染,仅需最终答案以支持自动评测。对 26 款大模型的评测显示,最强模型的准确率仅为 52.4%,多数模型不足 40%。尽管增加“测试时计算”展现出扩展潜力,但结果表明大模型在超高难度推理能力上仍有巨大的提升空间。

4. 思维的进化:追踪大模型的过度思考

该研究聚焦于大模型长链推理中的“过度思考”现象,即模型在答案已形成后仍继续生成冗余的 thinking 过程。通过分析两类推理动态(thinking 长度与 content 长度的补偿关系,以及语义表示从探索到收敛的轨迹变化),论文提出了实例级的 Reasoning Completion Point (RCP),用于区分答案形成前的有效探索和答案稳定后的冗余延伸。基于此设计的 RCP 检测器,能在 AIME、GPQA 等任务上有效减少生成 token 数量,同时基本保持模型准确率,实现了推理效率的优化。

5. MASPO:鲁棒且样本高效的强化学习优化

针对现有 RLVR(可验证奖励的强化学习)方法(如 GRPO)在训练稳定性和样本效率上的不足,论文提出了 MASPO 优化方案。现有方法依赖固定、对称的硬截断信任域,与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。MASPO 引入了三大创新:

  • Soft Gaussian Gating:替代硬裁剪,保留有效梯度;
  • Mass-Adaptive Limiter:根据 token 概率动态调整约束,提升长尾探索能力;
  • Asymmetric Risk Controller:区分正负样本可靠性,谨慎处理噪声负样本。 实验证明,MASPO 在多个数学推理基准和不同模型规模上,相比基线取得了更优的 Avg@32 与 Pass@32 表现,展现出更好的鲁棒性和可扩展性。

6. Factorized Latent Reasoning:生成式推荐中的分解式隐式推理

在生成式推荐任务中,现有方法通常采用单一隐向量表征用户意图,难以捕捉用户偏好的多维性。论文提出了 FLR 方法,将隐式推理分解为多个语义解耦的偏好因子,并引入轻量级多因子注意力模块,在隐式思维空间中进行多维推理。此外,提出了 FLR-GRPO,利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上的实验显示,FLR 相比最强基线 LatentR3 平均提升 3.2%,其中 Games 子集提升达 10.26%,实现了隐式推理的语义透明化与性能提升。

关键要点

  • 评测基准的精细化与真实性:CoreCodeBench 和 SOP-Maze 分别从代码工程和业务流程两个维度,指出了当前评测缺乏细粒度区分和真实场景模拟的问题,揭示了模型在特定复杂任务中的能力错配和短板。
  • 高难度推理仍是瓶颈:AMO-Bench 的结果表明,尽管模型在常规竞赛中表现优异,但在 IMO 级别的极高难度数学推理上,准确率仍不足半数,说明推理能力尚未饱和。
  • 推理效率与质量的平衡:通过 RCP 检测过度思考,可以在不牺牲准确率的前提下显著减少推理 token 的消耗,为长链推理的成本优化提供了新思路。
  • 强化学习算法的适应性改进:MASPO 通过引入软截断、动态约束和不对称风险控制,解决了传统 RLVR 方法在处理长尾分布和噪声样本时的不稳定性,提升了训练效率和鲁棒性。
  • 推荐系统的语义解耦:FLR 方法通过分解用户偏好因子,解决了单一隐向量表征能力的局限性,在生成式推荐中实现了性能与可解释性的双重提升。

意义与影响

这 6 篇论文共同描绘了大语言模型从“通用能力”向“垂直深度”和“推理效率”演进的技术路径。

首先,在评测体系方面,美团团队提出的 CoreCodeBench、SOP-Maze 和 AMO-Bench 打破了以往评测基准的局限性,强调了细粒度、真实业务场景和高难度挑战的重要性。这不仅为学术界提供了更严苛的测试床,也促使工业界重新审视模型在实际应用中的可靠性。

其次,在模型优化方面,RCP 和 MASPO 的研究直接针对大模型落地过程中的痛点——推理成本高和训练不稳定。通过算法层面的创新,这些工作为降低推理成本、提升训练效率提供了可落地的技术方案。

最后,在应用场景方面,FLR 在生成式推荐领域的成功应用,展示了大模型技术如何与传统推荐系统结合,通过语义解耦提升推荐精度。这表明生成式 AI 正在深入渗透到搜索、推荐、代码辅助等核心业务场景,推动行业从简单的内容生成向复杂的逻辑推理和决策支持转变。

总体而言,这些研究成果不仅丰富了 NLP 领域的理论体系,也为构建更高效、更鲁棒、更懂业务的生成式 AI 系统奠定了坚实基础。

查看原文 →tech.meituan.com