技术博客美团技术团队·1 小时前

美团搜推ASX团队顶会论文解读：大模型Agent前沿进展

原标题：美团技术团队顶会论文分享：搜索推荐ASX专场

速览

美团业务研发平台/搜推ASX团队聚焦构建大模型为基础的Agent技术体系，在后训练、Agentic强化学习和多模态理解等前沿方向持续深耕，已在ICLR、NeurIPS、CVPR、AAAI等顶会发表数十篇高质量论文。本文精选6篇进行解读，涵盖上下文轨迹老虎机提升数学推理、负样本投影残差强化学习优化LLM多样性、对比驱动评分准则生成实现可靠奖励建模、LocalSearchBench基准评测本地生活智能体搜索性能、DiningBench基准评估饮食领域VLM感知推理，以及Mem²Evolve自进化智能体框架。以上研究为美团在搜索推荐、Agentic系统及智能体应用中的技术进步提供了重要支撑，助力提升业务研发平台的AI能力。

AI 深度解读

美团技术团队顶会论文分享：搜索推荐ASX专场

背景

美团业务研发平台/搜推 ASX (Agentic System X)团队聚焦构建大模型为基础的 Agent 技术体系，在大模型后训练、Agentic 强化学习以及多模态理解等核心前沿方向持续深耕，已在 ICLR、NeurIPS、CVPR、AAAI 等 AI 领域的国际顶会发表数十篇高质量研究成果。

核心内容

01 Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards

论文下载：PDF
论文简介： 现有基于规则奖励的强化学习后训练通常直接使用最近一轮 rollout 进行策略优化，其中，低质量样本会引入噪声，高质量样本又常在单次使用后被丢弃，导致训练不稳定、样本利用不足。本文提出在线样本调度算法 CBS，将样本选择建模为上下文多臂老虎机问题，把每个候选样本视为 arm，并以训练后带来的性能增益作为奖励；通过轻量神经网络预测样本价值，并结合在线反馈动态调度。实验表明，CBS 可与多种策略优化方法结合，在 6 个数学推理数据集上稳定提升性能和训练效率。

02 ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

论文下载：PDF
论文简介： 本文提出 ResRL，一个负样本强化学习的新算法，旨在解决RLVR 提升LLM推理能力却损伤了输出多样性的问题。我们发现根因是惩罚负样本时误伤了正负样本共享的有效语义。ResRL 用 SVD 正确子空间 +投影残差，让惩罚只打在“真正的错误方向”上--数学超 NSR 9.4%、代码刷新 CodeForces SOTA、ALFWorld 超 PPO 7.8%，且 Pass@1 与 Pass@k 兼得。

03 CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

论文下载：PDF
论文简介： 本文提出 CDRRM，一个对比驱动的评分准则生成与奖励建模框架，旨在提升LLM对齐中奖励模型的可靠性、可解释性与数据效率。传统奖励模型是“黑箱”且依赖昂贵标注；现有准则方法存在冗余与偏见。CDRRM采用“对比-聚合”流程：先对比好/差回答定位关键差异，再聚合为简洁的任务相关准则，指导评判模型。实验表明，CDRRM在三个基准上达最先进水平，缓解话痨、位置等偏见，且仅用3千样本让未微调模型超越全量微调基线，兼具高效与可解释性。

04 LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services

论文下载：PDF
论文简介： 本文针对本地生活服务领域智能体搜索的研究空白，构建LocalSearchBench评测基准。该基准涵盖国内 9 座城市、6 大服务品类，包含超 134 万商户数据与 900 道用户多跳问答任务，同时配套交互环境 LocalPlayground 与商户检索工具 LocalRAG。实验测评 16 款主流大语言推理模型后发现,当前模型在此类任务表现不佳，最优模型 DeepSeek-V3.2 答题正确率仅 35.60%，普遍存在信息完整性、可信度不足等问题。研究还剖析了模型工具调用、多跳推理等典型缺陷，为本地生活服务场景下智能体搜索的模型训练和基准测试提供了重要支撑。

05 DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

论文下载：PDF
论文简介： 本论文提出 DiningBench，一个面向饮食领域的层次化多视角 VLM 评测基准，旨在弥补现有数据集任务单一、视角有限和营养标注不足的问题。该基准包含细粒度分类、营养估计和视觉问答三类任务，覆盖 3,021 道菜品和多视角图像。通过评测 29 个主流VLM模型，揭示现有模型在细粒度识别、营养推理和多视角融合上的不足。

06 Mem²Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation

论文下载：PDF
论文简介： 本文提出 Mem2Evolve，一个面向大语言模型智能体的自进化框架，通过 Asset Memory 与 Experience Memory 双记忆机制，协同实现能力扩展与经验积累。该框架可在任务执行中动态复用或创建工具与专家智能体，并从成功和失败轨迹中蒸馏可迁移经验。实验覆盖 6 类任务、8 个基准，结果表明 Mem2Evolve 显著优于普通 LLM 及单一进化策略，展现出更强的持续学习与任务泛化能力。

关键要点

01：CBS 通过上下文多臂老虎机建模样本选择，奖励为训练后性能增益，轻量神经网络预测价值并结合在线反馈动态调度，可与多种策略优化方法结合，在6个数学推理数据集上稳定提升性能和训练效率。
02：ResRL 使用SVD正确子空间+投影残差，仅对“真正的错误方向”进行惩罚，解决RLVR提升推理能力却损伤输出多样性的问题，在数学上超NSR 9.4%，代码刷新CodeForces SOTA，在ALFWorld上超PPO 7.8%，Pass@1与Pass@k兼得。
03：CDRRM 采用对比-聚合流程，先对比好/差回答定位关键差异，再聚合为简洁的任务相关准则，指导评判模型，缓解话痨、位置等偏见，在三个基准上达最先进水平，仅用3千样本让未微调模型超越全量微调基线。
04：LocalSearchBench 构建覆盖国内9座城市、6大服务品类、超134万商户数据及900道用户多跳问答任务的基准，配套LocalPlayground与LocalRAG；评测16款主流大语言推理模型发现，最优DeepSeek-V3.2正确率仅35.60%，普遍存在信息完整性、可信度不足等问题，剖析工具调用与多跳推理缺陷。
05：DiningBench 提出层次化多视角VLM评测基准，包含细粒度分类、营养估计、视觉问答三类任务，覆盖3021道菜品和多视角图像；评测29个主流VLM模型，揭示现有模型在细粒度识别、营养推理和多视角融合上的不足。
06：Mem2Evolve 提出双记忆机制（Asset Memory与Experience Memory）框架，通过协同进化能力扩展与经验蒸馏实现自进化，支持任务执行中动态复用或创建工具与专家智能体，并从成功失败轨迹中蒸馏可迁移经验，实验覆盖6类任务、8个基准，显著优于普通LLM及单一进化策略，提升持续学习与任务泛化能力。

意义与影响

这些论文聚焦大模型后训练、Agentic强化学习和多模态理解等前沿方向，分别从样本调度、推理能力提升、奖励建模、基准评测与自进化智能体四个维度提供了切实可行的技术方案。CBS和ResRL等强化学习改进算法，能有效缓解传统RL后训练中样本利用率低、训练不稳定及多样性损伤的问题；CDRRM的对比驱动奖励建模框架，显著提升数据效率与可解释性；LocalSearchBench和DiningBench则填补了本地生活服务和饮食领域智能体搜索/感知的多模态评测空白，为模型训练和基准测试提供支撑；Mem2Evolve的双记忆协同进化框架，展示出Agent持续学习与任务泛化能力的突破。这些成果为美团搜推业务在大模型时代构建更可靠、更高效的Agent体系，以及AI研究社区相关方向的深入探索提供了有力支持。

查看原文 →tech.meituan.com