← 返回信息流
技术博客美团技术团队·1 小时前

ICML 2026美团技术团队13篇论文精选

原标题:ICML 2026 | 美团技术团队学术论文精选

速览

ICML 2026共接收6352篇论文,美团技术团队有13篇入选。研究内容覆盖智能体长程推理、环境合成、价值模型解耦、自我验证、鲁棒性基准测试及超高分辨率视频生成等关键技术。这些成果展示了美团在AI基础理论与应用落地方面的最新进展。

AI 深度解读

ICML 2026 | 美团技术团队学术论文深度解读

背景

ICML(International Conference on Machine Learning,国际机器学习大会)作为机器学习领域最具影响力的国际顶级学术会议之一,始终致力于探讨该领域未来发展所面临的关键挑战与核心问题。大会通过征集和评估具有重要理论价值和实际影响的前沿研究成果,推动领域发展并引领未来研究方向。

2026年,ICML共收到全球投稿论文23,918篇,最终接收6,352篇,接收率约为26.6%。在这一高水平竞争中,美团技术团队共有13篇论文被收录。这些研究成果覆盖了智能体推理、强化学习训练、复杂任务生成、智能体基准测试、监督微调等多个前沿技术方向,展现了美团在人工智能基础理论与应用落地方面的深厚积累。

核心内容

美团技术团队此次入选的13篇论文主要围绕大语言模型(LLM)的智能体能力增强、视频生成技术的突破以及模型训练效率与鲁棒性的优化展开,具体解读如下:

智能体推理与记忆机制优化

针对长时间跨度推理中上下文窗口有限的问题,论文 MemOCR 提出了一种版面感知视觉记忆机制。现有记忆系统通常将历史序列化为文本,导致token开销均匀且随长度线性增长。MemOCR通过视觉布局实现自适应信息密度的记忆空间分配,在紧张的上下文预算下提升了长程推理能力,在长上下文多跳和单跳问答基准测试中优于强文本基线。

为解决通用交互式工具使用智能体的训练难题,ScaleEnv 构建了一个从零开始的可扩展环境合成系统。该系统通过程序化测试确保环境可靠性,利用工具依赖图扩展和可执行动作验证保证任务的完整性和可解性,在未见过的多轮工具使用基准测试中展现了显著的泛化性能提升。

在强化学习训练的价值模型方面,V_0 提出了一种适用于任意策略在初始状态下的通用价值模型。它通过将任务重新定义为上下文学习来预测未见策略的性能,从而将价值估计与特定策略参数解耦。实验显示,V_0在GRPO训练过程中追踪策略演化的能力优于耦合价值模型,并能优化冷启动预算分配。

智能体基准测试与鲁棒性评估

随着智能体部署于实际工作流,其鲁棒性评估变得至关重要。AgentNoiseBench 是一个用于系统评估大语言模型智能体在噪声条件下交互鲁棒性的框架,建模了用户侧指令噪声和工具侧结果噪声。评估发现,工具侧噪声通常比用户侧噪声引起更大幅度的性能下降。

针对复杂环境中智能体行为验证的困难,AJ-Bench 提出了“智能体充当评判者”(Agent-as-a-Judge)的基准测试。该基准涵盖搜索、数据系统和图形用户界面三个领域,通过主动与环境和工具交互获取可验证证据,相比传统的LLM-as-a-Judge基线方法取得了稳定的性能提升。

此外,TRIP-Bench 专注于真实场景中的长程交互式智能体评测,基于真实世界数据构建,包含18个工具和40多类旅行约束。其困难任务涉及超过20万tokens的上下文和150次以上工具调用。基于此基准提出的GTPO多轮强化学习方法,通过奖励归一化和轮次级奖励差分提升了模型鲁棒性。

视频生成与视觉记忆突破

在视频生成领域,LUVE 提出了一种基于双频率专家的潜空间级联超高分辨率视频生成框架。该框架采用三阶段架构:低分辨率生成保障运动一致性,潜空间上采样提升分辨率以降低开销,最后融合高低频专家细化内容。该思想已成功应用于美团的LongCat-Video模型中。

WildActor 则解决了无约束身份保持视频生成中的难题,如动态长镜头下的全身体态不一致和面部漂移。通过构建大规模数据集Actor-18M,并引入非对称身份保留注意力(AIPA)和身份感知3D旋转位置编码(I-ROPE),WildActor实现了鲁棒的任意视角条件控制,在连贯叙事与泛化测试中表现卓越。

InfVSR 提出了一种一致性驱动的流式生成视频超分辨率框架,旨在解决扩散式方法在长视频场景中推理效率低和时序不一致的问题。通过因果流式架构、滚动KV缓存及联合视觉引导,InfVSR在保持时序一致性的同时,推理速度提升了58倍,且长序列显存占用恒定。

Infinite-World 面向真实场景中的长程交互式世界模型,目标是在1000+帧生成中保持稳定的视觉记忆。通过无位姿层级记忆压缩器、不确定性感知动作标注及高回访数据微调,该模型有效降低了长程建模成本并增强了闭环能力。

模型训练效率与鲁棒性

在监督微调方面,SAFT(Spectrum-Adaptive Fine-Tuning)提出了一种谱自适应微调方法。针对SFT(效率端)和DFT(鲁棒性端)的局限性,SAFT通过轻量的pre-test protocol判断数据信噪比(SNR),动态选择几何插值或调和非线性插值,从而在鲁棒性与效率之间获得更优的帕累托权衡。

DRIVE 针对标准Decision Transformer在复杂竞价环境中的痛点,提出了“生成—检索—评估”闭环框架。通过高斯混合模型替代确定性输出、引入检索机制增强长尾场景记忆,以及通过IQL Critic实现闭环择优,显著提升了决策鲁棒性。

最后,Learning to Self-Verify 提出了一种多任务强化学习框架,将生成和自我验证作为独立但互补的目标进行联合优化。实验表明,学习自我验证能有效提升语言模型的生成性能,产生更高效的推理轨迹。

关键要点

  • 视觉记忆与长程推理:MemOCR利用视觉布局实现自适应信息密度分配,解决了长上下文推理中的token开销线性增长问题;Infinite-World通过无位姿层级记忆将交互式世界模型扩展至1000帧。
  • 环境合成与智能体训练:ScaleEnv从零构建全交互式环境和可验证任务,通过程序化测试和工具依赖图验证提升了智能体的泛化能力;V_0解耦了价值估计与策略参数,优化了冷启动预算分配。
  • 鲁棒性评估体系:AgentNoiseBench揭示了工具侧噪声对智能体性能影响更大;AJ-Bench验证了Agent-as-a-Judge在复杂环境验证中的优越性;TRIP-Bench针对长程旅行规划任务提出了高难度的评测标准。
  • 视频生成技术突破:LUVE通过双频率专家级联实现超高分辨率视频生成,已应用于LongCat-Video;WildActor通过解耦身份与运动生成,解决了动态场景下的身份保持难题;InfVSR通过因果流式架构实现了高效且时序一致的视频超分。
  • 训练算法优化:SAFT通过数据自适应的谱插值方法,在监督微调中平衡了效率与鲁棒性;DRIVE通过混合分布和检索增强机制,解决了决策Transformer在复杂竞价中的幻觉和坍缩问题;自我验证框架通过联合优化生成与验证目标,提升了推理轨迹效率。

意义与影响

美团技术团队在ICML 2026上的13篇入选论文,不仅展示了其在人工智能基础理论研究的深度,更体现了技术成果向实际业务场景转化的广度。

首先,在智能体(Agent)领域,美团通过MemOCR、ScaleEnv、AgentNoiseBench等研究,系统性地解决了智能体在长程推理、环境交互、鲁棒性评估等方面的关键瓶颈。特别是将理论创新应用于实际基准测试(如TRIP-Bench),为行业提供了可量化的评估标准,推动了智能体从实验室走向真实复杂场景。

其次,在生成式AI方面,LUVE和WildActor等成果直接服务于美团的视频生成业务(LongCat-Video),证明了其在超高分辨率、身份保持等难点上的技术领先性。InfVSR提出的流式超分方案,则在保证质量的同时大幅降低了计算成本,具有极高的工程应用价值。

最后,在模型训练与优化层面,SAFT和DRIVE等研究为LLM的微调和决策优化提供了新的理论视角和实用工具,特别是在平衡效率、鲁棒性和信噪比方面,为大规模模型

查看原文 →tech.meituan.com