AI 资讯雷峰网·4 小时前2 源报道

滴滴五篇论文入选ICML 2026，涵盖大模型智能体与强化学习

原标题：滴滴多篇论文入选 ICML2026，值得一读！

速览

近日，滴滴五篇高质量论文被机器学习顶级会议ICML 2026录用。这些成果由滴滴L-Lab、网约车交易市场技术团队与中山大学、香港科技大学（广州）、北京大学等高校联合研发。研究内容涵盖大模型智能体长周期任务评估、GUI自动化自进化记忆系统、持续离线强化学习及因果推断等前沿领域。这体现了滴滴在将前沿AI探索与产业需求结合方面的持续深耕。

AI 深度解读

滴滴五篇论文入选 ICML 2026：从智能体长程推理到因果推断的产业化落地

背景

国际机器学习大会（International Conference on Machine Learning，简称 ICML）是机器学习领域最具影响力的顶级学术会议之一，也是中国计算机学会（CCF）推荐的 A 类国际学术会议。第 43 届 ICML 会议定于 2026 年 7 月 6 日至 11 日在韩国首尔举行。

本届 ICML 竞争极为激烈，大会共收到 23,918 份论文提交，最终仅有 6,352 篇被录用，录用率约为 26.5%。其中，仅有 526 篇论文被选为 Spotlight Paper（亮点论文），代表了该年度机器学习领域的前沿突破。

在此背景下，滴滴共有五篇高质量学术成果被大会收录。这些研究主要由滴滴 L-Lab 团队、滴滴网约车交易市场技术团队，与中山大学、香港科技大学（广州）、北京大学、上海财经大学等高校联合研发完成。这一成果不仅体现了滴滴在基础算法研究上的深厚积累，也展示了其“产学研”深度融合的技术生态。

核心内容

本次入选的五篇论文涵盖了大模型智能体评估、GUI 自动化记忆机制、持续离线强化学习、LLM 智能体效率优化以及大规模营销场景下的因果推断五大方向。

1. UltraHorizon: 面向超长周期场景的大模型智能体能力基准测试

研究团队：滴滴 L-Lab × 中山大学
核心问题：现有的自主智能体评估基准往往无法涵盖现实世界中需要持续推理、长期记忆管理和频繁工具调用的复杂任务。
方法与创新：研究团队提出了 UltraHorizon，这是一个全新的跨环境探索基准测试。其特点包括极长的智能体交互轨迹、极高的 Token 消耗量以及频繁的工具调用。
主要发现：广泛的实验表明，当前最先进的智能体在这些长周期任务中的表现远不如人类。更重要的是，这些模型无法通过简单的规模扩大（Scaling Law）来提升性能。失败的主要原因被归结为“上下文锁定”（in-context locking）现象以及基础能力的缺失。

2. Darwinian Memory: 面向 GUI 智能体进化的无训练自调节记忆系统

研究团队：滴滴 L-Lab
核心问题：多模态大语言模型（MLLM）在处理复杂 GUI 自动化任务时，面临记忆容量有限和上下文窗口受限的挑战。
方法与创新：提出了达尔文记忆系统（Darwinian Memory System, DMS）。该系统是一种自进化架构，利用效用驱动的“自然选择”机制，动态地分解任务并淘汰次优策略。
主要发现：DMS 将记忆构建为一个不断进化的生态系统。实验显示，在无需任何额外训练的情况下，DMS 显著提升了 MLLM 智能体的任务成功率、执行稳定性与效率。

3. HTAC: 持续离线强化学习中的层次化任务感知组合方法

研究团队：滴滴 L-Lab × 中山大学
核心问题：在持续离线强化学习（Continual Offline RL, CORL）中，如何克服任务异质性带来的知识复用与隔离难题。
方法与创新：提出了层次化任务感知组合方法（Hierarchical Task-Aware Composition, HTAC）。该方法通过双层任务编码与软组合机制，将任务解耦为域级（domain-level）与任务级（task-level）嵌入。借助按需创建的专家网络与注意力式知识整合，实现了参数高效的知识隔离与复用。
主要发现：在离线持续世界基准上，HTAC 兼顾了可塑性与稳定性，显著提升了智能体的跨任务泛化与知识迁移能力。

4. Agent-Omit: 面向高效 LLM 智能体的自适应上下文省略机制

研究团队：滴滴 L-Lab × 香港科技大学（广州）
核心问题：现有方法在对大语言模型智能体的思考过程与环境观察进行统一压缩时，未考虑不同交互轮次的效用差异，导致效率低下。
方法与创新：提出了 Agent-Omit 框架。通过定量分析证实，智能体在交互中间轮次产生的思考与观察信息存在大量冗余，可在不降低任务效果的前提下安全省略。
- 两阶段训练：首先基于冷启动数据微调，让模型掌握省略行为规范；随后通过省略感知的智能体强化学习，结合双采样机制与专属奖励，实现自适应省略冗余内容。
- 理论保证：理论分析表明，该省略策略的偏差受 KL 散度上界约束。
主要发现：在五大智能体基准测试中，Agent-Omit-8B 的性能比肩前沿大模型，同时显著降低了 Token 开销，实现了效果与效率的最优平衡。

5. Feasible Fusion: 结构性重叠缺失下带约束的联合估计范式

研究团队：滴滴网约车交易市场技术 × 北京大学、上海财经大学
核心问题：现代大规模营销场景中的因果推断面临高维协变量、多值处理、大规模观察性数据以及有限的随机对照试验（RCT）样本等多重挑战。特别是由处理机制诱发的“结构性非重叠”（Structural Non-Overlap）问题，导致常用的加权融合方法在理论上无法满足随机化识别约束。
方法与创新：提出了一种受约束的联合估计框架。
- 核心逻辑：在最小化观察数据风险的同时，通过正交的实验矩条件来保证因果有效性。
- 算法实现：推导出一种带惩罚项的原始—对偶算法，用于联合学习表征与预测器，并将误差分解为重叠恢复误差、矩违背误差以及统计误差三部分。
主要发现：大量合成实验表明该方法在不同程度的非重叠情形下均表现稳健。在滴滴大规模网约车应用场景中的实验显示，该方法相较于现有基线取得了显著提升，其效果可与使用显著更多 RCT 数据训练得到的模型相仿。

关键要点

智能体评估新维度：UltraHorizon 揭示了当前 SOTA 智能体在长周期、高 Token 消耗任务中的局限性，指出“规模扩大”并非万能药，上下文锁定是主要瓶颈。
无训练自进化机制：Darwinian Memory 证明了通过模拟“自然选择”机制，可以在不增加训练成本的前提下，显著提升 GUI 智能体的稳定性和成功率。
强化学习的知识隔离：HTAC 通过层次化编码和专家网络，解决了持续学习中的“灾难性遗忘”与“知识干扰”问题，实现了参数高效的知识复用。
LLM 智能体的效率优化：Agent-Omit 通过识别并省略中间轮次的冗余信息，结合强化学习优化，实现了在不牺牲性能的情况下大幅降低推理成本（Token 开销）。
因果推断的产业化突破：Feasible Fusion 针对大规模营销中常见的“结构性非重叠”问题，提出了一种理论上严谨且工程上可行的联合估计框架，并在滴滴实际业务中验证了其有效性，证明了其在有限 RCT 数据下的强大泛化能力。
产学研协同创新：所有论文均为滴滴内部团队与顶尖高校（中山大学、港科大广州、北大、上财）联合完成，体现了学术界与产业界在解决复杂 AI 问题上的深度协作。

意义与影响

这五篇论文的入选，标志着滴滴在人工智能前沿领域的研究已从单纯的“应用落地”转向“基础理论创新”与“复杂场景突破”并重。

首先，在**大模型智能体（LLM Agent）**方向，滴滴的研究直击当前行业的痛点：长程推理的不可靠性、记忆管理的低效性以及推理成本的高昂。UltraHorizon 提供了新的评估标准，而 Darwinian Memory 和 Agent-Omit 则分别提供了无需额外训练的记忆优化方案和降低 Token 消耗的效率方案。这些成果对于推动智能体从实验室走向大规模生产环境具有重要的工程价值。

其次，在强化学习与因果推断领域，HTAC 和 Feasible Fusion 展示了滴滴在解决高难度数学与算法问题上的实力。特别是在网约车交易市场和大规模营销场景中，如何从海量非结构化数据中提取

查看原文 →leiphone.com