AI 资讯雷峰网·4 小时前

快手多篇论文入选ICML 2026，含1篇Spotlight

原标题：多篇成果入选，快手邀您共赴ICML 2026！

速览

快手技术团队多篇论文入选机器学习顶会ICML 2026，其中1篇获Spotlight展示。研究覆盖大语言模型、因果发现、图像超分及通知分发等关键方向，旨在提升AI的智能性、可控性与可解释性。相关成果如BUOPLR已全量部署于快手生产系统。

AI 深度解读

背景

ICML 2026（The 43rd International Conference on Machine Learning，第43届国际机器学习会议）是机器学习领域历史最悠久、最具影响力的顶级国际学术会议之一，与 NeurIPS、ICLR 并称为机器学习领域的“三大顶会”。该会议被中国计算机学会（CCF）推荐为 A 类会议，在 Google Scholar Metrics 中 h5 指数高达 272，位居工程与计算机科学领域前列。本届 ICML 2026 共收到 23,918 篇投稿，整体录用率约为 26.6%。

会议将于 7 月 6 日至 7 月 11 日在韩国首尔 COEX 会展中心举行。快手技术团队有多篇论文成功入选，其中 1 篇入选 Spotlight Papers（亮点论文）展示。这些研究覆盖大语言模型、强化学习、信息检索、计算机视觉等关键方向，旨在让 AI 更智能、更可控、更可解释，并帮助从数据中挖掘更本质的规律。

核心内容

快手技术团队共有 11 篇论文入选 ICML 2026，研究内容涵盖多模态理解、因果推断、图像超分、推荐系统、电商搜索、强化学习、代码智能体及模型可解释性等多个前沿领域。以下是入选论文的核心内容解读：

1. MetaphorVU: Towards Metaphorical Video Understanding (Spotlight)

针对隐喻视频理解门槛高、缺乏系统性研究的问题，快手提出了首个专门面向隐喻视频理解的基准测试 MetaphorVU-Bench。研究发现，当前多模态大语言模型（MLLMs）在理解隐喻视频时表现不佳，主要缺陷在于跨域映射能力不足。为此，团队构建了一个隐喻知识图谱以增强映射能力，并提出了推理阶段的增强框架 MetaphorBoost，实现了稳定的性能提升。

2. Causal Discovery for Irregularly Time Series with Consistency Guarantees

针对金融、医疗等风险敏感领域中不规则采样时间序列的因果发现难题，现有方法常因缺失数据插补与因果结构恢复之间的误差相互强化而导致不准确。快手提出了基于 EM（期望最大化）算法的框架 ReTimeCausal。该框架通过在数据插补与结构学习之间交替优化，持续促进结构一致性，为结构恢复提供了理论一致性保证，并在不规则采样和高缺失率场景下表现出优于现有方法的有效性。

3. Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution

针对图像超分辨率（SR）中生成先验损害忠实复原效果的问题，快手提出了具有理论基础的框架 ASASR。该框架通过对噪声转移核进行显式着色以模拟自然频谱衰减，将生成流重新构建于 Sobolev 诱导的黎曼几何之中。通过引入基于 Riesz 表示定理的参数化对抗模块，ASASR 能够合成等价于最坏情况 Sobolev 梯度的定向负样本，从而在保持频谱一致性与结构保真度方面显著抑制伪影。

4. Large-Scale Notification Dispatch with Bundle Treatments and Multi-Outcome Uplift Optimization

为解决大规模用户增长场景中的通知分发（PUSH）决策问题，快手提出了 BUOPLR 方法。该方法将通知分发形式化为面向时机和样式组合干预（bundle treatment）的带约束优化问题，旨在最大化日活跃用户数（DAU）的增量收益。BUOPLR 通过两阶段方法解耦 uplift 估计与带约束决策：第一阶段学习 bundle 级别的多目标小效应 uplift，第二阶段通过决策空间剪枝和拉格朗日松弛完成大规模分配。目前，BUOPLR 已全量部署于快手 PMOS 系统中。

5. Learning to Rank by Directly Optimizing Full-Order Probabilities

针对学习排序中全序概率计算困难的问题，快手提出了全序下界（Full-Order Bound, FOB）。FOB 是一个关于观测排序概率的可处理下界，由一组可分解到各项目上的排序约束构造而成，保留了全序结构并具有顺序反转不变性。在对数凹潜密度假设下，FOB 导出了一个凸内收紧问题，并通过安全区域梯度上升（SRGA）过程高效求解。实验表明，FOB 能提升全列表排序指标，并在 NDCG 上保持竞争力。

6. OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search

传统电商搜索系统存在计算碎片化和目标冲突问题。快手提出了首个在工业界落地部署的端到端生成式电商搜索框架 OneSearch。其核心创新包括：关键词增强的层次化量化编码、多视角用户行为序列注入、以及偏好感知奖励系统。线上 A/B 实验显示，OneSearch 使商品点击率（CTR）提升 1.67%，买家数提升 2.40%，订单量提升 3.22%。同时，该框架将运营支出降低 75.40%，模型算力利用率（MFU）从 3.26% 提升至 27.32%，已在快手多个搜索场景中每日服务数百万用户。

7. Phase-Aware Mixture of Experts for Agentic Reinforcement Learning

针对强化学习（RL）中简单任务主导梯度更新导致的“简单偏置”问题，快手提出了面向阶段感知的混合专家架构 PA-MoE。传统 MoE 采用令牌级路由，破坏了时序阶段的连贯性。PA-MoE 搭载轻量化阶段路由器，无需预定义阶段类别，可直接依托 RL 优化目标自主学习隐式阶段划分边界，将同一阶段的特征统一分配至同一专家，从而保障各专家沉淀对应阶段的专属能力。

8. SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

针对在线强化学习（Online RL）在图像编辑中存在的“注意力坍塌”感知瓶颈，快手提出了首个将显式空间推理融入生成式逐点评估的图像编辑奖励框架 SpatialReward。该框架包含“Think-with-Boxes”核心机制、空间先验引导的数据构建流水线（构建 SpatialReward-260k 数据集）以及 SFT+GRPO 两阶段训练策略。实验表明，SpatialReward 在多项基准上达到最先进性能，作为下游 Online RL 信号，将 OmniGen2 在 GEdit-Bench 上的得分提升 0.90，是 GPT-4.1 带来增益的近两倍，并实现 1.5 倍推理加速。

9. SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

为弥补现有代码智能体评测基准（如 HumanEval、SWE-bench）在任务覆盖、语言偏见及工业脱节方面的不足，快手提出了全面、统一且生产对齐的代码智能评估框架 SWE-Compass。该框架包含覆盖 8 种任务类型、8 类编程场景和 10 种编程语言的三维评估矩阵，以及严格的五阶段数据构建流水线。实验揭示了模型在复杂任务上能力骤降、不同智能体框架下表现迥异（框架-模型混淆效应）以及新兴语言上的多语言鲁棒性鸿沟等关键发现。

10. VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

针对长视频理解中均匀帧采样遗漏关键证据及现有“思考与视频”范式流程刚性等问题，快手提出了将视频问答与时序定位统一于单一模型的 Agentic 框架 VideoTemp-o3。该框架支持按需视频裁剪与多轮定位迭代精化，包含冷启动 SFT 配合统一掩码机制、惩罚感知的 IoU 强化学习奖励体系以及基于 Gemini-2.5-Pro 的多轮数据构建流水线。VideoTemp-o3 在长视频理解、时序定位及视频有根据问答三项任务上均达到最先进性能。

11. Weights to Code: Extracting Interpretable Algorithms from the Discrete Transformer

为解决标准 Transformer 内部表示特征纠缠、难以符号化解析的问题，快手提出了一种面向算法提取与可解释性的 Discrete Transformer 架构。该架构通过离散化残差流、数值注意力模块和数值 MLP 模块，将信息路由与算术计算显式分离，并结合温度退火

查看原文 →leiphone.com