深圳大数据研究院4项成果被ICML 2026录用
速览
深圳市大数据研究院4项科研成果被ICML 2026录用。研究提出AdaMeZO优化器,实现低显存高效大模型微调;Romberg-ZOGE方法提升零阶梯度估计精度;SCOPE框架优化边云协同视频推理。
AI 深度解读
背景
国际机器学习大会(ICML)作为人工智能与机器学习领域的顶级学术会议,与中国计算机学会(CCF)推荐的A类国际学术会议地位相当,常与 NeurIPS、ICLR 并称为该领域的三大顶级会议。ICML 2026(第43届)共收到 23,918 篇有效投稿,录用率约为 26.6%,竞争极为激烈。
在此背景下,深圳市大数据研究院(Shenzhen Research Institute of Big Data, SRIBD)有四项科研成果被 ICML 2026 录用。这些研究涵盖了大语言模型微调优化、零阶梯度估计、边云协同视频推理以及高效序列建模等多个前沿方向,展示了该研究院在基础理论创新与系统应用落地方面的综合实力。
核心内容
本次被录用的四项研究分别针对机器学习中的不同痛点提出了创新的解决方案:
1. AdaMeZO: 无需保存动量矩的 Adam 风格零阶大语言模型微调优化器
问题背景:大语言模型(LLM)微调通常依赖基于反向传播的一阶优化器(如 Adam),但这需要计算并存储梯度,导致显存开销巨大,限制了资源受限设备上的部署。现有的零阶优化方法 MeZO 仅通过前向传播即可微调,大幅降低显存需求,但其更新方式类似随机梯度下降(SGD),无法感知参数维度上的损失曲率差异,导致收敛速度慢。若直接引入 Adam 的自适应机制,则需要存储与模型参数同规模的动量信息,从而抵消了零阶优化的内存优势。
解决方案:论文提出了 AdaMeZO,一种 Adam 风格的零阶优化器。该方法通过截断历史梯度来构造近似的一阶与二阶矩估计,并结合细粒度的伪随机数生成器(PRNG)状态缓存机制。在更新参数时,系统按块原地重建历史随机方向,无需在显存中长期维护完整的动量向量。
效果验证:
- 理论收敛性:在非凸优化假设下,AdaMeZO 能以 $O(1/\sqrt{T})$ 的速度收敛到平稳点附近。
- 实验表现:在 RoBERTa、OPT、LLaMA 等模型及多种 NLP 任务上,AdaMeZO 优于 MeZO 及相关强基线。
- 效率提升:在达到相同终止损失时,AdaMeZO 最多减少约 70% 的前向传播次数(例如在 LLaMA-3B 上减少 70.90%)。
- 显存开销:实测额外显存仅约 7%,远低于需要显式存储矩估计的方法(通常需 50-100%)。
2. Romberg-Extrapolated Zeroth-Order Gradient Estimator: 保留主导方向方差的高阶偏差减少
问题背景:在梯度计算昂贵或不可得的情况下,需通过函数值查询来估计梯度(零阶优化)。标准梯度估计存在偏差-方差的制约,现有方法难以同时优化两者。
解决方案:提出 Romberg-ZOGE 方法。该方法通过多尺度两点估计结合 Romberg 外推技术,在降低偏差的同时保持方差不增。对于确定性函数评估,它在多个半径上构造两点估计并加权,将偏差从 $O(r^2)$ 降至 $O(r^{2R+2})$,且主导方向方差与标准两点估计器一致。针对随机函数查询,该方法通过共享随机样本使噪声在差分与外推中抵消,避免额外放大。
效果验证:
- 合成函数实验:当 $R=2$ 时,偏差呈接近 $O(r^6)$ 下降,远优于标准估计器的 $O(r^2)$,且主导方差相近。
- 优化实验:在相同查询预算下,收敛更快且更稳定。
- 实际应用:在无线网络优化任务中提升了平滑分位数频谱效率;在 OPT-1.3B 的 SST-2 黑箱 prompt tuning 任务中,取得了最低训练损失及最高验证、测试准确率。
3. Think in Cloud, Look at Edges: 面向高效视频推理的语义驱动查询分解
问题背景:长视频理解面临带宽、时延与精度的矛盾。纯云端方案能力强但上传成本高,纯边缘方案响应快但推理能力有限。现有的边云协同方法常将复杂问题压缩为单一语义向量进行检索,易产生“语义淹没”,导致关键但不突出的证据被显著视觉线索覆盖。
解决方案:提出 SCOPE 框架,采用“云端思考、边缘观察”的范式。
- 云端:大模型将用户问题分解为带依赖关系和重要性权重的有向无环图(DAG)观测计划。
- 边缘侧:依据计划进行预算分配、并行语义匹配与关键帧选择,仅上传高价值证据帧。
效果验证:
- 性能对比:在 Video-MME 和 LongVideoBench 基准上,SCOPE 在严格帧预算下稳定优于 Uniform、Top-K、AKS 等基线。
- 效率提升:在 16 帧设置下,达到与纯云端方案相同的 66.04% 准确率,同时将端到端时延由 154.22 秒降至 23.94 秒,降低约 85%。
4. MIMOMamba: 从标量对偶到矩阵值注意力
问题背景:现代序列建模需兼顾表达能力与效率。Transformer 自注意力能力强,但复杂度随序列长度二次增长;Mamba 等结构化状态空间模型(SSM)虽具线性效率,但常将时序建模与跨通道交互分离,难以刻画时变耦合。
解决方案:提出 MIMOMamba。该方法通过矩阵多项式参数化,将状态空间对偶性推广至多输入多输出(MIMO)设置。它在单一选择性递推中联合建模时间依赖与跨通道交互,并保持线性效率。具体而言,将注意力元素由标量扩展为 $D \times D$ 矩阵,实现矩阵值结构化注意力;同时借助共享代数基底保证交换性,降低参数冗余,使核心参数复杂度由 Transformer 的约 $3D^2$ 降至约 $D^2$。
效果验证:
- 精度与效率:在 SSP 物理预测基准上,以约 35k 参数取得最优精度(RMSE=0.687),优于多种先进基线。
- 吞吐量:推理内存线性增长,训练吞吐量较 Mamba-2 提升 1.5–1.6 倍。
关键要点
- 优化器创新:AdaMeZO 解决了零阶优化中内存效率与收敛速度难以兼得的难题,通过分块矩估计机制,在仅增加 7% 显存的情况下,将前向传播次数减少约 70%。
- 梯度估计精度:Romberg-ZOGE 利用外推技术实现了高阶偏差缩减,在降低估计偏差的同时不增加主导方向方差,提升了黑箱优化和函数评估的稳定性。
- 边云协同范式:SCOPE 框架通过语义驱动的查询分解,解决了长视频理解中的“语义淹没”问题,在保持云端精度的同时,将推理时延降低 85%,实现了带宽与精度的平衡。
- 序列建模效率:MIMOMamba 将状态空间模型扩展至矩阵值注意力,在保持线性复杂度的同时增强了跨通道交互能力,显著提升了训练吞吐量并降低了参数冗余。
- 学术认可:四项成果均被 CCF A 类会议 ICML 2026 录用,体现了深圳市大数据研究院在机器学习基础理论与系统应用层面的高水平研究成果。
意义与影响
这四项研究成果从不同维度推动了机器学习技术的发展与应用落地:
- 降低大模型部署门槛:AdaMeZO 和 Romberg-ZOGE 通过优化零阶优化算法,显著降低了大语言模型微调的显存和计算需求。这使得在资源受限的边缘设备或
