港中文(深圳)团队6篇论文被ICML 2026接收
速览
香港中文大学(深圳)人工智能学院荆炳义、尹峰及贺品嘉教授团队的6篇论文被机器学习顶级会议ICML 2026接收。研究涵盖RACER风险感知路由框架及B-PAC高效推理方法,旨在平衡大模型性能与计算成本。这些成果展示了团队在可信AI与统计机器学习领域的最新进展。
AI 深度解读
港中文(深圳)AI学院6篇论文被ICML 2026接收:从高效路由到安全评测的深度解析
背景
国际机器学习大会(ICML, International Conference on Machine Learning)是人工智能与机器学习领域的国际顶级学术会议,与中国计算机学会(CCF)推荐的A类顶会地位相当,并与NeurIPS、ICLR并列为该领域的“三大顶会”。ICML 2026将于2026年7月6日至11日在韩国首尔举办,会议将聚焦深度学习、计算机视觉、自然语言处理等前沿方向。
近日,香港中文大学(深圳)人工智能学院荆炳义、尹峰教授,以及数据科学学院、人工智能学院双聘助理教授贺品嘉教授团队共有6篇论文被ICML 2026接收。这些研究涵盖了大语言模型的高效路由、推理成本控制、序列建模效率、零阶优化算法、多模态模型安全性以及软件工程基准评测等多个关键领域,展现了团队在统计机器学习理论及其在AI应用中落地的深厚积累。
核心内容
本次接收的6篇论文主要围绕提升大模型效率、优化算法理论、增强模型安全性及完善评测体系展开,具体研究内容如下:
1. RACER: 风险感知的校准高效路由
论文标题:RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models 核心贡献:针对多模型系统中因预测排名与真实性能不匹配导致的误路由问题,提出了一种即插即用、模型无关的后处理路由范式RACER。
- 方法机制:将多模型路由形式化为 $\alpha$-有效最优路由($\alpha$-VOR)问题,目标是在保证误路由风险低于用户指定水平 $\alpha$ 的前提下,最小化期望调用的模型数量。通过校准数据集确定数据依赖阈值,将原始路由分数转化为具有风险控制保证的集合预测。
- 理论保证:提供了严格的分布无关保证,证明其在未见查询上的风险控制满足用户指定水平,并给出了匹配的风险下界。
- 实验结果:相比单模型选择和单一最优模型,RACER通过自适应选择模型集合提升了下游准确性;相比全模型聚合,在保持较高准确性的同时,最多可减少58.6%的模型调用次数。
2. B-PAC Reasoning: 在线安全的高效推理
论文标题:Anytime Safe PAC Efficient Reasoning 核心贡献:针对大语言推理模型(LRM)在简单问题上“过度思考”导致的高成本和延迟,提出基于赌博理论的在线高效推理方法B-PAC Reasoning。
- 方法机制:利用逆倾向评分(IPS)构建潜在风险估计量,构造具有赌博解释的检验超鞅,结合固定序列检验动态更新路由阈值。当非推理模型的不确定性分数低于阈值时,直接采用其输出;否则调用推理模型。
- 理论保证:在独立同分布和非平稳数据下,实现了任意时点有效的性能损失控制,并证明自适应赌博策略具有对数遗憾。
- 实验结果:在保证性能损失低于用户指定水平的同时,最多可将推理模型调用比例降低81.01%。
3. MIMOMamba: 从标量对偶到矩阵值注意力
论文标题:MIMOMamba: From Scalar Duality to Matrix-Valued Attention 核心贡献:解决现代序列建模中表达能力与计算效率的矛盾,提出MIMOMamba,通过矩阵多项式参数化将状态空间对偶性推广至多输入多输出(MIMO)设置。
- 方法机制:在单一选择性递推中联合建模时序与跨通道交互,保持线性时间效率。建立矩阵值结构化注意力机制,每个注意力元素为 $D \times D$ 矩阵,直接实现特征混合。
- 理论优势:通过共享基底矩阵的多项式构造,严格保证对偶性成立所需的交换性,将核心参数复杂度从Transformer的约 $3D^2$ 降至约 $D^2$,减少约三分之二的参数量。
- 实验结果:在SSP物理预测基准上,以约35k参数(Transformer的1/3)达到最优预测精度(RMSE = 0.687),超越Gated DeltaNet、Mamba-3及Transformer等基线。推理内存随序列长度线性增长,训练吞吐量比Mamba-2快1.5–1.6倍。
4. Romberg-ZOGE: 高阶偏差缩减的零阶梯度估计
论文标题:Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional Variance 核心贡献:针对仅通过函数值查询估计梯度时存在的偏差和方差制约,提出Romberg-ZOGE,通过多尺度两点估计结合Romberg外推加权组合,系统性降低偏差且保持方差不增。
- 方法机制:在多个半径上构造两点估计并加权组合,抵消前个偶数阶截断误差项,将偏差由 $O(h^2)$ 降至 $O(h^4)$。由于各半径共享同一随机扰动方向,主导方向方差与标准两点估计器保持一致。
- 理论分析:证明了在独立噪声和共享噪声设定下,Romberg-ZOGE均能达到不劣于标准两点baseline的迭代复杂度。
- 实验结果:在合成函数、无线网络优化和大语言模型黑箱调优(OPT-1.3B的SST-2任务)中,Romberg-ZOGE收敛更快、更稳定,取得了最低训练损失及最高验证/测试准确率。
5. SAUP: 语义感知的通用对抗扰动
论文标题:Semantic Router: On the Feasibility of Hijacking MLLMs via a Single Adversarial Perturbation 核心贡献:探索多模态大模型(MLLMs)的新安全威胁,提出SAUP(Semantic-Aware Universal Perturbation),一种能根据输入图像视觉语义迫使模型生成不同目标输出的通用对抗扰动。
- 方法机制:如同“语义路由器”,该扰动能泛化到未见过的图像上。例如,在机器人观察刀具时触发“抓取”,观察人类时触发“投掷”。
- 实验结果:理论层面从几何视角分析了攻击可行性并提出了优化算法。在多个代表性模型上验证,即使同时攻击五个目标,平均攻击成功率也能达到69.66%。
6. SWE-ABS: 对抗式基准强化框架
论文标题:SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmark 核心贡献:针对SWE-Bench等主流软件工程智能体基准存在的测试覆盖盲区和语义盲点,提出SWE-ABS框架,通过两阶段流水线主动暴露并修补测试弱点。
- 方法机制:
- 覆盖驱动增强:利用程序切片定位补丁相关代码区域,生成测试未触及的分支。
- 变异驱动对抗强化:针对语义盲点,通过变异驱动的方式强化测试套件,恢复评测的判别力。
- 目的:揭示现有基准中因测试用例源自真实PR而导致的“高分被高估”现象,提供更可靠的评测标准。
关键要点
- 效率与成本的极致平衡:RACER和B-PAC Reasoning两项工作分别从模型路由和推理选择两个维度,利用严格的统计风险控制(Risk Control)和在线学习理论,在保障性能的前提下大幅降低了大模型的推理成本和延迟(分别减少58.6%和81.01%的调用/推理比例)。
- 序列建模的理论突破:MIMOMamba从代数第一性原理出发,解决了状态空间模型(SSM)在多维交互系统中的对偶性难题,实现了参数效率的大幅提升(减少2/3参数)和线性时间复杂度的保持,为替代Transformer提供了新的理论路径。
- 优化算法的精度提升:Romberg-ZOGE通过Romberg外推技术,在零阶优化(Black-box Optimization)中实现了高阶偏差缩减,同时保持了方差稳定性,
