← 返回信息流
技术博客arXiv cs.AI·2 小时前

通用专家覆盖:稀疏MoE大模型高效剪枝新方法

原标题:Generic Expert Coverage for Pruning SparseMixture-of-Experts Language Models

速览

本文针对稀疏激活的MoE大模型提出通用TB-Coverage剪枝方法。该方法无需下游校准数据,仅依赖WikiText2和C4等通用语料,分别对每个专家进行效用分析,并通过固定预算覆盖规则构建剪枝掩码。在Qwen1.5-MoE-A2.7B和DeepSeek-MoE-16B-Base模型上,25%、50%、75%保留率下,该方法平均优于随机剪枝、REAP和ExpertSparsity,在六项零样本基准上提升准确率,并在WikiText2和C4上降低困惑度退化。效果在激进剪枝下最大,证明跨语料专家覆盖是MoE高效剪枝的有效通用数据先验。

AI 深度解读

背景

混合专家(Mixture-of-Experts, MoE)语言模型是近年在语言建模领域取得显著进展的架构之一。与传统密集模型(dense model)通过单个参数网络处理所有输入不同,MoE 架构在推理阶段仅激活其中一小部分专家(expert),从而实现参数高效扩展。文献中广泛采用的 Sparse Mixture-of-Experts(稀疏 MoE)语言模型进一步引入了稀疏激活机制:每个 token 仅路由到少数几个专家进行处理。这一设计让模型规模得以大幅增长,同时在计算效率和模型性能上优于同等参数量的密集模型。

然而,Sparse MoE 模型的专家路由机制天然存在结构化冗余(structured redundancy)。大量专家在不同任务或数据模式下的贡献度差异明显,但仅依靠单个专家重要性分数(importance score)进行剪枝(pruning)无法有效控制偏差。现有剪枝方法大多依赖下游校准数据(downstream calibration data),这在实际部署场景中存在两大限制:一是缺乏足够的大规模、多元化的校准数据;二是传统方法易将专家效用简化为单一聚合分数,导致保留集偏向于受主导校准模式影响的少数专家。

本文提出的 Generic TB-Coverage 方法正是针对上述痛点提出的一套通用解决方案。它仅使用通用文本语料库(WikiText2 和 C4)进行校准,无需任何下游任务校准数据,便可实现对 Sparse MoE 语言模型的有效剪枝。

核心内容

针对 Sparse MoE 语言模型在剪枝时的核心挑战,本文提出了一种名为 Generic TB-Coverage 的覆盖感知型专家剪枝方法。该方法的核心创新在于彻底打破传统“单分数聚合”思维,转而对每个专家分别在两个通用语料库(WikiText2 和 C4)上独立评估其效用(utility)。

具体而言,方法首先在每个通用语料库上独立分析并衡量每个专家的效用值,而非将所有专家的效用简单汇总为一个全局重要性分数。随后,方法引入了一个固定预算覆盖规则(fixed-budget coverage rule):优先保留在每个语料库上效用较高的专家,直到达到预设的剪枝预算(pruning budget)。在构建最终剪枝掩码(final pruning mask)时,方法会确保跨语料库的专家覆盖完整性,避免因单一语料库主导而导致重要专家被遗漏。

为验证方法有效性,研究者选择了两个具有代表性的 Sparse MoE 模型进行实验:Qwen1.5-MoE-A2.7B 和 DeepSeek-MoE-16B-Base。实验设置了三个不同的保留预算(retention budgets):25%、50% 和 75%。评估指标包括六个常见的零样本(zero-shot)基准任务的平均准确率,以及在 WikiText2 和 C4 上的困惑度(perplexity)指标。

实验结果表明,Generic TB-Coverage 方法在三个保留预算下,均显著优于随机剪枝(random pruning)、REAP 方法和 ExpertSparsity 方法。相较于这些基线,在平均零样本准确率上取得提升,同时在 WikiText2 和 C4 上的困惑度退化程度也得到更好控制。特别值得关注的是,增益在最激进的剪枝条件下(25% 和 50% 保留预算)最为显著。这表明,通过保留跨语料库的专家覆盖,在通用数据先验(generic-data prior)下,MoE 剪枝效果得以显著增强。

值得注意的是,该方法的优势在固定剪枝预算且无需下游校准数据的条件下依然成立,证明其在实际场景中的通用性和可扩展性。

关键要点

  • 稀疏 MoE 语言模型存在结构化冗余问题,传统单聚合重要性分数方法易引入偏差。
  • Generic TB-Coverage 方法采用独立 per-expert utility 评估 + 固定预算覆盖规则,无需下游校准数据。
  • 仅依赖 WikiText2 和 C4 两个通用语料库进行校准,适用范围广。
  • 在 Qwen1.5-MoE-A2.7B 和 DeepSeek-MoE-16B-Base 模型上,三个保留预算(25%、50%、75%)下,平均零样本准确率和困惑度退化均优于随机剪枝、REAP 和 ExpertSparsity。
  • 激进剪枝(25% 和 50% 保留)条件下增益最大,验证了跨语料库覆盖的通用数据先验有效性。

意义与影响

Generic TB-Coverage 方法为 Sparse MoE 语言模型的剪枝提供了一个全新的、可直接应用的范式。它彻底解决了当前主流剪枝方法对下游校准数据的高度依赖问题,使研究者与工程师能够以更低门槛、更低成本的方式对大型 MoE 模型进行压缩与部署。这一突破性进展有望加速 MoE 技术的产业化落地,尤其是在资源受限或数据隐私敏感的场景中。

从长远来看,该方法不仅提升了模型推理效率和部署可行性,还为后续研究提供了可扩展的通用数据先验框架。若未来更多任务对泛用性要求较高时,类似“跨语料库覆盖”的思想或将演变为 MoE 模型开发与优化的标准实践之一。其研究结果已在 arXiv cs.AI 分类下于 2026 年 7 月 2 日提交,期待通过进一步实验和社区验证,加速语言模型压缩技术在工业界和学术界的实际应用。

查看原文 →arxiv.org