技术博客arXiv cs.CL·14 小时前

PADD：非路由教师引导MoE学生高效学习的知识蒸馏框架

原标题：PADD: Path-Aligned Decompression Distillation for Non-Router Teacher to Guide MoE Student Learning

速览

随着大语言模型规模扩大，在固定计算预算下提升模型容量面临挑战。研究提出PADD框架，将知识蒸馏分为初始化与训练两个阶段，通过教师神经元聚类和在线自适应蒸馏，引导MoE学生构建多样化专家功能并优化路由策略。实验表明，PADD在数学推理基准上显著优于基线，MoE学生能在同等推理成本下匹配或超越密集教师，且路由行为稳定。

AI 深度解读

PADD：非路由教师引导 MoE 学生学习的路径对齐解压缩蒸馏

背景

随着大型语言模型（LLMs）规模的持续扩大，在固定的计算预算下提升模型容量已成为一项极具挑战性的任务。传统的模型扩展策略往往受限于硬件资源和推理成本。混合专家模型（Mixture-of-Experts, MoE）作为一种稀疏激活架构，理论上能够在保持推理成本不变的情况下显著增加模型参数量和容量。然而，训练高质量的 MoE 模型面临两大核心难题：一是如何有效地从稠密教师模型（Dense Teacher）中蒸馏知识；二是如何学习高质量的路由策略（Routing Policy），以确保专家之间的负载均衡和知识的有效利用。

现有的蒸馏方法通常假设教师模型也具备类似的路由机制，或者需要复杂的对齐过程。然而，许多强大的预训练模型是稠密的，并不具备显式的路由结构。因此，如何将这些“非路由”的稠密教师模型的知识高效地迁移到 MoE 学生模型中，同时让学生模型自动学会合理的路由策略，是当前研究的一个重要空白。

核心内容

为了解决上述问题，研究团队提出了 PADD（Path-Aligned Decompression Distillation，路径对齐解压缩蒸馏）框架。PADD 旨在实现从没有显式路由机制的稠密教师到 MoE 学生模型的知识蒸馏，并在此过程中学习高质量的路由策略。

PADD 将知识蒸馏过程组织为两个阶段、四个步骤，形成一个统一的训练流水线：

1. 初始化阶段（Initialization Phase）

该阶段的目标是为 MoE 学生模型的各个专家建立多样化的功能基础。

Stage I：教师神经元聚类与学生-专家预热 在此步骤中，研究团队首先对稠密教师模型的神经元进行聚类分析。通过分析教师模型内部神经元的激活模式，识别出具有不同功能特性的神经元组。随后，将这些聚类结果映射到 MoE 学生模型的各个专家上，并通过“学生-专家预热”（Student-Expert Warmup）过程，使每个专家初步具备特定的功能倾向。这一步骤确保了学生模型的专家在训练初期就拥有多样化的处理能力，避免了专家坍缩（Expert Collapse）问题。

2. 训练阶段（Training Phase）

该阶段将在线自适应蒸馏、路径优化的策略学习以及基于奖励的负载均衡整合到一个单一的训练流程中。

Stage II：在线自适应蒸馏（Online Adaptive Distillation） 在训练过程中，模型不再仅仅依赖静态的教师输出，而是采用在线自适应的方式。这意味着学生模型在生成预测时，会根据当前的输入动态地调整对教师知识的吸收方式，从而更灵活地捕捉教师模型中的深层语义和推理逻辑。
Stage III：路径优化的策略优化（Path-Refined Policy Optimization） 为了优化路由策略，PADD 引入了路径相关的策略优化机制。它不仅仅优化单个 token 的路由选择，而是考虑整个推理路径上的专家组合效果。通过这种方式，模型能够学习到更全局、更连贯的路由决策，确保在复杂推理任务中，相关的专家被优先激活。
Stage IV：基于奖励的负载均衡（Reward-Augmented Load Balancing） 为了防止某些专家过载而其他专家闲置，PADD 在损失函数中引入了基于奖励的负载均衡机制。该机制不仅惩罚负载不均，还通过奖励信号鼓励模型选择那些既能提供高质量输出又能保持负载均衡的路由路径。这使得 MoE 学生模型在保持高性能的同时，实现了计算资源的高效利用。

关键要点

框架创新：PADD 是首个专门针对“非路由”稠密教师模型设计的路径对齐解压缩蒸馏框架，解决了从 Dense 到 MoE 迁移时的路由策略学习难题。
两阶段四步骤架构：
- 初始化阶段：通过教师神经元聚类和专家预热，构建学生专家的功能多样性。
- 训练阶段：整合在线自适应蒸馏、路径优化策略学习和奖励增强负载均衡，实现端到端的联合优化。
高效的知识迁移：无需教师模型具备路由结构，即可将稠密模型的知识高效蒸馏至稀疏的 MoE 架构中。
稳定的路由行为：通过路径优化的策略优化和负载均衡机制，确保了 MoE 学生在推理过程中路由行为的稳定性和可解释性。
实验验证：在数学推理基准测试中，PADD 在相同的推理成本下，显著优于强基线模型。MoE 学生模型的表现可以匹配甚至超越其稠密教师模型。

意义与影响

PADD 的提出对于大语言模型的高效部署和扩展具有重要的理论和实践意义：

突破计算预算限制：PADD 提供了一种在固定推理成本下显著增加模型容量的有效途径。这对于资源受限的环境（如边缘设备或大规模并发服务）尤为重要，使得开发者能够在不增加硬件投入的情况下获得更强的模型性能。
简化 MoE 训练流程：传统的 MoE 训练往往需要复杂的专家初始化和精细的路由调优。PADD 通过统一的训练流水线，将知识蒸馏和路由学习有机结合，简化了 MoE 模型的训练难度，提高了训练效率。
促进知识复用：PADD 证明了可以从现有的、强大的稠密模型中高效提取知识，并将其转化为更轻量、更高效的 MoE 架构。这有助于加速现有大模型资产的再利用，减少从头训练大型模型所需的巨大计算资源。
推动稀疏模型研究：PADD 在数学推理等复杂任务上的优异表现，证明了稀疏 MoE 模型在保持高性能的同时，能够实现更优的计算效率。这为未来大模型向更稀疏、更高效的方向发展提供了新的思路和技术支持。

总之，PADD 不仅是一个新的蒸馏框架，更是连接稠密模型强大能力与稀疏模型高效推理之间的重要桥梁，为下一代高效大语言模型的构建提供了有力的工具。

查看原文 →arxiv.org