VSRAQ:通过值与结构对齐实现MoE模型路由一致量化
原标题:Value-and-Structure Alignment for Routing-Consistent Quantization of Mixture-of-Experts Models
速览
混合专家(MoE)模型因专家参数庞大,量化部署至关重要,但传统量化易引发路由不稳定,导致计算路径改变和模型质量下降。为此,研究者提出VSRAQ,这是一种MoE专用的后训练量化目标,通过值对齐和结构对齐双重机制,在量化过程中保持预量化时的专家选择行为。该方法无需推理时额外开销,即可显著提升专家选择一致性,并在多项实验中优于仅重构或感知路由器的基线方法。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
