技术博客arXiv cs.CL·3 小时前

解耦混合专家架构实现大模型参数化知识注入

原标题：Decoupled Mixture-of-Experts for Parametric Knowledge Injection

速览

针对大模型知识注入中灵活性与集成度的权衡难题，论文提出解耦混合专家（DMoE）架构。该架构将专家模块和路由器与大模型基座解耦，仅在模型知识不足时激活相关专家。实验表明，DMoE在知识密集型任务中显著优于检索和适配器基线方法。

大型语言模型（LLMs）的核心能力在于其通过海量数据训练获得的参数化知识。然而，随着应用场景的深入，LLMs 面临着两大主要挑战：一是时效性，模型无法实时获取训练截止日之后的最新信息；二是领域特异性，通用模型在垂直领域（如医疗、法律、金融）往往缺乏深度专业知识。

为了解决这些问题，业界目前主要存在两类技术路线，但各自存在明显的局限性：

检索增强生成（RAG）：
- 机制：将外部知识库与模型分离，在生成过程中通过检索相关文档作为提示（Prompt）的一部分输入模型。
- 局限：知识始终位于模型“外部”，仅起到提示层面的增强作用，无法真正内化为模型能力，且受限于上下文窗口和检索精度。
基于后训练的方法（如微调、Adapter）：
- 机制：通过更新模型的共享参数或插入可训练模块，将新知识编码进模型中。
- 局限：
  - 灾难性遗忘：注入新知识可能导致模型丢失原有通用能力。
  - 知识冲突：新旧知识可能在参数空间中产生干扰。
  - 更新成本高：重新训练或更新共享参数计算开销巨大，且难以实现知识的独立、模块化更新。

现有的方法往往在灵活性（是否容易更新、隔离）和集成度（知识是否深度融入模型）之间做出妥协。本文提出的 Decoupled Mixture-of-Experts (DMoE) 旨在打破这一权衡，提出一种既能保持知识模块化独立更新，又能实现高效参数级知识增强的新架构。

本文提出了一种名为 Decoupled Mixture-of-Experts (DMoE) 的模块化架构，专门用于参数化知识注入。该架构的核心思想是将“专家模块”和“路由机制”从基础模型（Base Model）中完全解耦，从而实现知识的独立管理和高效激活。

DMoE 与传统 MoE 或 Adapter 的关键区别在于其**解耦（Decoupled）**特性：

专家模块（Experts）独立：外部知识语料库被转换为独立的、可独立更新的专家模块。这些模块不包含基础模型的共享参数，因此对某一领域知识的更新不会直接影响模型的其他部分，避免了灾难性遗忘。
路由器（Router）独立：路由器也是一个轻量级的独立组件，负责判断何时需要激活外部专家。

DMoE 引入了一种轻量级的、基于不确定性感知的路由器。其工作流程如下：

为了支持高效的自回归推理（Auto-regressive Inference），DMoE 在架构部署上做了特殊优化：

位置选择：专家模块仅附加在基础模型**最后一层的前馈神经网络（Final-layer Feed-Forward Network, FFN）**中。
KV-Cache 复用：由于专家模块位于模型末端，前面的层（包括注意力机制）可以正常生成并复用 KV-Cache（键值缓存）。这意味着 DMoE 在实现参数级知识增强的同时，没有破坏现有的推理加速机制，保持了较高的推理效率。

DMoE 的提出为大型语言模型的知识增强提供了一条新的技术路径，其意义主要体现在以下几个方面：

解决知识更新难题：传统微调方法更新成本高且风险大，而 RAG 无法内化知识。DMoE 通过模块化专家的方式，使得知识的更新变得像“插件安装”一样简单和独立，特别适合需要频繁更新时效性知识（如新闻、股价、政策）的场景。
平衡性能与效率：通过不确定性感知路由和最后一层附加策略，DMoE 在提升知识密集型任务表现的同时，避免了全模型微调的计算开销和 RAG 的检索延迟/精度瓶颈。KV-Cache 的复用保证了其在实际部署中的可行性。
缓解知识冲突与遗忘：解耦设计从根本上隔离了新知识对旧参数的干扰，为解决多领域知识共存时的冲突问题提供了架构层面的保障。
推动 MoE 架构的演进：传统的 MoE 通常用于扩展模型容量或并行计算，而 DMoE 将其专门应用于“知识注入”这一特定任务，展示了 MoE 架构在知识管理方面的巨大潜力，为未来构建可进化、可插拔的 AI 系统提供了参考范式。

综上所述，DMoE 是一种在灵活性、集成度和效率之间取得良好平衡的创新方案，为下一代具备持续学习和动态知识更新能力的大模型提供了重要的技术参考。