技术博客arXiv cs.CL·2 天前

参数对齐缓解多语言专家模型灾难性遗忘

原标题：Parameter Alignment Mitigates Catastrophic Forgetting in Multilingual Expert Language Models

速览

持续预训练虽能扩展大模型语言能力，但易导致灾难性遗忘。研究提出五种层感知参数对齐策略，包括层冻结、软正则化等，以缓解参数漂移。实验显示，这些策略在最小化语言习得成本的同时，显著降低了遗忘现象，为多语言模型部署提供了实用指南。

AI 深度解读

Parameter Alignment Mitigates Catastrophic Forgetting in Multilingual Expert Language Models

背景

随着大语言模型（LLM）向多语言领域扩展，持续预训练（Continual Pretraining, CPT）成为了一种实用且高效的手段，旨在让模型掌握新的语言。然而，这一过程面临着严峻的挑战：灾难性遗忘（Catastrophic Forgetting）。

在针对特定新语言数据进行朴素微调（Naïve Finetuning）时，模型往往会严重侵蚀其已有的通用能力和其他语言的知识。尽管现有的研究尝试通过按语言家族（Language Families）组织训练数据来减少跨语言干扰，但这并不能完全防止模型在下游任务中所需的一般性知识（General Knowledge）的丢失。

简而言之，当前的痛点在于：如何让模型在“学习新语言”的同时，不“忘记旧知识”？

核心内容

本文针对多语言专家语言模型在持续预训练中的参数漂移问题，提出了一套系统的解决方案，并进行了全面的实证评估。

1. 问题诊断：参数漂移与遗忘

研究指出，多语言 CPT 过程中的遗忘现象与**参数漂移（Parameter Drift）**密切相关。当模型专注于新语言数据时，其内部参数会发生剧烈变化，导致对原有通用知识（如物理推理、阅读理解等）的表征能力下降。

2. 解决方案：五层感知参数对齐策略

为了缓解这一问题，作者提出并评估了五种层感知（Layer-aware）参数对齐策略。这些策略旨在通过约束或调整模型参数，来平衡新语言习得与旧知识保留之间的关系：

硬层冻结（Hard Layer Freezing）：在训练过程中完全冻结模型的某些特定层，防止其参数更新。
软正则化（Soft Regularization）：通过正则化项限制参数偏离初始值的程度，允许一定程度的更新但施加惩罚。
事后权重回滚（Post-hoc Weight Reversion）：在训练结束后，将部分或全部参数回滚到预训练时的状态，以恢复被遗忘的知识。
模型合并（Model Merging）：将新训练的模型权重与原始预训练模型的权重进行合并（如线性插值或更复杂的算法），以保留通用能力。

(注：原文摘要中列举了这四大类策略，具体包含五种变体，核心思想均围绕上述机制展开。)

3. 实验设置与评估

研究团队在极具挑战性的基准测试上系统比较了这些对齐策略与两个无正则化的 CPT 基线模型。

数据规模：涵盖来自五个不同语言家族的 32 种训练语言，以及若干未参与训练的保留语言（Held-out languages）。
评估维度：从四个关键轴进行全方位评估：
1. 困惑度（Perplexity）：衡量语言建模的基本流畅度。
2. 阅读理解（Reading Comprehension）：测试对文本内容的理解能力。
3. 物理推理（Physical Reasoning）：测试对现实世界物理规律的常识推理能力。
4. 翻译（Translation）：测试跨语言转换能力。

4. 主要发现

实验结果揭示了不同策略在不同任务上的优劣：

整体效果：参数对齐策略在几乎不牺牲语言习得效果的前提下，显著减少了灾难性遗忘。
阅读理解与通用知识：**层冻结（Layer Freezing）和正则化（Regularization）**策略在保持阅读理解能力方面表现最佳。这表明，通过限制参数更新，可以有效保护模型对语义和逻辑的理解。
翻译能力：**事后权重回滚（Post-hoc Reversion）**策略在翻译任务上带来了最强的增益。这可能是因为翻译任务更依赖于源语言和目标语言之间的直接映射，回滚操作有助于保留原始模型中强大的双语对齐能力。

关键要点

CPT 的固有矛盾：持续预训练虽然能扩展多语言能力，但朴素微调会导致灾难性遗忘，仅靠按语言家族分组训练不足以解决通用知识丢失问题。
参数对齐的有效性：提出的五类层感知参数对齐策略（冻结、正则化、回滚、合并）能有效缓解参数漂移，是平衡“新语言习得”与“旧知识保留”的关键技术。
策略与任务的匹配性：没有一种“万能”策略。
- 若目标是保持阅读理解和通用推理能力，推荐使用层冻结或软正则化。
- 若目标是提升翻译性能，事后权重回滚是更优选择。
实证规模：研究覆盖了 32 种语言（5 个语系），评估维度包括困惑度、阅读理解、物理推理和翻译，结果具有广泛的代表性。
部署指南：研究为多语言专家模型的部署提供了实用指南，建议根据下游任务的具体需求（是侧重理解还是侧重翻译）来选择相应的参数对齐策略。

意义与影响

这项研究为多语言大语言模型的持续进化提供了重要的理论依据和实践指导。

打破遗忘瓶颈：它证明了通过精细的参数管理，可以在不重新从头训练整个模型的情况下，安全地扩展模型的语言能力，降低了多语言模型迭代的计算成本和风险。
细化优化策略：以往研究往往笼统地讨论“防止遗忘”，本文则细化到不同策略对不同类型任务（如理解 vs. 翻译）的影响，指出了“任务导向”的策略选择必要性。
推动多语言 AI 落地：对于需要支持多种语言且对通用能力（如逻辑推理、事实准确性）有高要求的应用场景（如多语言客服、全球知识库检索），本文提出的方法提供了可操作的工程路径，有助于构建更稳健、更通用的多语言 AI 系统。

总之，Parameter Alignment 技术为在动态变化的语言环境中保持 LLM 的通用智能提供了新的解决方案，标志着多语言模型训练从“粗放式扩展”向“精细化对齐”迈进了一步。

查看原文 →arxiv.org