技术博客arXiv cs.CL·4 小时前

多语言拒绝对齐：提升大模型跨语言安全性的新路径

原标题：Multilingual Refusal Alignment for Safer Large Language Models

速览

随着大语言模型全球部署，跨语言安全对齐成为关键挑战。研究引入覆盖12种欧洲语言的RefusEU数据集，通过控制实验发现，仅英语对齐不足以确保跨语言安全。相反，使用多语言数据集进行训练能在不降低通用性能的前提下，显著提升模型的安全性与一致性。

AI 深度解读

多语言拒绝对齐：构建更安全的通用大语言模型

背景

随着大型语言模型（LLMs）在全球范围内的广泛部署，确保其在不同语言环境下的安全性与对齐（Alignment）已成为人工智能领域的首要任务。然而，现有的安全对齐机制往往存在一个显著的盲区：模型在不同语言间表现出的安全行为具有高度的不可预测性。

许多主流模型在英语语境下经过严格的安全训练，但在面对其他语言（尤其是低资源语言或非拉丁语系语言）时，其拒绝有害请求的能力可能会大幅下降，甚至完全失效。这种“语言依赖性”的安全漏洞不仅破坏了 AI 行为的一致性，更带来了严重的伦理风险和法律合规挑战。如果模型无法以统一的标准拒绝跨语言的恶意指令（如生成仇恨言论、非法建议或虚假信息），那么其全球部署的安全性将大打折扣。

在此背景下，研究人员亟需深入探究多语言对齐的动态机制：单一语言的对齐能否有效迁移至其他语言？在多语言训练过程中，如何保持语言间的一致性？以及这种多语言对齐是否会以牺牲模型的通用知识能力为代价？

核心内容

本文系统性地调查了多语言对齐的动力学特征，并提出了一个新的数据集 RefusEU，旨在解决当前多语言安全对齐中的关键问题。

1. 研究问题与假设

研究主要围绕以下三个核心问题展开：

跨语言迁移性：仅使用单一语言（通常是英语）进行对齐训练，是否足以确保模型在其他语言上的安全性？
训练一致性：在多语言数据集上进行训练时，模型能否保持跨语言的安全行为一致性？
能力权衡：引入多语言安全对齐是否会损害模型的通用知识获取能力（General Knowledge Capabilities）？

2. 数据集：RefusEU

为了填补现有评估数据的空白，作者构建了 RefusEU 数据集。这是一个专门针对多语言拒绝对齐的数据集，涵盖 12 种欧洲语言。

覆盖范围：包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、波兰语、捷克语、瑞典语、罗马尼亚语和匈牙利语。
测试集：该数据集包含一个专用的测试集，用于评估当前最先进（SOTA）的多语言大语言模型在拒绝有害请求时的表现。
目的：RefusEU 不仅用于训练，更作为标准化的基准，用于量化模型在不同语言间的对齐差异。

3. 实验方法：直接偏好优化（DPO）

研究采用了 直接偏好优化（Direct Preference Optimization, DPO） 技术进行受控实验。DPO 是一种无需显式奖励模型即可优化语言模型对齐状态的方法，相比传统的 RLHF（基于人类反馈的强化学习），它更稳定且计算效率更高。

实验分为两组对比：

单语言对齐组：仅在英语数据上进行 DPO 训练。
多语言对齐组：在包含 12 种欧洲语言的 RefusEU 数据集上进行 DPO 训练。

4. 评估指标

安全性指标：模型在 12 种语言中拒绝有害请求的比例和一致性。
通用能力指标：使用 Global MMLU 基准测试模型的多语言通用知识能力，以衡量对齐过程是否导致“灾难性遗忘”或性能下降。

关键要点

英语对齐的局限性：实验结果表明，仅在英语上进行对齐训练是不足的。即使对于相同的有害类别（Harm Categories），模型在英语中表现出的安全拒绝行为，并不能自动迁移到法语、德语等其他语言中。这意味着“英语安全”不等于“全球安全”。
多语言训练的有效性：在包含多种语言的数据集上进行训练，能够显著提升模型在多种语言下的安全拒绝能力。这种提升是跨语言一致的，即模型在训练覆盖的语言中均表现出更高的安全性。
无性能损耗：与部分研究担忧的“安全对齐会损害模型智力”不同，本研究发现，多语言安全对齐并未降低模型的通用性能。在 Global MMLU 基准测试中，经过多语言 DPO 训练的模型，其通用知识能力与未对齐或仅英语对齐的基线模型相比，没有显著下降。
RefusEU 的价值：RefusEU 数据集填补了多语言安全评估的空白，为社区提供了一个标准化的工具，用于检测和比较不同模型在多语言环境下的安全漏洞。

意义与影响

1. 推动 AI 安全的全球化标准

本研究揭示了当前大模型安全对齐中的一个系统性缺陷：过度依赖英语数据。这对于希望在全球市场部署 AI 产品的公司具有警示意义。仅针对英语市场优化的安全策略，无法保护非英语用户免受有害内容的侵害，也无法防止非英语用户利用语言差异绕过安全限制（Jailbreak）。

2. 为多语言对齐提供实证依据

通过 DPO 实验，研究提供了强有力的实证支持：多语言数据是构建真正安全、通用大模型的关键。这改变了以往“先英语对齐，再微调其他语言”的范式，证明了端到端的多语言对齐不仅可行，而且必要。

3. 平衡安全与能力

研究结果缓解了业界对于“安全对齐会导致模型变笨”的担忧。证明可以在不牺牲通用知识能力的前提下，通过多语言训练提升安全性。这为未来开发既聪明又安全的全球性 AI 助手提供了技术路径。

4. 促进开源社区与数据共享

RefusEU 数据集的发布，特别是其涵盖 12 种欧洲语言的广泛覆盖，为学术界和工业界提供了一个宝贵的公共资源。它将激励更多研究者关注低资源语言或特定文化语境下的 AI 安全问题，推动 AI 伦理研究向更加包容和多元的方向发展。

总之，这项研究强调了在多语言环境中进行安全对齐的紧迫性和可行性，为构建真正负责任、全球可用的大型语言模型奠定了重要的理论和实践基础。

查看原文 →arxiv.org