← 返回信息流
技术博客arXiv cs.CL·4 小时前

多语言拒绝对齐:提升大模型跨语言安全性的新路径

原标题:Multilingual Refusal Alignment for Safer Large Language Models

速览

随着大语言模型全球部署,跨语言安全对齐成为关键挑战。研究引入覆盖12种欧洲语言的RefusEU数据集,通过控制实验发现,仅英语对齐不足以确保跨语言安全。相反,使用多语言数据集进行训练能在不降低通用性能的前提下,显著提升模型的安全性与一致性。

AI 深度解读

多语言拒绝对齐:构建更安全的通用大语言模型

背景

随着大型语言模型(LLMs)在全球范围内的广泛部署,确保其在不同语言环境下的安全性与对齐(Alignment)已成为人工智能领域的首要任务。然而,现有的安全对齐机制往往存在一个显著的盲区:模型在不同语言间表现出的安全行为具有高度的不可预测性。

许多主流模型在英语语境下经过严格的安全训练,但在面对其他语言(尤其是低资源语言或非拉丁语系语言)时,其拒绝有害请求的能力可能会大幅下降,甚至完全失效。这种“语言依赖性”的安全漏洞不仅破坏了 AI 行为的一致性,更带来了严重的伦理风险和法律合规挑战。如果模型无法以统一的标准拒绝跨语言的恶意指令(如生成仇恨言论、非法建议或虚假信息),那么其全球部署的安全性将大打折扣。

在此背景下,研究人员亟需深入探究多语言对齐的动态机制:单一语言的对齐能否有效迁移至其他语言?在多语言训练过程中,如何保持语言间的一致性?以及这种多语言对齐是否会以牺牲模型的通用知识能力为代价?

核心内容

本文系统性地调查了多语言对齐的动力学特征,并提出了一个新的数据集 RefusEU,旨在解决当前多语言安全对齐中的关键问题。

1. 研究问题与假设

研究主要围绕以下三个核心问题展开:

  • 跨语言迁移性:仅使用单一语言(通常是英语)进行对齐训练,是否足以确保模型在其他语言上的安全性?
  • 训练一致性:在多语言数据集上进行训练时,模型能否保持跨语言的安全行为一致性?
  • 能力权衡:引入多语言安全对齐是否会损害模型的通用知识获取能力(General Knowledge Capabilities)?

2. 数据集:RefusEU

为了填补现有评估数据的空白,作者构建了 RefusEU 数据集。这是一个专门针对多语言拒绝对齐的数据集,涵盖 12 种欧洲语言

  • 覆盖范围:包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、波兰语、捷克语、瑞典语、罗马尼亚语和匈牙利语。
  • 测试集:该数据集包含一个专用的测试集,用于评估当前最先进(SOTA)的多语言大语言模型在拒绝有害请求时的表现。
  • 目的:RefusEU 不仅用于训练,更作为标准化的基准,用于量化模型在不同语言间的对齐差异。

3. 实验方法:直接偏好优化(DPO)

研究采用了 直接偏好优化(Direct Preference Optimization, DPO) 技术进行受控实验。DPO 是一种无需显式奖励模型即可优化语言模型对齐状态的方法,相比传统的 RLHF(基于人类反馈的强化学习),它更稳定且计算效率更高。

实验分为两组对比:

  • 单语言对齐组:仅在英语数据上进行 DPO 训练。
  • 多语言对齐组:在包含 12 种欧洲语言的 RefusEU 数据集上进行 DPO 训练。

4. 评估指标

  • 安全性指标:模型在 12 种语言中拒绝有害请求的比例和一致性。
  • 通用能力指标:使用 Global MMLU 基准测试模型的多语言通用知识能力,以衡量对齐过程是否导致“灾难性遗忘”或性能下降。

关键要点

  • 英语对齐的局限性:实验结果表明,仅在英语上进行对齐训练是不足的。即使对于相同的有害类别(Harm Categories),模型在英语中表现出的安全拒绝行为,并不能自动迁移到法语、德语等其他语言中。这意味着“英语安全”不等于“全球安全”。
  • 多语言训练的有效性:在包含多种语言的数据集上进行训练,能够显著提升模型在多种语言下的安全拒绝能力。这种提升是跨语言一致的,即模型在训练覆盖的语言中均表现出更高的安全性。
  • 无性能损耗:与部分研究担忧的“安全对齐会损害模型智力”不同,本研究发现,多语言安全对齐并未降低模型的通用性能。在 Global MMLU 基准测试中,经过多语言 DPO 训练的模型,其通用知识能力与未对齐或仅英语对齐的基线模型相比,没有显著下降。
  • RefusEU 的价值:RefusEU 数据集填补了多语言安全评估的空白,为社区提供了一个标准化的工具,用于检测和比较不同模型在多语言环境下的安全漏洞。

意义与影响

1. 推动 AI 安全的全球化标准

本研究揭示了当前大模型安全对齐中的一个系统性缺陷:过度依赖英语数据。这对于希望在全球市场部署 AI 产品的公司具有警示意义。仅针对英语市场优化的安全策略,无法保护非英语用户免受有害内容的侵害,也无法防止非英语用户利用语言差异绕过安全限制(Jailbreak)。

2. 为多语言对齐提供实证依据

通过 DPO 实验,研究提供了强有力的实证支持:多语言数据是构建真正安全、通用大模型的关键。这改变了以往“先英语对齐,再微调其他语言”的范式,证明了端到端的多语言对齐不仅可行,而且必要。

3. 平衡安全与能力

研究结果缓解了业界对于“安全对齐会导致模型变笨”的担忧。证明可以在不牺牲通用知识能力的前提下,通过多语言训练提升安全性。这为未来开发既聪明又安全的全球性 AI 助手提供了技术路径。

4. 促进开源社区与数据共享

RefusEU 数据集的发布,特别是其涵盖 12 种欧洲语言的广泛覆盖,为学术界和工业界提供了一个宝贵的公共资源。它将激励更多研究者关注低资源语言或特定文化语境下的 AI 安全问题,推动 AI 伦理研究向更加包容和多元的方向发展。

总之,这项研究强调了在多语言环境中进行安全对齐的紧迫性和可行性,为构建真正负责任、全球可用的大型语言模型奠定了重要的理论和实践基础。

查看原文 →arxiv.org