技术博客arXiv cs.CL·3 小时前

MLJailDe：学习语言无关意图表示以检测多语言越狱攻击

原标题：One Jailbreak, Many Tongues: Learning Language-Insensitive Intention Representations for Multilingual Jailbreak Detection

速览

针对大语言模型在多语言场景下安全训练不足的问题，研究提出MLJailDe检测框架。该框架利用多语言回译数据增强构建涵盖11种语言的语义一致数据集，并引入相对距离约束以减少跨语言表示分散。实验表明，该方法在多种语言上优于现有基线，在未见语言上平均F1得分达97.1%，展现出强大的跨语言泛化能力。

随着大型语言模型（LLMs）在全球多语言用户中的应用日益广泛，其安全性问题变得愈发关键。然而，当前的安全训练主要集中在英语等主导语言上，其进展速度并未与模型的多语言能力保持同步。这种不对称性导致了安全漏洞，使得攻击者能够利用这些“安全盲区”发起越狱攻击（Jailbreak Attacks）。

现有的越狱防御机制大多是在主导语言中开发和评估的。当面对多语言场景时，这些防御措施的有效性受到两大因素的限制：

因此，开发一种既能提升多语言鲁棒性，又能实现跨语言泛化的越狱检测框架，成为当前大模型安全领域亟待解决的关键问题。

针对上述挑战，研究团队提出了 MLJailDe（Multilingual Jailbreak Detection，多语言越狱检测框架）。该框架旨在通过构建高质量的多语言数据集和优化表示学习策略，提升越狱检测的准确性和泛化能力。

MLJailDe 首先引入了一种多语言回译（Back-translation）数据增强算法。该算法构建了涵盖 11 种语言 的数据集，确保数据在语义上的一致性以及在功能上的有效性。最终构建的数据集包含：

这一数据集为后续的多语言训练提供了坚实的数据基础。

为了克服语言变异带来的表示分散问题，MLJailDe 采用了相对距离约束（Relative-distance constraints）。其核心思想是：

减少跨语言的表示分散性。
鼓励具有相似意图的越狱提示在不同语言中形成一致的聚类（Clusters）。这意味着，无论用户使用何种语言，只要其意图是发起越狱，模型都能将其映射到相近的向量空间区域。

考虑到越狱样本在真实场景中通常远少于良性样本，MLJailDe 进一步引入了感知不平衡的分类目标（Imbalance-aware classification objective）。该目标旨在：

实验表明，MLJailDe 在多种语言上均优于最先进的基线模型（State-of-the-art baselines）：

这一结果证明了 MLJailDe 在跨语言泛化和多语言鲁棒性方面的强大有效性。

问题痛点：现有 LLM 安全训练过度依赖主导语言，导致多语言场景下的越狱攻击防御存在巨大缺口。
核心创新：提出了 MLJailDe 框架，专门针对多语言越狱检测进行优化。
数据构建：利用多语言回译技术，构建了包含 11 种语言、共 3,471 个样本（2,232 良性 + 1,239 越狱）的高质量数据集。
技术机制：
- 使用相对距离约束来对齐不同语言中相同意图的向量表示，解决表示分散问题。
- 引入感知不平衡分类目标，以应对越狱样本稀缺带来的类别不平衡挑战。
性能表现：
- 总体 F1 分数达到 98.5%。
- 在未见语言上的平均 F1 分数为 97.1%，显示出极强的跨语言泛化能力。

MLJailDe 的研究成果对大模型安全领域具有重要的理论和实践意义：

填补多语言安全空白：它首次系统地解决了多语言环境下的越狱检测问题，证明了通过特定的表示学习和数据增强策略，可以有效弥合主导语言与多语言之间的安全差距。
提升跨语言泛化能力：通过在未见语言上取得 97.1% 的高 F1 分数，表明该方法不仅适用于训练语言，还能有效迁移到新的语言环境中，这对于部署在全球范围内的多语言应用至关重要。
为后续研究提供基准：构建的 11 语言多语言越狱数据集以及 MLJailDe 框架，为社区提供了新的评估基准和参考方案，有助于推动多语言大模型安全研究的进一步发展。
增强全球用户信任：随着 LLMs 在全球多语言用户中的普及，此类技术有助于构建更公平、更安全的人工智能环境，减少因语言差异导致的安全风险，增强用户对全球 AI 应用的信任。