技术博客arXiv cs.CL·3 小时前

Schutzen：评估大模型在德语和保加利亚语境下的安全性

原标题：Sch\"utzen: Evaluating LLM Safety in Bulgarian and German Contexts

速览

大型语言模型在专业领域的应用带来了难以预测的安全风险，但现有的安全评估数据集主要集中于英语和中文。为此，研究团队推出了Schutzen数据集，旨在评估大模型在德语（高资源语言）和保加利亚语（低资源语言）语境下的风险应对能力。实验结果显示，不同语言间的安全行为存在显著差异，凸显了开发针对特定地区评估资源的重要性，以支持大模型在德语区和保加利亚的负责任部署。

AI 深度解读

Schützen：评估德语与保加利亚语境下的大语言模型安全性

背景

随着大型语言模型（LLMs）日益广泛地部署于专业领域，其带来的风险变得难以预测，其中最为突出的风险之一便是生成有害或不尊重内容的倾向。尽管在开发安全性评估数据集方面已取得显著进展，但现有的资源仍然严重以英语和中文为中心。

这种局限性在评估那些处于共享社会文化、法律及伦理语境中的语言时表现得尤为明显。由于缺乏针对特定语言和文化背景的评估工具，开发者难以准确衡量模型在非主流语言环境下的安全行为，这阻碍了 LLM 在德语区和保加利亚等地区的负责任部署。

核心内容

为了解决这一空白，研究团队引入了 Schützen，这是一个专为德语和保加利亚语境设计的安全性数据集。该数据集旨在评估模型在面临风险时的回答能力（answerability），涵盖了两种截然不同的语言资源状况：

保加利亚语（Bulgarian）：作为低资源语言（low-resource language）。
德语（German）：作为高资源语言（high-resource language）。

实验发现

研究团队对多语言模型（multilingual LLMs）以及特定语言模型（language-specific LLMs）进行了实验，揭示了以下关键现象：

显著的语言间差异：不同语言在安全性行为上存在 pronounced（显著/突出）的差异。这意味着，一个模型在英语或中文上表现良好的安全对齐，并不能直接迁移到德语或保加利亚语上。
定制化的必要性：实验结果强调了开发定制化、区域特定评估资源（region-specific evaluation resources）的必要性，以支持 LLM 在德国和保加利亚的负责任部署。

数据集与代码

数据集和代码已公开，可通过文章提供的链接访问。
警告：该论文包含可能具有冒犯性、有害性或偏见的内容示例，旨在用于测试模型的安全边界。

关键要点

打破语言中心主义：现有的 LLM 安全评估严重偏向英语和中文，Schützen 填补了德语和保加利亚语在安全评估资源上的空白。
双语言对照设计：通过同时包含高资源语言（德语）和低资源语言（保加利亚语），Schützen 能够更全面地揭示不同语言资源状况下模型安全性的差异。
跨语言安全行为的异质性：实验证明，LLM 的安全性表现具有强烈的语言依赖性，跨语言迁移安全对齐策略的效果有限。
区域化部署的关键支撑：为了在德国和保加利亚等地区负责任地部署 LLM，必须使用针对当地社会文化、法律和伦理背景定制的评估工具。
资源公开：研究团队开源了 Schützen 数据集及相关代码，促进了社区对多语言 LLM 安全性的研究。

意义与影响

Schützen 的发布标志着 LLM 安全评估从“通用英语中心”向“多语言、区域化”方向的重要转变。其意义主要体现在以下几个方面：

提升非英语语境下的模型可靠性：对于在德国和保加利亚运营的企业或机构而言，仅依赖英语基准测试无法真实反映模型在本地语境下的风险。Schützen 提供了更贴近实际的评估标准，有助于识别和缓解本地特有的有害内容生成风险。
揭示低资源语言的独特挑战：通过包含保加利亚语，研究突出了低资源语言在安全对齐上的特殊性。这提醒开发者，不能简单地将高资源语言的安全策略套用于低资源语言，需要更多的本地化数据和针对性优化。
推动负责任的 AI 部署：在全球化 AI 应用中，忽视文化、法律和伦理的细微差别可能导致严重的合规问题和声誉风险。Schützen 为建立符合当地规范的安全护栏提供了实证基础和数据支持。
促进多语言安全研究：该工作鼓励更多研究者关注非主流语言的安全评估，推动构建更加包容和全面的全球 LLM 安全评估体系。

总之，Schützen 不仅是一个数据集，更是一个警示和工具，提醒业界在追求模型能力的同时，必须重视语言和文化多样性对安全性的深远影响。

查看原文 →arxiv.org