← 返回信息流
技术博客arXiv cs.CL·1 小时前

CHILLGuard:面向细粒度中文大模型安全的护栏与数据构建

原标题:CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

速览

针对现有大模型安全护栏在中文语境下缺乏细粒度风险分类的问题,研究团队提出CHILLGuard。该方案构建了包含5大类31小类的中文风险分类体系,并设计了可扩展的多阶段数据构建流水线,生成超40万条训练数据。实验表明,CHILLGuard在多项指标上达到最先进水平,显著优于Qwen3Guard等基线模型。

AI 深度解读

CHILLGuard:面向细粒度中文大模型安全护栏的可扩展数据构建与模型感知偏好对齐

背景

随着大型语言模型(LLMs)的广泛应用,其生成的恶意内容引发了严重的安全风险和伦理担忧。尽管现有的 LLM 安全护栏(Safety Guardrails)在英语或多语言环境中表现优异,但它们往往缺乏针对中文特定监管政策、文化语境以及语言细微差别的适应性。这种“水土不服”导致现有工具难以支持多样化的部署需求,特别是在需要细粒度风险分类的场景下。

为了填补这一空白,研究人员提出了一种专门针对中文场景的大模型内容安全护栏——CHILLGuard。该工作旨在解决高质量标注中文安全数据稀缺这一关键瓶颈,并通过可扩展的数据构建流程和模型感知的偏好对齐技术,提升中文 LLM 的安全防护能力。

核心内容

CHILLGuard 的核心贡献在于构建了一套完整的中文 LLM 安全防护体系,涵盖了从风险分类标准、数据构建到模型训练的全过程。

1. 细粒度风险分类体系

研究团队首先定义了一套适用于中文场景的细粒度风险分类法。该体系包含 **5 个宏观类别(Macro Categories)**和 31 个微观类别(Micro Categories)。这种细粒度的划分旨在更精准地识别和分类不同类型的潜在风险,以满足不同部署场景下的具体需求。

2. 可扩展的多阶段数据构建流水线

针对高质量中文安全标注数据稀缺的问题,论文提出了一种可扩展的多阶段数据构建管道(Scalable Multi-stage Data Construction Pipeline),具体包括三个步骤:

  • 检索增强生成扩展语料库:通过检索增强生成(RAG)技术,从多源语料库中扩展数据基础。
  • 提示工程重写生成隐性有害样本:利用提示工程(Prompt Engineering)对数据进行重写,生成具有隐蔽性的有害样本,以增强模型的鲁棒性。
  • 多模型投票标签校准:通过多模型投票机制对数据进行标签校准,从而提炼出高质量的安全数据。

基于上述流程,研究团队构建了两个关键数据集:

  • CHILLGuardTrain:一个包含 405,077 个样本的大规模训练集。
  • CHILLGuardTest:一个经过严格筛选和标注的测试集,包含 51,745 个样本。

3. 模型感知偏好对齐训练

在训练阶段,CHILLGuard 采用了一种生成器-分类器协作框架(Generator-Classifier Collaborative Framework)。通过**模型感知直接偏好优化(Model-aware Direct Preference Optimization, DPO)**技术在 CHILLGuardTrain 上进行训练。这种方法不仅考虑了模型自身的偏好,还结合了生成器与分类器的协同作用,从而更有效地对齐安全策略。

4. 实验结果

在多个设置下的广泛实验表明,CHILLGuard 达到了最先进的性能水平。例如,在该研究构建的基准测试中,CHILLGuard 的 F1 分数比 Qwen3Guard-8B-Strict 提高了 15.92%

关键要点

  • 填补中文安全护栏空白:现有安全工具多针对英语或多语言优化,缺乏对中文监管、文化和语言特性的适配,CHILLGuard 专为中文场景设计。
  • 5-31 细粒度分类:建立了 5 个宏观、31 个微观类别的风险分类体系,支持更精细的风险识别。
  • 解决数据稀缺问题:提出了一种可扩展的数据构建流水线,结合 RAG、提示工程重写和多模型投票校准,有效解决了高质量标注数据不足的问题。
  • 大规模数据集发布:构建了包含 40.5 万样本的训练集(CHILLGuardTrain)和 5.1 万样本的测试集(CHILLGuardTest)。
  • 创新训练框架:采用生成器-分类器协作框架,并结合模型感知直接偏好优化(Model-aware DPO)进行训练。
  • 性能领先:在基准测试中,F1 分数较 Qwen3Guard-8B-Strict 提升 15.92%,证明了其优越的安全防护能力。

意义与影响

CHILLGuard 的提出对于中文大模型生态的安全建设具有重要意义。首先,它通过细粒度的风险分类,为开发者提供了更灵活、更精准的安全配置选项,能够适应从通用聊天机器人到专业领域应用等不同场景的需求。其次,其提出的可扩展数据构建方法为后续中文安全数据的积累提供了可复用的范式,有助于缓解高质量安全数据长期匮乏的痛点。

此外,CHILLGuard 在性能上显著优于现有的基线模型(如 Qwen3Guard-8B-Strict),这表明通过针对性的数据工程和模型对齐技术,可以显著提升中文 LLM 的安全护栏效果。随着资源的公开,CHILLGuard 有望成为中文 AI 安全领域的重要基础设施,推动行业在合规性、伦理性和安全性方面达到更高标准。

查看原文 →arxiv.org