技术博客arXiv cs.CL·2 小时前

HaloGuard 1.0：开源多语言AI安全守卫器

原标题：HaloGuard 1.0: An Open Weights Constitutional Classifier for Multilingual AI Safety

速览

HaloGuard 1.0 采用宪法分类器范式，构建了包含46条政策和2940个子类别的安全宪法，用于生成合成数据并实现一对一反事实训练。该模型通过两层无害设计分别针对边界和基线假阳性，并平衡处理46种语言数据。实验显示，0.8B版本平均F1达到90.9%，在七个prompt安全基准上全面领先，FPR仅4.3%；4B版本进一步提升至92.1%。该研究为多语言AI安全提供了高效、开放的新方案，有助于推动更安全的AI应用。

AI 深度解读

## 背景

近年来，大型语言模型（LLM）在提供通用智能能力的同时，其输出与输入的安全性问题日益突出。恶意用户可通过各种提示（prompt）绕过安全机制，诱导模型生成有害内容，如非法活动指导、暴力描述或隐私泄露等。这些“jailbreak”攻击在多语言环境下尤为复杂，因为语言不仅是表达工具，更是潜在的对抗信号。现有开源安全防护模型参数规模较大（如7B–27B），难以在实时部署中兼顾效率与效果。

开放权重（open weights）模型的普及使得高效、安全的输入防护成为必要选择。宪法分类器（Constitutional Classifier）范式通过自然语言宪法（constitution）指导合成数据生成，实现可解释且可控的分类，近年来在防御通用jailbreak方面展现潜力。然而，其在多语言、边界误分类（FPR）和基线误分类（FNR）控制方面的平衡仍存挑战。

## 核心内容

HaloGuard 1.0 是由 Astroware Labs 开发的开源权重输入安全分类器，基于 Qwen3.5 构建，采用生成式分类器架构。在用户提示进入下游 LLM、代理或应用之前，模型会输出安全/不安全判决及具体政策类别。

其核心创新包括：

宪法作为数据驱动：一套包含 46 项自然语言政策及 2,940 个子类别的宪法作为训练语料的组织结构。该宪法指导合成数据生成，构建了 1,259,451 个提示级记录，涵盖有害示例、成对良性反事实（paired counterfactuals）、覆盖率追踪及失败分析。宪法不限于事后标签应用，而是直接驱动数据生成流程。
成对反事实设计：采用双层无害设计，分别针对边界误分类（false positives）和基线误分类。所有反事实均保持主题和词汇不变，仅翻转意图，直接攻击关键词捷径失败模式。
多语言均衡处理：在 46 种语言中实现平衡材料化，将语言视为表面形式，而非对抗信号。
生成式分类器架构：基于 Qwen3.5-0.8B 和 Qwen3.5-4B 开发，采用无分类头结构，直接发射安全/不安全及类别标签，实现高效推理。

测试结果显示，HaloGuard 1.0-0.8B 在七个提示安全基准上平均 F1 达到 90.9（任何开源防护模型中最佳），优于参数规模高达 27B 的基线模型（超过 30 倍更大），同时将假阳性率（FPR）控制在 4.3、假阴性率（FNR）控制在 9.5。HaloGuard 1.0-4B 进一步将平均 F1 提升至 92.1，FPR 降至 3.5，通过额外容量提升精度而非召回。模型在 OAI Moderation、ToxicChat 等基准上实现领先性能。

此外，模型配备结构化的剩余失败案例裁决机制，多数表面上未检测到的危害实际为基准标注错误，而非模型真缺失。始终开启的对抗性红队协议持续对抗内容级和代理级攻击。模型以开源权重形式发布，可在 Hugging Face 上获取（HaloGuard1-Gen-0.8B 与 HaloGuard1-Gen-4B）。

## 关键要点

开源权重宪法分类器：基于 Qwen3.5，采用生成式架构，直接在提示进入下游模型前输出安全判决与类别。
宪法驱动数据生成：46 项政策、2,940 子类别构成宪法，直接指导合成数据与反事实构造。
双层无害设计：一对一成对反事实，固定主题词汇仅翻转意图，针对边界与基线误分类。
多语言均衡：46 种语言中平衡材料化，将语言作为表面形式处理。
高效率：0.8B 版本参数仅为基线模型的约 1/10，在七基准平均 F1 90.9（最佳），FPR 4.3，FNR 9.5；4B 版本 F1 92.1。
持续红队：始终开启对抗性协议，强化内容级与代理级攻击防御。
裁决机制：多数失败案例为基准误标，非模型真实缺失。

## 意义与影响

HaloGuard 1.0 证明了小型宪法分类器在开源多语言提示安全防护中的可行性，显著降低部署门槛与计算成本，为边缘设备、实时代理及资源受限场景提供高效第一道防线。其宪法驱动与反事实机制增强了模型的可解释性与可控性，避免了黑盒分类的局限。

对开源社区而言，该工作加速了高效、安全防护工具的迭代，降低依赖闭源或超大模型的风险，提升整体 AI 生态的开放性与可及性。

对于开发者与企业，集成 HaloGuard 可在不增加下游模型负担的情况下，有效拦截恶意提示，降低合规与安全风险。其多语言支持使全球应用更具普适性。

长远来看，类似宪法分类器的开放权重范式可能推动 AI 安全从被动防御转向主动、可迭代的体系，助力构建更可信的多语言人工智能系统，同时减少因防护失败带来的社会与经济成本。

查看原文 →arxiv.org

HaloGuard 1.0：开源多语言AI安全守卫器

速览

AI 深度解读

相关推荐