技术博客Hugging Face Blog·4 小时前

Nemotron 3.5 内容安全：面向全球企业 AI 的可定制多模态安全方案

原标题：Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

速览

NVIDIA 推出了 Nemotron 3.5 内容安全模型，旨在为企业级 AI 应用提供可定制的多模态安全防护。该模型支持对文本、图像等多种数据类型进行细粒度的安全过滤与合规性检查。这一发布有助于全球企业降低 AI 部署风险，确保生成内容符合当地法规与伦理标准。

AI 深度解读

背景

随着生成式 AI 在企业级应用中的深入部署，内容安全（Content Safety）已成为构建可信 AI 系统的核心环节。早期的安全模型往往局限于单一模态（如仅文本）或单一语言，且难以适应不同行业（如医疗、金融、教育）差异化的合规需求。

NVIDIA 推出的 Nemotron 3.5 Content Safety 模型旨在解决这些痛点。它基于 Google 的 Gemma 3 基础模型构建，不仅增强了多模态理解能力，还引入了自定义策略执行和可审计的推理追踪机制。该模型特别针对全球企业的复杂部署场景设计，支持多语言环境，并提供从低延迟二元判定到详细推理追踪的多种输出模式，以满足生产环境对安全性、合规性和性能的不同要求。

核心内容

Nemotron 3.5 Content Safety 在架构、功能和数据层面进行了多项重大升级，具体包括以下五个方面：

1. 统一的多模态评估

Nemotron 3 引入了图像理解能力，而 3.5 版本则深化了多模态集成。该模型将用户提示词、可选图像以及可选的助手回复作为单一上下文窗口进行处理，并在组合输入上生成连贯的安全判定。

优势：通过同时评估所有三个要素（而非独立评分），模型能够捕捉到仅在文本与图像交互，或请求与回复交互中才显现的策略违规行为。这解决了多模态安全场景中一个长期存在的盲区。

2. 全球语言覆盖

Nemotron 3.5 继承了前代的 12 种显式训练语言覆盖（英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语），同时从 Gemma 3 基础模型中继承了针对约 140 种语言的强大零样本泛化能力。

优势：在训练数据稀缺的市场（如东南亚语言、斯堪的纳维亚语言、资源较少使用的非洲语言），部署方无需单独微调即可利用基础模型的多语言迁移能力，从而降低部署成本并提升覆盖率。

3. 自定义策略执行

这是 3.5 版本相对于 3 版本最显著的架构增强。生产环境很少遵循单一通用的安全分类法。例如，医疗平台、金融服务聊天机器人、开发者工具 IDE 或儿童教育应用的风险画像截然不同。

机制：Nemotron 3.5 允许在输入时附带自定义策略规范。模型在生成判定时会基于该策略进行推理，而不是完全依赖内置的分类法。
扩展：这一功能将 Nemotron Content Safety Reasoning 4B 中引入的工作扩展到了完整的多模态、多语言环境中。

4. 推理追踪（THINK 模式）

Nemotron 3.5 的每个安全判定均可通过可选的 THINK 模式附带可审计的推理追踪。

功能：启用后，模型在输出最终的安全/不安全标签及违规类别之前，会输出逐步推理过程。
价值：这为合规审计、人工复核以及策略迭代提供了必要的上下文和问责机制。

5. 安全数据集发布

Nemotron 3.5 配套发布了其安全数据集。鉴于大多数开源安全模型不提供训练或评估集，且多模态数据（图像/视频）常受限于严格的许可条款，这一举措具有重要意义。

特点：该数据集是多模态、多语言的，并包含用于训练模型的推理追踪。
生成方式：推理追踪采用两步法生成，以确保简洁性，类似于 Nemotron Content Safety Reasoning 4B 模型的处理方式。

模型架构与接口

基础模型：基于 Google Gemma 3 4B IT（40 亿参数），提供 128K 上下文窗口、强大的视觉-语言推理能力和广泛的多语言覆盖。
微调技术：NVIDIA 使用 LoRA 适配器对基础模型进行微调，植入针对性的安全分类行为，同时保持模型紧凑，使其能够在 8GB+ VRAM 的 GPU 上实时部署。
推理接口支持三种输出模式：
1. 低延迟二元判定：仅输出用户/回复的安全/不安全状态。
2. 带类别的二元判定：输出判定状态及具体的安全类别（如暴力、犯罪规划等）。
3. THINK 模式：输出推理追踪、判定状态及安全类别。

推理的作用

推理能力被视为内容安全分类的“加速器”，因为它提供了生产 AI 系统（尤其是企业级和受监管环境）所需的上下文、定制化和问责制。

自定义策略执行：允许模型在推理时动态解释和执行自然语言定义的自定义、领域特定策略。例如，可以抑制不相关的类别（如在 DevOps 工具中将“终止进程”误判为暴力），或注入组织特有的风险类别。
可审计性：推理追踪为合规审计日志、人工复核（识别系统性模型错误）以及策略迭代（通过追踪了解模型如何解释边缘案例）提供了文档化的依据。

延迟优化

虽然推理可能引入延迟，但 Nemotron 模型通过两步过程将推理链压缩为简洁摘要，以限制输出令牌并提高效率：

第一步：使用大型模型（如 Qwen 397B）基于提供的提示、图像和回复生成思维链推理追踪，并提供真实标签以避免误分类。
第二步：使用另一大型模型（如 Qwen 80B）将推理追踪重新表述为不超过 3 句话的简洁版本。实验表明，大多数生成的推理追踪均在 3 句话以内。

这种高效的推理追踪优化允许在低延迟下执行自定义策略执行，同时为训练专门的审核员模型提供有价值的训练信号。开发者可以选择双模式操作：在通用任务中禁用推理以最小化延迟，或在复杂策略中启用推理。

训练数据

Nemotron 3.5 的数据集是 Nemotron 3 使用的多模态、多语言混合数据的演进版，增加了针对推理和自定义策略能力的目标数据。数据来源包括：

来自 Nemotron Safety Guard Dataset v3 的多语言文本安全数据，从文化细微差别丰富的子集中采样。

关键要点

多模态统一评估：Nemotron 3.5 将文本、图像和回复置于单一上下文窗口中，能够捕捉跨模态交互产生的违规行为，弥补了独立评分的不足。
广泛的语言支持：支持 12 种显式训练语言和约 140 种语言的零样本泛化，特别适合数据稀缺的非主流语言市场，无需单独微调。
自定义策略执行：模型支持输入自然语言定义的自定义安全策略，能够根据特定行业（如医疗、金融）的风险画像进行动态推理，支持类别抑制和自定义类别注入。
可审计的推理追踪：通过 THINK 模式提供逐步推理过程，满足合规审计、人工复核和策略迭代的需求，增强了模型决策的可解释性。
灵活的性能权衡：提供三种输出模式（低延迟二元、带类别二元、THINK 模式），开发者可根据场景在延迟和可解释性之间进行权衡。
高效的推理压缩：通过两步法（使用 Qwen 397B 生成追踪，Qwen 80B 压缩至 3 句话以内）将推理追踪精简，在保证可解释性的同时最小化延迟。
开源数据集发布：发布了多模态、多语言的安全数据集及推理追踪，填补了开源安全模型缺乏训练/评估集的空白。
紧凑的架构：基于 Gemma 3 4B IT，使用 LoRA 微调，可在 8GB+ VRAM 的 GPU 上实时部署，适合边缘或低成本生产环境。

意义与影响

Nemotron 3.5 Content Safety 的发布标志着企业级 AI 安全治理向更精细、更灵活的方向发展。

首先，解决了多模态安全的“上下文缺失”问题。传统方法往往孤立地评估文本或图像，而 Nemotron 3.5 通过统一评估

查看原文 →huggingface.co