技术博客Hugging Face Blog·2026/6/4

Nemotron 3.5推出可定制多模态AI安全方案

原标题：Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

速览

Nemotron 3.5 Content Safety是面向全球企业的新一代可定制多模态安全解决方案，支持文本、图像等多模态内容的审核与过滤。它帮助企业满足不同地区的合规要求，确保AI应用在安全可控的范围内运行。该方案通过灵活配置策略，可适应各种行业场景，提升企业AI部署的安全性与可信度。

AI 深度解读

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

来源：Hugging Face Blog
本文解读了Nemotron 3.5 Content Safety的新增功能、设计思路以及如何将该模型集成到生产级安全管道中。

背景

随着多模态AI（尤其是视觉语言模型）在企业级应用中的广泛部署，内容安全审核面临的新挑战愈发突出：文本、图像、模型响应之间的交互可能产生单一模态下难以发现的违规行为。同时，跨国公司需要覆盖数十种语言，且不同业务场景（如医疗、金融、儿童教育）的安全策略差异巨大。NVIDIA在Nemotron 3（已支持图像理解）的基础上推出Nemotron 3.5 Content Safety，旨在提供统一的多模态评估、全球语言覆盖以及可定制的策略执行能力，并首次开源配套的安全数据集。

核心内容

1. 统一多模态评估

Nemotron 3.5将用户提示、可选图像和可选助手响应作为一个整体上下文窗口输入，输出综合安全判定。这种联合评估方式弥补了多模态安全场景中的一个常见缺陷：仅由文本与图像交互或请求与响应交互触发的策略违规，现在可通过一次前向传播捕获。

2. 全球语言覆盖

模型保留了前代Nemotron 3的12种语言显式训练覆盖（英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语、意大利语），同时继承了Gemma 3基座模型对约140种语言的强大零样本泛化能力。这意味着即使在训练数据稀疏的市场（如东南亚语言、斯堪的纳维亚语言、资源匮乏的非洲语言），部署也能受益于基座模型的多语言迁移，无需单独微调。

3. 自定义策略执行

这是相对于Nemotron 3最重要的架构新增特性。生产环境很少使用单一通用安全分类体系：医疗平台与金融服务聊天机器人、开发者工具IDE或儿童教育应用的风险画像截然不同。Nemotron 3.5在输入之外接受用户自定义策略描述（自然语言），模型在生成判定时会依据该策略进行推理，而非完全依赖内置分类体系。这一能力将先前Nemotron Content Safety Reasoning 4B中引入的工作扩展到了完整的多模态、多语言设置中。

4. 推理追踪（THINK模式）

每个安全判定均可附带可审计的推理过程（通过可选的think模式）。启用后，模型先输出逐步推理，再给出最终的安全/不安全标签以及可选的违规类别。以下为示例输出：

[thinking]
用户提示要求提供无处方获取管制药物的指导。
助手响应提供了具体的获取步骤并引用了某个在线平台。
此交互违反了“犯罪计划/自供”和“管制物质”类别。
图像（药房外景）提供了位置背景，但未改变判定。
[response]
User Safety: unsafe
Response Safety: unsafe
Safety Categories: Criminal Planning/Confessions, Controlled Substances

当延迟为硬约束时，可禁用THINK模式，返回与Nemotron 3相同的低延迟二分类判定。

5. 安全数据集

Nemotron 3.5同步发布了配套安全数据集。这是重要的里程碑——大多数开源安全模型不提供训练或评估集，而多模态领域的图像/视频等素材常受限于严格的许可证条款。该数据集为多模态、多语言，并包含用于训练模型的安全推理轨迹。这些推理轨迹采用两步法生成以保证简洁，类似于Nemotron Content Safety Reasoning 4B模型。

模型架构

Nemotron 3.5 Content Safety基于Google Gemma 3 4B IT（4B参数）构建，提供128K上下文窗口、强大的视觉语言推理能力和广泛的多语言覆盖。NVIDIA通过LoRA适配器微调基座模型，植入目标安全分类行为，同时保持模型紧凑，可在8GB以上VRAM的GPU上实时部署。

推理接口支持三种输出模式：

模式1：低延迟二分类判定（User Safety: safe / unsafe; Response Safety: safe / unsafe）
模式2：二分类判定+违规类别（如Safety Categories: Violence, Criminal Planning/Confessions）
模式3：THINK模式（推理轨迹+判定）

安全分类体系遵循Aegis 2.0框架：13个与MLCommons安全分类对齐的核心类别，外加10个细粒度子类别。这一对齐允许直接在Aegis分类体系数据集上与其他开源和闭源防护系统进行对比。

推理的价值

推理是内容安全分类的“助推器”，因为它提供了生产级AI系统（尤其是在企业和监管环境中）所需的上下文、可定制性和可问责性。

支持自定义和上下文策略执行：推理使安全模型能够动态解释和执行以自然语言定义的、领域特定的策略。例如，金融聊天机器人比儿童教育应用对脏话的容忍度更低；推理能力支持禁止无关类别（如DevOps工具处理“terminate a process”时避免触发“暴力”类别）以及注入组织自定义的风险类别。
提供可审计的书面理由：推理轨迹在给出最终判定前展示模型的逐步逻辑，用于合规审计日志、人工审核以及策略迭代优化（通过观察模型对边缘案例的解释来改进自定义策略措辞）。

延迟处理

推理可能引入延迟，但Nemotron通过压缩推理链为简洁摘要（通常不超过3句话）来限制输出token、提高效率。该两步法具体为：第一步使用较大模型（如Qwen 397B）基于提示、图像、响应和真实标签生成chain-of-thought推理轨迹；第二步使用另一个大模型（如Qwen 80B）将轨迹改写为不超过三句话。实验表明，多数推理轨迹小于三句话。

这种优化允许低延迟的自定义策略执行，同时推理轨迹本身可作为训练专用审核模型的有价值训练信号。开发者可选择双模式操作：通用任务禁用推理以获取最小延迟，复杂策略启用推理。

训练数据

驱动Nemotron 3.5的数据集是Nemotron 3多模态多语言混合数据的演进版，新增了针对推理和自定义策略能力的数据。数据来源包括：

来自Nemotron Safety Guard Dataset v3的多语言文本安全数据，按比例从文化差异子集中采样。
多模态安全数据（含图像-文本对）。
自定义策略推理数据（由大模型生成并经过人工验证）。
（原文未列出全部来源，仅提及以上部分。）

关键要点

统一多模态安全：将用户提示、图像和助手响应作为整体联合评估，捕捉文本-图像交互产生的策略违规。
全球语言覆盖：12语言显式训练 + 约140语言零样本迁移，覆盖主要市场及资源匮乏语言。
自定义策略执行：接受自然语言描述的自定义策略，支持激活/抑制既有类别和注入新类别，实现领域特异性安全审核。
可审计推理轨迹（THINK模式）：输出逐步推理过程，满足合规与人工审核需求，且可关闭以换取低延迟。
安全数据集开源：多模态、多语言、含推理轨迹，填补了开源安全模型缺乏训练/评估数据的空白。
基于Gemma 3 4B + LoRA：紧凑架构（4B参数、128K上下文）适配8GB以上GPU实时运行，安全分类遵循Aegis 2.0体系。
推理优化：通过两步压缩生成简洁推理轨迹，平衡延迟与可解释性。
双模式输出：可根据场景选择低延迟二分类、带分类标签的输出或完整的推理+判定模式。

意义与影响

Nemotron 3.5 Content Safety的发布标志着企业级多模态AI安全审核进入新阶段。首先，它直接解决了多模态场景中“文本+图像”协同违规的漏检问题，这是传统独立评分方法难以处理的盲区。其次，自定义策略执行能力使得同一模型能服务于截然不同的行业（医疗、金融、教育、开发者工具等），无需为每种场景单独训练专用模型，大幅降低部署和维护成本。再次，开源的多模态安全数据集（含推理轨迹）对研究社区意义重大——不仅为后续模型训练提供了数据基础，更推动了安全审核的透明化和可复现性。最后，依托Gemma 3的广泛语言覆盖，Nemotron 3.5在全球化部署中能够以零样本方式覆盖大量小语种，减少了地域适配

查看原文 →huggingface.co