← 返回信息流
技术博客Hugging Face Blog·2026/6/4

Nemotron 3.5推出可定制多模态AI安全方案

原标题:Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

速览

Nemotron 3.5 Content Safety是面向全球企业的新一代可定制多模态安全解决方案,支持文本、图像等多模态内容的审核与过滤。它帮助企业满足不同地区的合规要求,确保AI应用在安全可控的范围内运行。该方案通过灵活配置策略,可适应各种行业场景,提升企业AI部署的安全性与可信度。

AI 深度解读

Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全

来源:Hugging Face Blog
本文解读了Nemotron 3.5 Content Safety的新增功能、设计思路以及如何将该模型集成到生产级安全管道中。

背景

随着多模态AI(尤其是视觉语言模型)在企业级应用中的广泛部署,内容安全审核面临的新挑战愈发突出:文本、图像、模型响应之间的交互可能产生单一模态下难以发现的违规行为。同时,跨国公司需要覆盖数十种语言,且不同业务场景(如医疗、金融、儿童教育)的安全策略差异巨大。NVIDIA在Nemotron 3(已支持图像理解)的基础上推出Nemotron 3.5 Content Safety,旨在提供统一的多模态评估、全球语言覆盖以及可定制的策略执行能力,并首次开源配套的安全数据集。

核心内容

1. 统一多模态评估

Nemotron 3.5将用户提示、可选图像和可选助手响应作为一个整体上下文窗口输入,输出综合安全判定。这种联合评估方式弥补了多模态安全场景中的一个常见缺陷:仅由文本与图像交互或请求与响应交互触发的策略违规,现在可通过一次前向传播捕获。

2. 全球语言覆盖

模型保留了前代Nemotron 3的12种语言显式训练覆盖(英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语、意大利语),同时继承了Gemma 3基座模型对约140种语言的强大零样本泛化能力。这意味着即使在训练数据稀疏的市场(如东南亚语言、斯堪的纳维亚语言、资源匮乏的非洲语言),部署也能受益于基座模型的多语言迁移,无需单独微调。

3. 自定义策略执行

这是相对于Nemotron 3最重要的架构新增特性。生产环境很少使用单一通用安全分类体系:医疗平台与金融服务聊天机器人、开发者工具IDE或儿童教育应用的风险画像截然不同。Nemotron 3.5在输入之外接受用户自定义策略描述(自然语言),模型在生成判定时会依据该策略进行推理,而非完全依赖内置分类体系。这一能力将先前Nemotron Content Safety Reasoning 4B中引入的工作扩展到了完整的多模态、多语言设置中。

4. 推理追踪(THINK模式)

每个安全判定均可附带可审计的推理过程(通过可选的think模式)。启用后,模型先输出逐步推理,再给出最终的安全/不安全标签以及可选的违规类别。以下为示例输出:

[thinking]
用户提示要求提供无处方获取管制药物的指导。
助手响应提供了具体的获取步骤并引用了某个在线平台。
此交互违反了“犯罪计划/自供”和“管制物质”类别。
图像(药房外景)提供了位置背景,但未改变判定。
[response]
User Safety: unsafe
Response Safety: unsafe
Safety Categories: Criminal Planning/Confessions, Controlled Substances

当延迟为硬约束时,可禁用THINK模式,返回与Nemotron 3相同的低延迟二分类判定。

5. 安全数据集

Nemotron 3.5同步发布了配套安全数据集。这是重要的里程碑——大多数开源安全模型不提供训练或评估集,而多模态领域的图像/视频等素材常受限于严格的许可证条款。该数据集为多模态、多语言,并包含用于训练模型的安全推理轨迹。这些推理轨迹采用两步法生成以保证简洁,类似于Nemotron Content Safety Reasoning 4B模型。

模型架构

Nemotron 3.5 Content Safety基于Google Gemma 3 4B IT(4B参数)构建,提供128K上下文窗口、强大的视觉语言推理能力和广泛的多语言覆盖。NVIDIA通过LoRA适配器微调基座模型,植入目标安全分类行为,同时保持模型紧凑,可在8GB以上VRAM的GPU上实时部署。

推理接口支持三种输出模式:

  • 模式1:低延迟二分类判定(User Safety: safe / unsafe; Response Safety: safe / unsafe
  • 模式2:二分类判定+违规类别(如Safety Categories: Violence, Criminal Planning/Confessions
  • 模式3:THINK模式(推理轨迹+判定)

安全分类体系遵循Aegis 2.0框架:13个与MLCommons安全分类对齐的核心类别,外加10个细粒度子类别。这一对齐允许直接在Aegis分类体系数据集上与其他开源和闭源防护系统进行对比。

推理的价值

推理是内容安全分类的“助推器”,因为它提供了生产级AI系统(尤其是在企业和监管环境中)所需的上下文、可定制性和可问责性。

  • 支持自定义和上下文策略执行:推理使安全模型能够动态解释和执行以自然语言定义的、领域特定的策略。例如,金融聊天机器人比儿童教育应用对脏话的容忍度更低;推理能力支持禁止无关类别(如DevOps工具处理“terminate a process”时避免触发“暴力”类别)以及注入组织自定义的风险类别。
  • 提供可审计的书面理由:推理轨迹在给出最终判定前展示模型的逐步逻辑,用于合规审计日志、人工审核以及策略迭代优化(通过观察模型对边缘案例的解释来改进自定义策略措辞)。

延迟处理

推理可能引入延迟,但Nemotron通过压缩推理链为简洁摘要(通常不超过3句话)来限制输出token、提高效率。该两步法具体为:第一步使用较大模型(如Qwen 397B)基于提示、图像、响应和真实标签生成chain-of-thought推理轨迹;第二步使用另一个大模型(如Qwen 80B)将轨迹改写为不超过三句话。实验表明,多数推理轨迹小于三句话。

这种优化允许低延迟的自定义策略执行,同时推理轨迹本身可作为训练专用审核模型的有价值训练信号。开发者可选择双模式操作:通用任务禁用推理以获取最小延迟,复杂策略启用推理。

训练数据

驱动Nemotron 3.5的数据集是Nemotron 3多模态多语言混合数据的演进版,新增了针对推理和自定义策略能力的数据。数据来源包括:

  • 来自Nemotron Safety Guard Dataset v3的多语言文本安全数据,按比例从文化差异子集中采样。
  • 多模态安全数据(含图像-文本对)。
  • 自定义策略推理数据(由大模型生成并经过人工验证)。
  • (原文未列出全部来源,仅提及以上部分。)

关键要点

  • 统一多模态安全:将用户提示、图像和助手响应作为整体联合评估,捕捉文本-图像交互产生的策略违规。
  • 全球语言覆盖:12语言显式训练 + 约140语言零样本迁移,覆盖主要市场及资源匮乏语言。
  • 自定义策略执行:接受自然语言描述的自定义策略,支持激活/抑制既有类别和注入新类别,实现领域特异性安全审核。
  • 可审计推理轨迹(THINK模式):输出逐步推理过程,满足合规与人工审核需求,且可关闭以换取低延迟。
  • 安全数据集开源:多模态、多语言、含推理轨迹,填补了开源安全模型缺乏训练/评估数据的空白。
  • 基于Gemma 3 4B + LoRA:紧凑架构(4B参数、128K上下文)适配8GB以上GPU实时运行,安全分类遵循Aegis 2.0体系。
  • 推理优化:通过两步压缩生成简洁推理轨迹,平衡延迟与可解释性。
  • 双模式输出:可根据场景选择低延迟二分类、带分类标签的输出或完整的推理+判定模式。

意义与影响

Nemotron 3.5 Content Safety的发布标志着企业级多模态AI安全审核进入新阶段。首先,它直接解决了多模态场景中“文本+图像”协同违规的漏检问题,这是传统独立评分方法难以处理的盲区。其次,自定义策略执行能力使得同一模型能服务于截然不同的行业(医疗、金融、教育、开发者工具等),无需为每种场景单独训练专用模型,大幅降低部署和维护成本。再次,开源的多模态安全数据集(含推理轨迹)对研究社区意义重大——不仅为后续模型训练提供了数据基础,更推动了安全审核的透明化和可复现性。最后,依托Gemma 3的广泛语言覆盖,Nemotron 3.5在全球化部署中能够以零样本方式覆盖大量小语种,减少了地域适配

查看原文 →huggingface.co