技术博客arXiv cs.CL·4 小时前

Yuvion LLM：面向对抗性鲁棒的大模型安全新方案

原标题：Yuvion LLM: An Adversarially-Aware Large Language Model for Content And AI Safety

速览

针对大模型在真实部署中面临的安全失效问题，研究团队提出Yuvion LLM，将对抗性鲁棒性与智能体能力作为核心目标。该模型采用对抗性数据构建、知识增强预训练及基于策略的安全后训练等创新流程，显著增强了复杂场景下的安全防护能力。评估显示，Yuvion LLM在93个基准测试中表现优异，其8B参数版本在多项安全任务上超越了GPT-5.4和Qwen3-MAX等更大规模的基线模型。

AI 深度解读

Yuvion LLM：面向内容与AI安全的对抗性感知大语言模型深度解读

背景

随着大语言模型（LLM）在现实世界系统中的部署日益广泛，模型的安全性问题已成为行业关注的焦点。尽管模型能力不断提升，但安全失效（Safety Failures）仍可能导致有害输出及危险滥用。

传统观点往往将安全视为对自然输入的直接响应，但本文指出，安全的本质是对抗性的（Adversarial）。许多安全失效并非源于简单的自然输入，而是源于用户或攻击者策略性地试图规避模型的政策和安全护栏。然而，现有的通用模型开发大多忽视了这种对抗性本质，导致模型在面对涉及规划、工具使用和多步推理的复杂现实安全场景时表现不足。这种忽视使得当前测量的安全性能往往高估了模型在实际部署中的鲁棒性。

针对这一差距，研究人员提出了 Yuvion LLM，这是一个专为对抗性鲁棒的内容安全及更广泛的AI安全而构建的大语言模型。

核心内容

Yuvion LLM 的核心理念是将“对抗性鲁棒性”（Adversarial Robustness）和“智能体能力”（Agentic Capability）作为一等公民目标（First-class objectives）。该模型通过一套综合性的训练管道来实现这一目标，具体包括以下几个关键阶段：

1. 对抗性感知的数据构建

在数据层面，Yuvion LLM 采用了对抗性感知（Adversarially Aware）的数据构建方法。这意味着在训练数据中不仅包含常规的安全-非安全样本，还特别引入了那些旨在测试和强化模型抵御恶意诱导、越狱攻击（Jailbreaks）以及策略性规避行为的样本。

2. 知识增强的持续预训练

在预训练阶段，模型进行了知识增强的持续预训练（Knowledge-enhanced Continued Pretraining）。这一步旨在夯实模型的知识基础，确保其在面对复杂安全场景时，能够基于准确的事实和逻辑进行推理，而非仅仅依赖模式匹配。

3. 基于策略的多任务安全后训练

后训练（Post-training）阶段是 Yuvion LLM 的核心创新点，包含两个主要部分：

风险感知监督微调（Risk-aware Supervised Fine-tuning, SFT）： 在微调过程中，模型不仅学习如何回答正确，还学习识别潜在的风险场景，并依据既定的安全策略进行响应。
基于强化学习的策略优化（Reinforcement Learning-based Policy Optimization）： 通过强化学习进一步对齐模型行为与安全目标。

4. 安全感知智能体强化学习

针对现实世界中日益重要的工具使用和多步推理能力，Yuvion LLM 引入了安全感知智能体强化学习（Safety-aware Agentic Reinforcement Learning）。这使得模型在复杂的安全场景中，能够在使用工具和执行多步规划时，始终保持对安全边界的感知，防止因工具滥用或推理链断裂导致的安全失效。

5. Yuvion LLM RiskEval (YLRE) 评估体系

为了全面评估模型性能，研究团队发布了 Yuvion LLM RiskEval (YLRE)。这是一个包含 93 个基准测试（Benchmarks） 的综合评估集合，涵盖四个评估类别。YLRE 结合了多样化的公开和内部评估，重点关注：

安全性
对抗性鲁棒性
现实世界的能力需求

关键要点

安全即对抗： 文章强调，现有的安全评估往往低估了现实世界中的对抗性威胁。真正的安全需要模型具备识别并抵御策略性规避行为的能力，而不仅仅是处理自然语言输入。
双目标驱动： Yuvion LLM 同时优化“对抗性鲁棒性”和“智能体能力”。这意味着模型不仅要“不说坏话”，还要在具备使用工具、进行复杂推理等高级能力时，依然保持安全。
全链路训练管道： 从对抗性数据构建、知识增强预训练，到风险感知 SFT 和智能体强化学习，Yuvion LLM 的训练流程专门针对安全场景进行了端到端的设计。
全面的评估基准： 发布的 YLRE 包含 93 个基准测试，覆盖了从基础安全到复杂对抗场景的多维度评估，旨在更真实地反映模型在实际部署中的鲁棒性。
小模型的大突破： 实验结果显示，Yuvion-8B（80亿参数版本）在多个安全任务上表现优异，甚至超越了包括 GPT-5.4 和 Qwen3-MAX（通义千问3-MAX）在内的显著更大规模的最新基线模型。这表明在安全领域，针对性的对抗性训练比单纯增加模型规模更为有效。
平衡能力与安全： Yuvion LLM 在提升安全性能的同时，保持了坚实的整体能力（Overall Capability），证明了安全强化不会以牺牲通用智能为代价。

意义与影响

Yuvion LLM 的提出标志着大模型安全研究的一个重要转向：从被动防御转向主动的对抗性鲁棒性构建。

重新定义安全评估标准： 通过引入 YLRE 和强调对抗性场景，该研究指出当前的安全评估可能存在“虚假繁荣”，即模型在简单测试中表现良好，但在面对精心设计的攻击时迅速失效。这促使行业需要更严格、更贴近现实的评估体系。
智能体安全的范式创新： 随着 AI 智能体（Agents）在工具使用和自主规划方面的能力增强，传统的安全护栏已不足以应对。Yuvion LLM 将安全感知融入智能体强化学习，为未来具备自主行动能力的 AI 系统提供了重要的安全架构参考。
高效安全的可行性： Yuvion-8B 超越更大规模模型的表现证明，通过高质量的对抗性数据构建和针对性的后训练策略，中等规模的模型也能达到顶尖的安全水平。这降低了部署高安全标准模型的成本门槛，使得中小企业或特定垂直领域也能构建具备强对抗鲁棒性的安全模型。
对现有巨头的挑战： 文中提到 Yuvion-8B 在安全任务上优于 GPT-5.4 和 Qwen3-MAX，这一结果若经独立复现确认，将对当前主流大模型厂商的安全策略提出挑战，迫使他们重新审视其模型在对抗性场景下的真实表现，并可能推动整个行业在对抗性训练上的投入。

总之，Yuvion LLM 不仅是一个新的模型，更是一套针对 AI 安全深层问题（特别是智能体安全和对抗性攻击）的系统性解决方案，为构建更可信、更鲁棒的 AI 系统提供了新的技术路径。

查看原文 →arxiv.org