技术博客arXiv cs.CL·2 小时前

OpenSafeIntent：评估双用提示集中的意图校准安全完成

原标题：OpenSafeIntent: Evaluating Intent-Calibrated Safe Completion Across Dual-Use Prompt Sets

速览

OpenSafeIntent是一个新基准，包含可控提示集，允许研究者测试模型在同一任务下不同意图时的安全完成表现，而非仅依赖平均安全评分。论文分析发现，提示层级看似安全的模型在意图变换时仍会失败，双用行为在改写下极不稳定，风险主题的泛化回答难以保证安全，以及将模糊请求重构为更安全任务的回应则更易越过安全边界。这些发现表明，安全完成不应只看独立提示的权衡，而应评估模型在可控任务变体下的意图校准行为。

AI 深度解读

背景

安全补全（safe completion）要求大语言模型在提供有用协助的同时，避免任何可能造成伤害的行为。然而，这一行为难以仅通过孤立的提示词进行评估，因为模型的响应往往掩盖了其在不同意图下的实际表现。arXiv cs.CL 分类下 2026 年 7 月 2 日提交的论文《OpenSafeIntent: Evaluating Intent-Calibrated Safe Completion Across Dual-Use Prompt Sets》正针对这一问题，提出了一种新的基准方法，以更精准地评估模型在安全与帮助性之间的动态平衡。

核心内容

论文作者指出，现有评估方式通常依赖单一提示词，这不足以揭示模型在安全行为上的真实能力。他们因此引入了 OpenSafeIntent 基准，该基准由一系列受控提示集组成，这些提示集在保持底层任务不变的同时，系统性地改变意图。每一条数据点都包含三个变体：良性变体（benign variant）、双重用途变体（dual-use variant）和恶意变体（malicious variant）。

这种设计使得研究者能够精准评估模型是否能在意图发生转变时，持续维持安全协助行为，而非仅仅在平均水平上显得“安全”。通过这一框架，研究人员对广泛模型系列进行了测试，并得出以下核心观察结果：

首先，提示词级别的安全评估隐藏了重要失败案例。模型在单独提示词上可能表现出足够的安全性，但当面对匹配的意图变体时，经常出现不安全的响应。

其次，双重用途行为在同义改写（paraphrase）下极不稳定。模型对相同任务的变体响应可能突然切换到不安全模式，表现出明显的脆弱性。

第三，针对高风险主题的高级别回答（high-level answers）无法保证其安全属性。这些回答在表面上可能看起来安全，但在实际应用场景中仍存在漏洞。

第四，模型在将模糊请求重构为更安全任务（reframe ambiguous requests into safer tasks）时，安全边界被跨越的概率显著降低。相比直接回答，原有的重构尝试反而增加了不安全输出的风险。

论文作者明确指出，现有的安全-帮助性权衡评估方式（safety-helpfulness tradeoff over independent prompts）存在根本缺陷，难以捕捉意图校准（intent-calibrated）的行为本质。因此，未来安全补全的评估应转向在受控任务变体上测量模型的意图校准行为，而非依赖独立提示词的单一安全-帮助性平衡。

关键要点

OpenSafeIntent 基准的核心创新在于构建“意图-任务双固定”提示集，每条数据点包含良性、双重用途和恶意三个变体；
现有安全评估主要依赖孤立提示词，无法揭示意图转变时的真实表现；
模型常在匹配意图变体下出现不安全响应，提示级安全掩盖了此类失败；
双重用途行为在同义改写下极不稳定，存在明显脆弱性；
高风险主题的高级别回答无法保证安全属性；
将模糊请求重构为更安全任务的尝试，反而显著提高了安全边界的跨越风险；
现有评估方式本质上是缺陷的，安全补全应以意图校准行为作为核心指标。

意义与影响

OpenSafeIntent 作为首个专注“意图校准安全补全”的公开基准，将为大语言模型的安全评估提供全新的标准。这一方法突破了传统“安全 vs. 帮助性”单维度权衡的局限，强调了模型在真实意图上下文下的动态行为能力。其提出将推动安全研究从静态提示评估转向动态意图敏感评估，有助于构建更可靠、更可解释的安全大模型体系。未来，相关研究可以以此为框架开发针对意图校准的专用训练目标或评估协议，从而显著提升模型在多用途场景下的实际安全性，为负责任的 AI 发展奠定更坚实基础。

查看原文 →arxiv.org

OpenSafeIntent：评估双用提示集中的意图校准安全完成

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐