技术博客OpenAI Blog·21 天前

帮助ChatGPT在敏感对话中更好地识别上下文

原标题：Helping ChatGPT better recognize context in sensitive conversations

速览

OpenAI发布了新的ChatGPT安全更新，旨在增强模型在敏感对话中的上下文感知能力。这些改进帮助系统随时间推移更准确地检测潜在风险。此举使ChatGPT能够做出更安全、更恰当的响应，提升用户体验与安全性。

AI 深度解读

帮助 ChatGPT 在敏感对话中更好地识别上下文

来源：OpenAI Blog 主题：ChatGPT 安全更新：提升敏感对话中的上下文感知能力

背景

随着大型语言模型（LLM）在日常生活中的应用日益广泛，用户与 ChatGPT 等 AI 助手的互动场景变得愈发复杂和多样化。其中，涉及心理健康、自残倾向、暴力威胁或非法活动建议等“敏感话题”的对话，对模型的安全性提出了极高的要求。

传统的 AI 安全护栏（Safety Guardrails）往往依赖于关键词匹配或短窗口的上下文分析。这种机制在处理孤立、简短的提问时表现尚可，但在面对长篇幅、多轮次的对话时，容易失效。例如，用户可能在对话初期以看似无害的方式铺垫背景，随后在后续轮次中提出高风险请求；或者通过隐晦、间接的语言表达自杀意念，导致模型未能及时识别出潜在的危机信号。

OpenAI 意识到，要真正保护用户安全，模型不能仅看“这一句话”，而必须理解“整个对话的脉络”。因此，OpenAI 推出了一系列新的安全更新，旨在增强 ChatGPT 在敏感对话中的上下文感知能力（Context Awareness），使其能够跨越时间维度，更准确地检测风险并做出更安全的响应。

核心内容

此次更新的核心在于优化模型对对话历史（Conversation History）的理解和处理能力，特别是在处理高风险内容时。以下是该更新的主要技术逻辑和功能改进：

1. 从“单轮检测”转向“时序风险检测”

过去的模型倾向于将每一轮对话视为独立的输入进行安全评估。然而，恶意或危险意图往往是在对话过程中逐渐显现的。新的安全架构引入了时序风险检测机制（Temporal Risk Detection）。这意味着模型不再孤立地看待当前用户的输入，而是将其置于整个对话的历史背景中进行综合评估。

早期信号捕捉：模型现在能够识别对话早期出现的细微风险信号（如情绪低落、孤立无援的描述），并将其作为后续判断的权重因子。
意图演变追踪：即使用户当前的输入看似中性，如果前文存在高风险铺垫，模型也能识别出潜在的恶意或危险意图。

2. 增强对隐晦和间接表达的敏感度

在敏感话题中，用户很少直接说出“我要自杀”或“我要制造炸弹”，而是使用隐喻、间接表达或看似无关的闲聊来试探。

上下文消歧：通过结合上下文，模型能更好地区分“虚构创作中的暴力描述”与“现实生活中的自残威胁”。例如，在讨论小说情节时提到的暴力细节，与在个人倾诉中提到的类似细节，模型会根据对话的整体基调（Tone）和意图进行区分。
语义关联：模型现在能更好地捕捉用户情绪变化与具体请求之间的语义关联，从而更准确地判断用户是否处于危机状态。

3. 动态响应策略

基于更精准的上下文理解，ChatGPT 的响应策略变得更加动态和人性化：

分级响应：根据风险等级的不同，模型会采取不同的应对措施。对于低风险话题，提供信息性回答；对于高风险话题，则可能拒绝回答，并引导用户寻求专业帮助。
资源推荐：在识别出用户可能处于心理危机时，模型不仅会拒绝提供有害建议，还会主动提供心理健康资源、危机干预热线等支持性信息。
避免二次伤害：通过理解上下文，模型能避免使用可能加剧用户负面情绪或触发创伤的反应，转而采用更具同理心和支持性的语言。

4. 技术实现：更长的上下文窗口与安全嵌入

为了支持上述功能，OpenAI 在底层技术上进行了优化：

扩展上下文窗口：允许模型在安全评估时访问更长的对话历史，确保不遗漏早期的关键风险信号。
安全嵌入（Safety Embeddings）的改进：更新了用于检测有害内容的嵌入向量空间，使其对上下文相关的细微差别更加敏感。这意味着模型在向量空间中能更清晰地区分“安全语境”与“危险语境”下的相似表达。

关键要点

上下文感知升级：ChatGPT 现在能够跨越单轮对话，综合分析整个对话历史来评估风险，而非孤立地看待当前输入。
时序风险检测：引入了时间维度的风险评估机制，能够捕捉对话过程中逐渐显现的危险意图或情绪变化。
隐晦表达识别：增强了对隐喻、间接表达和语义细微差别的理解能力，能更好地区分虚构创作与现实威胁。
动态且人性化的响应：根据上下文判断风险等级，采取从信息提供到危机干预的分级响应策略，优先保障用户安全并避免二次伤害。
资源引导：在识别心理危机时，主动提供专业心理健康资源和求助渠道，而非简单拒绝。
技术基础：依赖于更长的上下文窗口访问能力和改进的安全嵌入向量空间，以提升对上下文相关风险信号的敏感度。

意义与影响

此次更新标志着 AI 安全从“规则驱动”向“语境驱动”的重要转变。

提升用户安全感：对于处于心理危机或面临高风险情境的用户，更精准的上下文识别意味着他们更有可能得到及时、恰当的帮助，而非被机械地拒绝或忽视。
减少误报与漏报：通过理解上下文，模型能更准确地区分无害的讨论与真实的威胁，从而减少因过度敏感而中断正常对话的情况，同时降低对真实风险的漏报率。
推动负责任的 AI 发展：这一更新展示了 OpenAI 在平衡模型能力与安全边界方面的持续努力，为行业树立了在复杂交互场景中实现精细化安全控制的标杆。
增强用户信任：当用户感知到 AI 能够“理解”他们的处境并做出更人性化的回应时，对 AI 系统的信任度和使用意愿将显著提升。

总之，这项更新不仅是技术层面的优化，更是 OpenAI 对“以人为本”的安全理念的深化实践，旨在让 ChatGPT 在提供有用信息的同时，成为用户更安全、更可靠的伙伴。

查看原文 →openai.com