← 返回信息流
技术博客arXiv cs.CL·3 小时前

中间层知晓一切:从熵动态检测大模型越狱攻击

原标题:What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics

速览

针对对齐大模型的越狱攻击,研究通过分析冻结模型各层的令牌预测熵轨迹,发现静态统计信号微弱,而跨令牌位置的熵演化特征具有强判别力。该信号主要集中在中间层而非输出层,在Llama、Qwen等多个模型上均能实现无需额外训练的架构一致性分离。这一发现揭示了越狱行为在中间层不确定性动态中的结构化反映,明确了有害意图的编码位置与特征。

AI 深度解读

What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics

背景

大型语言模型(LLMs)在安全对齐(Safety Alignment)方面取得显著进展,但“越狱攻击”(Jailbreak Attacks)依然是一个持久且棘手的弱点。攻击者通过精心构造的提示词(Prompts),能够绕过模型的安全训练,诱导模型产生违反政策或有害的响应。

目前的防御机制大多集中在输入端(提示词过滤)或输出端(内容审核)。然而,学界对于有害意图究竟是如何在模型内部的表示(Internal Representations)中被编码的,尚缺乏清晰的理解。如果无法从模型内部“看清”攻击的本质,防御手段往往是被动的、滞后的。

这项来自 arXiv cs.CL 的研究(提交于 2026 年 6 月 23 日)试图填补这一空白。研究团队不再仅仅关注输入或输出,而是深入模型内部,利用“Logit Lens”技术,分析冻结状态(Frozen)的 LLM 中,不同层级(Layers)上 token 级别的预测熵(Predictive Entropy)动态变化,试图从内部表征中检测越狱行为。

核心内容

本研究的核心在于通过量化模型内部的不确定性动态,来识别越狱攻击。研究团队并未训练新的检测器,而是分析现有模型在推理过程中产生的内部信号。

1. 方法论:熵轨迹与 Logit Lens

研究使用了 Logit Lens 技术。这是一种将模型中间层的激活值映射回词汇表概率分布的方法,从而允许我们观察模型在最终输出之前,每一层对下一个 token 的预测置信度。

在此基础上,研究者关注的是预测熵(Predictive Entropy)。熵在这里衡量的是模型对下一个 token 预测的不确定性。高熵意味着模型“犹豫不决”,低熵意味着模型“非常确定”。

2. 静态统计 vs. 动态趋势

研究首先检验了传统的静态聚合统计量,例如整个提示词层面的熵均值(Mean)和方差(Variance)。结果显示,这些静态指标携带的区分信号非常微弱,无法有效区分正常请求和越狱请求。

然而,当研究者转向捕捉熵如何随 token 位置演变的动态特征时,情况发生了显著变化。特别是基于单调性的秩趋势得分(Monotonic rank-based trend scores),即观察熵值在序列中是否呈现特定的上升或下降趋势,被证明具有极高的信息量。

3. 关键发现:中间层的力量

这是本研究最引人注目的发现:越狱相关的信号在模型深度上并不均匀分布。

  • 中间层集中: 检测越狱的关键结构信息主要集中在网络的中间层(Intermediate Layers)
  • 末端层退化: 随着层数加深,这种信号在接近最终输出层(Final Layer)时逐渐退化或消失。

这意味着,当模型最终生成有害响应时,其输出头(Output Head)可能已经“忘记”或掩盖了最初识别出攻击意图时的内部不确定性模式。相反,在网络的中间阶段,模型对“这是一个异常请求”的内在不确定性表现得最为明显。

4. 跨模型与基准测试的普适性

研究在多个主流模型(包括 LlamaQwenGemma)以及多个对抗性基准测试(Adversarial Benchmarks)上验证了这一发现。结果表明,这种基于熵动态的信号提供了架构一致的分离能力,且无需对模型进行额外的训练或微调。这证明了越狱行为在中间层的不确定性动态中留下了结构化的、可检测的痕迹。

关键要点

  • 静态指标失效: 仅凭提示词级别的熵均值或方差等静态统计量,无法有效检测越狱攻击。
  • 动态特征有效: 捕捉熵随 token 位置演变的动态特征(如单调秩趋势得分)具有显著的判别力。
  • 中间层是关键: 越狱相关的内部表征信号主要集中在模型的中间层,而在最终输出层显著减弱。这表明攻击意图在模型深层处理过程中被“平滑”或掩盖了。
  • 无需额外训练: 基于熵动态的检测方法适用于 Llama、Qwen、Gemma 等多种架构,且不需要针对检测任务进行额外的模型训练。
  • 内部不确定性即信号: 越狱行为不仅体现在输出内容上,更体现在模型内部处理过程中的结构化不确定性动态中。

意义与影响

这项研究为理解大语言模型的安全机制提供了新的视角,具有多重深远影响:

  1. 从“黑盒”到“白盒”防御: 传统防御主要依赖输入/输出层面的模式匹配,容易受到对抗样本的欺骗。本研究揭示了模型内部存在可解释的、与攻击意图相关的信号,使得基于内部状态(Internal States)的防御成为可能。
  2. 优化检测效率: 既然关键信号集中在中间层,未来的实时安全检测系统可以设计为在推理过程的早期或中期介入,甚至在模型生成完整有害响应之前进行拦截,从而提高防御的实时性和效率。
  3. 模型可解释性的深化: 研究证实了“熵”作为衡量模型认知状态的工具,在安全领域具有独特价值。它帮助研究人员理解模型在面临冲突指令(如安全对齐指令 vs. 用户越狱指令)时,内部是如何权衡和处理的。
  4. 架构设计的启示: 对于模型开发者而言,这一发现暗示了中间层的表示对于安全性至关重要。未来在模型架构设计或微调(Fine-tuning)过程中,可能需要特别关注中间层的表示稳定性,以防止有害意图在这些关键区域被错误地编码或掩盖。

总之,这项研究不仅提供了一种无需训练的轻量级越狱检测手段,更深刻地揭示了大语言模型内部处理恶意意图时的“认知轨迹”,为构建更鲁棒的安全对齐系统奠定了理论基础。

查看原文 →arxiv.org