技术博客arXiv cs.CL·3 小时前

中间层知晓一切：从熵动态检测大模型越狱攻击

原标题：What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics

速览

针对对齐大模型的越狱攻击，研究通过分析冻结模型各层的令牌预测熵轨迹，发现静态统计信号微弱，而跨令牌位置的熵演化特征具有强判别力。该信号主要集中在中间层而非输出层，在Llama、Qwen等多个模型上均能实现无需额外训练的架构一致性分离。这一发现揭示了越狱行为在中间层不确定性动态中的结构化反映，明确了有害意图的编码位置与特征。

AI 深度解读

What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics

背景

大型语言模型（LLMs）在安全对齐（Safety Alignment）方面取得显著进展，但“越狱攻击”（Jailbreak Attacks）依然是一个持久且棘手的弱点。攻击者通过精心构造的提示词（Prompts），能够绕过模型的安全训练，诱导模型产生违反政策或有害的响应。

目前的防御机制大多集中在输入端（提示词过滤）或输出端（内容审核）。然而，学界对于有害意图究竟是如何在模型内部的表示（Internal Representations）中被编码的，尚缺乏清晰的理解。如果无法从模型内部“看清”攻击的本质，防御手段往往是被动的、滞后的。

这项来自 arXiv cs.CL 的研究（提交于 2026 年 6 月 23 日）试图填补这一空白。研究团队不再仅仅关注输入或输出，而是深入模型内部，利用“Logit Lens”技术，分析冻结状态（Frozen）的 LLM 中，不同层级（Layers）上 token 级别的预测熵（Predictive Entropy）动态变化，试图从内部表征中检测越狱行为。

核心内容

本研究的核心在于通过量化模型内部的不确定性动态，来识别越狱攻击。研究团队并未训练新的检测器，而是分析现有模型在推理过程中产生的内部信号。

1. 方法论：熵轨迹与 Logit Lens

研究使用了 Logit Lens 技术。这是一种将模型中间层的激活值映射回词汇表概率分布的方法，从而允许我们观察模型在最终输出之前，每一层对下一个 token 的预测置信度。

在此基础上，研究者关注的是预测熵（Predictive Entropy）。熵在这里衡量的是模型对下一个 token 预测的不确定性。高熵意味着模型“犹豫不决”，低熵意味着模型“非常确定”。

2. 静态统计 vs. 动态趋势

研究首先检验了传统的静态聚合统计量，例如整个提示词层面的熵均值（Mean）和方差（Variance）。结果显示，这些静态指标携带的区分信号非常微弱，无法有效区分正常请求和越狱请求。

然而，当研究者转向捕捉熵如何随 token 位置演变的动态特征时，情况发生了显著变化。特别是基于单调性的秩趋势得分（Monotonic rank-based trend scores），即观察熵值在序列中是否呈现特定的上升或下降趋势，被证明具有极高的信息量。

3. 关键发现：中间层的力量

这是本研究最引人注目的发现：越狱相关的信号在模型深度上并不均匀分布。

中间层集中： 检测越狱的关键结构信息主要集中在网络的中间层（Intermediate Layers）。
末端层退化： 随着层数加深，这种信号在接近最终输出层（Final Layer）时逐渐退化或消失。

这意味着，当模型最终生成有害响应时，其输出头（Output Head）可能已经“忘记”或掩盖了最初识别出攻击意图时的内部不确定性模式。相反，在网络的中间阶段，模型对“这是一个异常请求”的内在不确定性表现得最为明显。

4. 跨模型与基准测试的普适性

研究在多个主流模型（包括 Llama、Qwen、Gemma）以及多个对抗性基准测试（Adversarial Benchmarks）上验证了这一发现。结果表明，这种基于熵动态的信号提供了架构一致的分离能力，且无需对模型进行额外的训练或微调。这证明了越狱行为在中间层的不确定性动态中留下了结构化的、可检测的痕迹。

关键要点

静态指标失效： 仅凭提示词级别的熵均值或方差等静态统计量，无法有效检测越狱攻击。
动态特征有效： 捕捉熵随 token 位置演变的动态特征（如单调秩趋势得分）具有显著的判别力。
中间层是关键： 越狱相关的内部表征信号主要集中在模型的中间层，而在最终输出层显著减弱。这表明攻击意图在模型深层处理过程中被“平滑”或掩盖了。
无需额外训练： 基于熵动态的检测方法适用于 Llama、Qwen、Gemma 等多种架构，且不需要针对检测任务进行额外的模型训练。
内部不确定性即信号： 越狱行为不仅体现在输出内容上，更体现在模型内部处理过程中的结构化不确定性动态中。

意义与影响

这项研究为理解大语言模型的安全机制提供了新的视角，具有多重深远影响：

从“黑盒”到“白盒”防御： 传统防御主要依赖输入/输出层面的模式匹配，容易受到对抗样本的欺骗。本研究揭示了模型内部存在可解释的、与攻击意图相关的信号，使得基于内部状态（Internal States）的防御成为可能。
优化检测效率： 既然关键信号集中在中间层，未来的实时安全检测系统可以设计为在推理过程的早期或中期介入，甚至在模型生成完整有害响应之前进行拦截，从而提高防御的实时性和效率。
模型可解释性的深化： 研究证实了“熵”作为衡量模型认知状态的工具，在安全领域具有独特价值。它帮助研究人员理解模型在面临冲突指令（如安全对齐指令 vs. 用户越狱指令）时，内部是如何权衡和处理的。
架构设计的启示： 对于模型开发者而言，这一发现暗示了中间层的表示对于安全性至关重要。未来在模型架构设计或微调（Fine-tuning）过程中，可能需要特别关注中间层的表示稳定性，以防止有害意图在这些关键区域被错误地编码或掩盖。

总之，这项研究不仅提供了一种无需训练的轻量级越狱检测手段，更深刻地揭示了大语言模型内部处理恶意意图时的“认知轨迹”，为构建更鲁棒的安全对齐系统奠定了理论基础。

查看原文 →arxiv.org