← 返回信息流
技术博客arXiv cs.AI·4 小时前

共享嵌入架构下指令与数据不可分,提示注入无法根除

原标题:On the Inseparability of Instructions and Data in Shared-Embedding Sequence Models

速览

该研究指出,在缺乏强制控制与数据分离的共享嵌入架构中,完美防御提示注入在数学上是不可能的。研究通过形式化提示系统并定义语义忠实控制,证明了共享管道无法实现该属性,因为受控路径暴露及有限训练无法覆盖无限语义等价类。这一结构性缺陷类似于冯·诺依曼架构中的代码数据混淆,意味着仅靠分类或对齐无法消除提示注入,必须采用指令与数据通道的架构分离。

AI 深度解读

指令与数据在共享嵌入序列模型中的不可分离性:对提示注入防御的结构性批判

背景

随着大语言模型(LLM)被广泛集成到各类应用程序中,**提示注入(Prompt Injection)**已成为当前最严峻的安全风险之一。尽管业界提出了多种防御机制,但迄今为止,每一种被提出的防御方案最终都被证明是脆弱的或被攻破的。

这种现象并非偶然。一篇发表于 arXiv(cs.AI / cs.CR,提交于 2026年6月25日)的新论文《On the Inseparability of Instructions and Data in Shared-Embedding Sequence Models》从数学和架构层面揭示了这一困境的本质。该研究指出,在缺乏强制控制-数据分离的**共享嵌入架构(Shared-Embedding Architectures)**中,实现完美的提示注入预防在数学上是不可能的。

这一发现将当前 LLM 的安全困境类比于计算机体系结构中经典的**冯·诺依曼架构(Von Neumann Architecture)**中的代码-数据混淆问题,后者导致了缓冲区溢出等漏洞,并耗费了数十年时间才通过 DEP、ASLR 及内存安全语言等多层防御机制得到缓解。

核心内容

本文通过形式化建模和数学证明,深入剖析了为什么现有的基于管道内分类或对齐的防御手段无法从根本上解决提示注入问题,并论证了架构分离的必要性。

1. 形式化定义:提示动作模型与语义忠实控制

作者首先将提示系统形式化为提示动作模型(Prompted Action Models, PAM)。在此模型中,系统的输出不仅包含文本生成,还包括具有控制权威性的动作,例如:

  • 拒绝决策(Refusal decisions)
  • 工具授权(Tool authorization)
  • 策略路由(Policy routing)
  • 记忆写入(Memory writes)

在此基础上,作者定义了语义忠实控制(Semantic-Faithful Control, SFC)这一关键属性。SFC 要求系统的行为(即上述控制动作)仅取决于不可信输入(用户提示)的含义(Meaning),而不取决于其编码方式(Encoding)。换句话说,无论攻击者如何变换提示的表述形式,只要其语义不变,系统的控制行为就应当保持一致且安全。

2. 三大不可行性证明

作者证明了在共享嵌入管道中,实现 SFC 是不可能的。这一结论基于以下三个核心结果:

  • 溯源恢复的不可能性(Provenance-Recovery Impossibility): 在共享表示空间中,受信任内容(系统指令)和不可信内容(用户输入)在统计上是不可分离的。这种不可分离性由**总变差距离(Total Variation Distance)**界定。由于嵌入空间混合了所有信息的语义向量,模型无法在数学上区分哪些嵌入向量来自“指令”部分,哪些来自“数据”部分。

  • 控制路径暴露(Control-Path Exposure): 不可信令牌(Tokens)通过相同的注意力值聚合机制(Attention Value-Aggregation)进入与控制相关的计算过程,而该机制同时也决定了最终的输出。这意味着,攻击者可以通过操纵输入令牌,直接干扰决定系统行为(如是否执行工具调用)的注意力权重,从而绕过安全边界。

  • 有限覆盖不变性差距(Finite-Coverage Invariance Gap): 有限的训练数据无法对无限多的语义等价类(Semantic-Equivalence Classes)进行认证。即使模型在训练集中见过某种攻击模式,攻击者只需对提示进行语义等价但形式不同的变换,即可创造出训练分布之外的新攻击向量。因此,基于有限数据的对齐或分类器无法保证对所有可能的语义变体保持鲁棒性。

3. 实证 grounding

为了验证上述理论,作者在生产环境的分词器(Tokenizers)和模型上进行了实际测量,量化了受信任与不可信内容在嵌入空间中的重叠程度,证实了理论推导中的统计不可分离性。

4. 结构性类比与解决方案

文章强调,这一结果是结构性的,而非当前防御技术存在的具体缺陷。它类似于冯·诺依曼机器中代码与数据存储在同一个内存空间所导致的漏洞。历史上,缓冲区溢出漏洞无法通过单一机制解决,而是需要 DEP(数据执行保护)、Write-XOR-Execute、ASLR(地址空间布局随机化)、栈金丝雀,最终走向内存安全语言等多层防御。

对于 LLM 而言,这意味着仅靠改进管道内的分类器或对齐算法无法消除提示注入。唯一的根本解决方案是指令通道与数据通道的架构分离(Architectural Separation of Instruction and Data Channels)

关键要点

  • 数学上的不可能性:在缺乏强制控制-数据分离的共享嵌入架构中,完美防止提示注入在数学上被证明是不可能的。
  • SFC 的不可达性:语义忠实控制(SFC)——即行为仅依赖输入含义而非编码——在共享管道中无法实现。
  • 三大根源
    1. 统计不可分:受信任与不可信内容在嵌入空间中由总变差距离界定,无法完全区分。
    2. 计算路径共享:用户输入通过决定输出的注意力机制直接干扰控制逻辑。
    3. 训练覆盖局限:有限训练无法覆盖无限的语义等价类,导致泛化防御失效。
  • 非技术缺陷,而是架构缺陷:当前防御被攻破不是算法不够好,而是共享嵌入架构本身的结构性缺陷。
  • 解决方案方向:必须从架构层面实现指令(Control/Instructions)和数据(Data/Inputs)的分离,类似于内存安全语言对冯·诺依曼架构缺陷的修正。

意义与影响

这篇论文对 LLM 安全领域具有深远的影响,它挑战了当前主流的安全研究范式。

  1. 终结“修补式”防御的幻想:许多研究致力于开发更复杂的提示过滤器、对抗训练或对齐算法。本文证明,如果底层架构仍然是共享嵌入且未分离指令与数据,这些努力只能暂时延缓攻击,无法根除风险。
  2. 推动架构革新:研究结果指向了下一代 LLM 架构设计的方向。未来的模型可能需要引入类似 RISC-V 或微内核架构的思想,将控制平面(Control Plane)和数据平面(Data Plane)在计算图或内存布局上物理或逻辑隔离。
  3. 安全设计的范式转移:类似于软件工程从“代码审查”转向“内存安全语言”,LLM 应用开发可能需要从“提示工程安全”转向“架构安全”。开发者需要关注模型如何解析输入流,确保系统指令在嵌入和注意力计算阶段与用户数据保持隔离。
  4. 长期安全策略:正如缓冲区溢出漏洞花了数十年才通过多层防御缓解,LLM 的安全也需要类似的长期、多层策略。但在这一过程中,必须承认单一机制(如仅靠分类器)的局限性,并将架构分离作为基础前提。

总之,该研究为 LLM 安全提供了一个坚实的数学基础,指出了当前困境的根源,并为未来的架构设计指明了必须走向“控制-数据分离”的道路。

查看原文 →arxiv.org