技术博客arXiv cs.AI·3 小时前

不可撤销安全内核：AI代理运行时对齐新范式

原标题：The Unfireable Safety Kernel: Execution-Time AI Alignment for AI Agents and Other Escapable AI Systems

速览

针对AI代理等可逃逸系统，提出运行时AI对齐机制，弥补训练与推理时对齐的不足。该机制通过进程隔离、事前强制、故障关闭及外部验证四项属性构建安全内核。研究发布了基于Rust的参考实现，利用SMT定理和模型检查进行机器验证，并在对抗性测试中实现零逃逸。

AI 深度解读

The Unfireable Safety Kernel: Execution-Time AI Alignment for AI Agents and Other Escapable AI Systems

背景

随着 AI Agent（智能体）技术的演进，AI 系统不再仅仅是被动的文本生成器，而是被授予了对工具、API 以及底层基础设施的访问权限。这种转变使得 AI Agent 成为了这些系统中的“主动主体”（active principals）。

当前业界主流的 AI 安全控制方法，主要依赖于将控制逻辑置于 Agent 自身的运行时环境中。这包括系统提示词（System Prompts）、输出过滤器（Output Filters）以及护栏库（Guardrail Libraries）。然而，这种架构存在一个根本性的安全漏洞：任何位于 Agent 地址空间内的控制机制，都可能被能够影响其输入的外部数据所绕过或操纵。

本文将这类具有足够能力干预自身运行时环境的 AI 系统统称为“可逃逸 AI 系统”（Escapable AI Systems）。传统的对齐方法（如训练时对齐）难以解决运行时动态执行过程中的即时安全威胁，因此需要一种全新的架构级控制机制。

核心内容

本文提出了“不可发射安全内核”（Unfireable Safety Kernel），旨在通过执行时 AI 对齐（Execution-Time AI Alignment）来解决可逃逸 AI 系统的安全问题。该内核并非替代训练时对齐（如 RLHF、Constitutional AI）或推理时对齐，而是作为其必要的补充，专门处理运行时层面的即时授权与执行控制。

架构控制的四大属性

为了实现从“合作请求”到“架构控制”的转变，作者定义了一个授权机制必须满足的四个关键属性：

进程隔离（Process Separation）：安全控制逻辑必须与 AI Agent 的运行环境在进程层面完全分离，确保 Agent 无法直接访问或篡改控制逻辑。
结构性路径上的事前执行强制（Pre-action Enforcement on a Structurally Only Path）：所有操作必须在执行前经过强制检查，且该检查路径在系统结构上是唯一的、不可绕过的。
故障安全（Fail-closed）：无论是在请求层面还是系统层面，一旦检测到异常或验证失败，系统必须默认拒绝执行，而非允许操作继续。
外部化签名证据验证（Externalized Signed Evidence Verifiable Outside the Trust Boundary）：安全决策的证据必须经过签名，并能在受控系统的信任边界之外进行验证，确保证据的完整性和不可否认性。

Unfireable Safety Kernel 的实现

作者使用 Rust 语言实现了一个参考原型（Reference Implementation），该实现严格满足了上述四个属性。为了确保内核的绝对可靠性，作者采用了严格的机器验证方法：

SMT 定理证明：使用 Z3 求解器对内核的“故障安全”不变量进行形式化验证。
有界模型检查：使用 Kani 工具对生产环境中的决策函数进行了穷举式的有界模型检查（4/4 harnesses），确保代码逻辑在所有测试路径下均符合安全规范。

在迁移过程中，从 Python 到 Rust 的重构严格基于字节等价性（Byte-equivalence）进行门控测试，涵盖了 1000/1000 个测试用例以及 17/17 类对抗性场景，确保了行为的一致性。

实验评估

为了验证该内核的有效性，作者在一个实时运行的、具有自我改进能力的确定性世界模型（即一个可逃逸 AI 系统）上进行了评估。攻击者试图利用系统的自我修改接口（self-modification seam）进行逃逸。

实验结果如下：

自我修改攻击：在 1,000 次自我修改尝试中，针对安全核心区域的 704 次尝试全部被拒绝，没有任何逃逸成功。
操作员强制关闭：另外 300 次尝试在操作员触发“紧急停止开关”（Kill Switch）后，同样被拒绝。
授权往返测试：另一项包含 6,240 次授权往返的独立测试活动中，未发现任何成功的绕过案例。

相比之下，当前声称提供 Agent 控制平面的三种主流系统，往往允许 Agent 调用控制逻辑；而在 Unfireable Safety Kernel 的架构中，Agent 根本不具备这种选择权，控制权限被严格剥夺并外置。

关键要点

问题定义：AI Agent 因拥有工具访问权而成为主动主体，传统基于 Agent 内部运行时（如 Prompt、Filter）的安全控制存在被输入数据操纵的风险，这类系统被称为“可逃逸 AI 系统”。
解决方案定位：提出“执行时 AI 对齐”，作为训练时对齐（RLHF 等）和推理时对齐的补充，专注于架构级的即时控制。
四大安全属性：
1. 进程隔离。
2. 结构性路径上的事前强制。
3. 故障安全（Fail-closed）。
4. 信任边界外的外部化签名验证。
技术实现：使用 Rust 编写参考实现，通过 Z3 定理证明和 Kani 有界模型检查进行机器级验证，确保“故障安全”不变量。
迁移验证：Python 到 Rust 的迁移通过字节等价性测试（1000/1000 fixtures, 17/17 adversarial classes）保证一致性。
实证结果：在对抗性自我修改攻击中，704 次针对安全核心的尝试全部被拒，无逃逸；6,240 次授权测试无成功绕过。
范式转变：从“Agent 调用控制”转变为“Agent 缺乏控制选择权”，将控制权从 Agent 地址空间中彻底移除。

意义与影响

这篇论文标志着 AI 安全从“软性约束”向“硬性工程保障”的重要转变。

首先，它揭示了当前主流 AI Agent 安全架构的固有缺陷。只要控制逻辑位于 Agent 的地址空间内，攻击者就有可能通过精心构造的输入来操纵这些控制机制。Unfireable Safety Kernel 通过进程隔离和外部化验证，从根本上切断了 Agent 对安全控制逻辑的直接访问路径。

其次，引入形式化验证（Formal Verification）到 AI 安全工程中具有示范意义。通过 SMT 定理证明和模型检查，作者不仅提供了代码层面的安全，还提供了数学层面的证明。这种“机器检查”的不变量验证，为高可靠性 AI 系统的构建树立了新的标准。

最后，该研究重新定义了 AI 对齐的层次。它表明，仅靠训练数据中的价值观注入（RLHF）是不够的，必须在系统执行层面建立不可逾越的架构屏障。对于未来具备自我修改能力、高自主性的 AI 系统而言，这种“不可发射”的安全内核可能是防止灾难性失控的必要基础设施。

查看原文 →arxiv.org