技术博客arXiv cs.AI·3 小时前

治理行动而非智能体：制度证明作为自主AI系统的治理模型

原标题：Governing Actions, Not Agents: Institutional Attestation as a Governance Model for Autonomous AI Systems

速览

针对自主AI执行临床处方或软件部署等高风险行动，本文提出一种基于制度证明的计算治理模型。该模型允许智能体保留规划与推理的完全自主权，但将高风险行动的执行权与独立权威来源的密码学证明绑定。决策记录在防篡改日志中，支持独立复核，并通过软件部署和临床处方案例验证了概念原型。

AI 深度解读

治理行动而非主体：机构证明作为自主 AI 系统的治理模型

背景

随着自主人工智能（Autonomous AI）代理（Agents）能力的提升，它们正从单纯的辅助工具演变为能够执行具有重大后果且不可逆行动的主体。例如，在医疗领域进行临床处方开具，或在工业环境中直接部署生产级软件。这种能力的跃升引发了严峻的安全与治理挑战：如果 AI 代理拥有完全的自主权，一旦其推理过程出现偏差或遭遇对抗性攻击，后果可能是灾难性的。

传统的 AI 安全研究往往聚焦于“对齐”（Alignment）问题，即试图通过强化学习或指令微调，让 AI 的内在推理逻辑与人类价值观保持一致。然而，这种基于“监控推理”的方法存在根本性局限：人类的认知过程是黑盒，且随着模型复杂度增加，完全监控和验证每一个推理步骤在计算上是不现实的，在逻辑上也是不完备的。

与此同时，人类社会在管理其他强大的自主实体（如金融机构、制药公司或大型科技公司）时，发展出了一套成熟的治理范式。这套范式并不试图监控企业内部每一个员工的思考过程，而是通过制度化的“证明”（Attestation）机制，在关键行动发生前要求独立的外部验证。本文作者 Jakob Salfeld-Nebgen 提出，借鉴这一人类社会的制度模式，构建一种新的计算治理模型，以应对自主 AI 系统的风险。

核心内容

本文提出了一种名为“机构证明”（Institutional Attestation）的治理模型。该模型的核心思想是：治理的重点应从监控 AI 代理的内部推理过程，转移到对其执行高风险行动的条件约束上。

1. 基本架构：自治与执行权的分离

在该模型中，AI 代理保留了对规划和推理的完全自主权。这意味着 AI 可以独立决定“做什么”以及“为什么做”，其内部逻辑链条不受外部实时干预。然而，这种自主权被严格限制在决策层面。对于被指定为“高风险”的行动（如修改生产数据库、开具处方），代理不拥有直接的执行权。

执行权被剥离出来，成为一个受控的、条件触发的过程。

2. 执行机制：三重独立证明

当一个 AI 代理计划执行某项高风险行动时，必须满足一组预定义的“前置条件”。这些条件不能仅由代理自身声明，而必须由独立的权威来源进行独立证明（Independent Attestation）。具体机制包括：

独立证明：每个前置条件都必须由一个与 AI 代理分离的、可信的第三方来源进行验证。例如，在软件部署场景中，这可能包括代码签名密钥的验证、静态分析工具的通过报告，以及人工审核员的数字签名。
密码学绑定意图：代理声明的执行意图（Intent）必须通过密码学手段（如数字签名）与这些证明证据绑定。这确保了代理不能事后篡改其原始意图，也不能利用伪造的证明来执行未授权的行动。
确定性策略评估：所有收集到的证明证据和绑定的意图，将被输入到一个确定性的策略引擎（Deterministic Policy）中进行评估。该引擎基于预定义的规则（如“只有当证明 A、B、C 全部有效时，才允许执行”）做出二元判断：允许或拒绝。

3. 可审计性与不可篡改性

所有决策过程，包括代理的意图声明、各独立来源的证明数据、以及策略引擎的评估结果，都会被记录在一个防篡改日志（Tamper-evident log）中。这种日志结构（通常基于区块链或类似的可验证数据结构）使得任何第三方都可以独立重新验证当时的决策是否合规。这解决了 AI 决策“黑盒”导致的问责难题，提供了完整的审计轨迹。

4. 概念验证与应用场景

作者提供了一个概念验证（Proof-of-Concept）实现，并展示了两个典型应用场景：

软件部署：AI 代理可以自主分析代码库并决定部署版本，但在实际执行部署命令前，系统要求获取来自 CI/CD 管道的构建证明、来自安全扫描工具的漏洞证明，以及来自运维负责人的批准证明。只有当这些独立证明齐全且密码学绑定正确时，部署才会被执行。
临床处方：AI 代理可以基于患者数据生成诊断建议，但在开具处方前，系统需验证处方是否符合药典规范（由知识库证明）、是否存在药物相互作用（由临床决策支持系统证明），以及是否获得患者的知情同意记录（由电子病历系统证明）。

关键要点

治理范式的转变：从“监控推理”转向“约束行动”。不再试图完全理解或控制 AI 的内部思维过程，而是通过外部机制控制其对外部世界的影响。
自治与控制的解耦：AI 代理保留规划和推理的自主性，但高风险行动的执行权被外部化。代理是“建议者”和“发起者”，而非最终的“执行者”。
独立证明的重要性：关键风险点的控制依赖于多个独立权威来源的交叉验证。单一来源（包括 AI 自身）的证明不足以触发行动。
密码学保证：通过数字签名等技术，将行动意图与证明证据绑定，防止意图篡改和证明伪造，确保责任归属清晰。
确定性评估：使用确定性策略引擎而非另一个 AI 模型来评估证明，避免了“AI 监管 AI”可能带来的递归风险和不透明性。
可验证的审计日志：所有决策痕迹上链或存入防篡改日志，支持事后独立复核，为事故调查和责任认定提供技术基础。
适用于高后果场景：该模型特别适用于临床处方、生产软件部署、金融交易等错误成本极高、不可逆的场景。

意义与影响

1. 为自主 AI 提供可落地的安全护栏

当前的 AI 安全研究多停留在理论或模型层面（如 RLHF），缺乏在系统架构层面强制执行安全策略的标准方法。本文提出的“机构证明”模型提供了一种工程化的解决方案，将安全控制嵌入到 AI 代理的执行管道中，使得“安全”成为系统运行的硬性约束，而非软性建议。

2. 借鉴人类制度智慧

该模型巧妙地借鉴了人类社会中成熟的治理经验（如银行的风控审批、制药的质量控制）。这表明，解决 AI 治理问题不一定需要发明全新的哲学框架，现有的制度设计原则经过数字化和自动化改造后，同样适用于 AI 系统。

3. 缓解“对齐”难题

通过分离推理和执行，该模型降低了对完美对齐的依赖。即使 AI 的推理存在细微偏差，只要其行动触发的独立证明机制依然有效（例如，AI 错误地认为某个药物安全，但独立的药典知识库证明其不安全），系统就能阻止有害行动。这是一种“防御性自治”的思路。

4. 促进责任归属与合规

在监管日益严格的背景下，企业需要证明其 AI 系统的决策是可解释、可审计的。防篡改日志和独立证明机制为合规性提供了技术证据，有助于企业在享受 AI 自动化红利的同时，满足法律和伦理监管要求。

5. 潜在挑战与未来方向

尽管该模型具有理论优势，但其实施面临挑战：

证明来源的可靠性：如果独立证明来源本身被攻击或失效（如 CI/CD 管道被入侵），整个机制将失效。因此，证明来源本身也需要极高的安全性。
性能开销：每次高风险行动都需要等待多个独立来源的证明和评估，可能引入延迟，影响实时性要求极高的场景。
证明标准的制定：如何定义哪些行动是“高风险”，以及需要哪些具体的“独立证明”，需要跨学科专家（法律、伦理、技术）共同制定标准。

总之，Governing Actions, Not Agents 提出了一种务实且结构清晰的 AI 治理路径。它承认 AI 代理的自主价值，同时通过制度化的外部约束确保其行动的安全性，为构建可信的自主 AI 系统提供了重要的理论框架和实践参考。

查看原文 →arxiv.org