provenance 分析保障 LLM 代理对齐安全
速览
LLM 代理作为 AI 工具使用越来越多,但对齐问题日益突出。arXiv:2607.01236 提出 provenance 分析概念框架,将 misalignment 检测转化为对代理上下文追踪证据的支持判定。基于此开发的 ProvenanceGuard 管道在执行前分析三类 misalignment,确保对齐才允许行动。在 Agent-SafetyBench 和 WorkBench 两个基准上测试,针对 10 个 backbone LLM,结果显示错误率从 42.9% 降至 1.8% 和从 32.1% 降至 17.3%,干预负担显著减少,证明 provenance 结构化推理为安全保护提供了实用基础。
AI 深度解读
背景
大型语言模型(LLM)代理正迅速获得强大的工具访问权限,这一趋势使得其行为与用户意图保持一致性成为至关重要的挑战。当代理提出的工具调用偏离用户意图(这一现象被称为 misalignment)时,可能引发难以逆转的危害后果。
现有运行时防护措施主要依赖于 LLM-as-a-judge 范式(将 LLM 作为裁判),但该方法缺乏系统性框架来推理对齐问题,常产生不一致的判断且难以审计。
核心内容
受溯源分析(provenance analysis)启发,作者提出一个基于溯源的概念框架,将 misalignment 检测形式化为:确定一个提出的工具调用是否由代理上下文中的可追踪证据支持。
在此框架基础上,作者设计了 ProvenanceGuard 多阶段流水线。该流水线在所选工具执行前,对代理的行动进行三类 misalignment 分析,仅当认为行动与用户的输入查询对齐时才允许该行动发生。
通过在两个不同基准测试(Agent-SafetyBench 和 WorkBench)上对 10 个基础 LLM 进行评估,作者的 ProvenanceGuard 与 LLM-as-a-judge 基线相比,将 misaligned traces 的错误率从 42.9% 降低至 1.8%(Agent-SafetyBench),以及从 32.1% 降低至 17.3%(WorkBench);同时将任务成功 traces 的干预负担从 30.5% 降低至 12.8%,对对齐 traces 引入了无统计学显著增加的非必要干预。这些结果表明,结构化的基于溯源的推理为保护 LLM 代理免受 misalignment 提供了有效且实用的基础。
关键要点
- 现有 LLM-as-a-judge 方法缺乏系统推理框架,导致判断不一致且难以审计。
- ProvenanceGuard 通过多阶段流水线,在工具执行前检测三类 misalignment,确保行动与用户查询对齐。
- 在 Agent-SafetyBench 上,错误率从 42.9% 降至 1.8%。
- 在 WorkBench 上,错误率从 32.1% 降至 17.3%。
- 任务成功 traces 的干预负担从 30.5% 降至 12.8%,对齐 traces 的非必要干预无显著增加。
- 结构化溯源分析为 LLM 代理对齐提供了有效且实用的防护基础。
意义与影响
这一研究为 LLM 代理提供了系统化、可审计的 misalignment 防护机制,有望显著降低代理在工具使用过程中引发有害后果的风险,使其在日益复杂的工具生态中更安全可靠。未来工作可进一步优化流水线性能并探索在更大规模代理系统中的应用。
