← 返回信息流
技术博客arXiv cs.AI·1 天前

PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents

AI 深度解读

背景

随着大语言模型(LLM)Agent 的普及,越来越多的企业开始利用 LLM Agent 代表自身处理用户请求。这些 Agent 通常通过调用外部工具来完成任务,并在系统提示(System Prompt)中被赋予必须遵守的公司政策。

然而,确保 LLM Agent 严格遵循这些政策是一个极具挑战性的问题。此前的研究和工程实践大多将这一问题视为一个“安全防护”(safeguarding)问题——即在 Agent 执行动作前,通过外部检查模块来阻断那些不合规的行为。这种模式虽然在一定程度上能防止明显的违规,但在面对真实、复杂的企业工作流时往往显得力不从心。

核心内容

本文作者指出,政策遵循本质上是一个比“外部阻断”更广泛、更复杂的问题。真实的企业工作流往往跨越多轮对话,不仅需要 Agent 在执行关键操作前获取用户的明确确认,还要求 Agent 在执行前读取必要的先决条件。这些需求的满足高度依赖于对话的具体内容,而绝非检查单一参数值(argument value)是否合规那么简单。

要真正达到企业级的政策遵循标准,系统必须具备以下三个核心能力,而这也是以往安全防护工作常常低估的:

  1. 完整的对话上下文:不能孤立地看待某一次工具调用,而必须将当前动作置于整个多轮对话的语境中评估。
  2. 结合上下文的自我推理:Agent 需要基于对政策的理解和对当前对话状态的把握,进行自主推理。
  3. 对话特定的修复指导:当发现潜在违规时,系统不应仅仅粗暴阻断,而应提供可操作的反馈,指导 Agent 在下一轮对话中如何修正行为。

基于上述洞察,作者提出了 POLICYGUARD。这是一个子 Agent 验证器,其核心机制在于与主 Agent 共享对对话的视角(即共享对话上下文),并在上下文中对政策进行推理。当主 Agent 的行为存在政策偏离风险时,POLICYGUARD 会生成可操作的反馈,引导主 Agent 在下一轮对话中做出正确的回应。

为了验证 POLICYGUARD 的效果,作者在 tau^2-BENCH airline 基准测试上进行了实验。实验涵盖了三个主流

查看原文 →arxiv.org