技术博客arXiv cs.AI·1 天前

PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents

AI 深度解读

背景

随着大语言模型（LLM）Agent 的普及，越来越多的企业开始利用 LLM Agent 代表自身处理用户请求。这些 Agent 通常通过调用外部工具来完成任务，并在系统提示（System Prompt）中被赋予必须遵守的公司政策。

然而，确保 LLM Agent 严格遵循这些政策是一个极具挑战性的问题。此前的研究和工程实践大多将这一问题视为一个“安全防护”（safeguarding）问题——即在 Agent 执行动作前，通过外部检查模块来阻断那些不合规的行为。这种模式虽然在一定程度上能防止明显的违规，但在面对真实、复杂的企业工作流时往往显得力不从心。

核心内容

本文作者指出，政策遵循本质上是一个比“外部阻断”更广泛、更复杂的问题。真实的企业工作流往往跨越多轮对话，不仅需要 Agent 在执行关键操作前获取用户的明确确认，还要求 Agent 在执行前读取必要的先决条件。这些需求的满足高度依赖于对话的具体内容，而绝非检查单一参数值（argument value）是否合规那么简单。

要真正达到企业级的政策遵循标准，系统必须具备以下三个核心能力，而这也是以往安全防护工作常常低估的：

完整的对话上下文：不能孤立地看待某一次工具调用，而必须将当前动作置于整个多轮对话的语境中评估。
结合上下文的自我推理：Agent 需要基于对政策的理解和对当前对话状态的把握，进行自主推理。
对话特定的修复指导：当发现潜在违规时，系统不应仅仅粗暴阻断，而应提供可操作的反馈，指导 Agent 在下一轮对话中如何修正行为。

基于上述洞察，作者提出了 POLICYGUARD。这是一个子 Agent 验证器，其核心机制在于与主 Agent 共享对对话的视角（即共享对话上下文），并在上下文中对政策进行推理。当主 Agent 的行为存在政策偏离风险时，POLICYGUARD 会生成可操作的反馈，引导主 Agent 在下一轮对话中做出正确的回应。

为了验证 POLICYGUARD 的效果，作者在 tau^2-BENCH airline 基准测试上进行了实验。实验涵盖了三个主流

查看原文 →arxiv.org

PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents

AI 深度解读

背景

核心内容

相关推荐