技术博客arXiv cs.AI·3 天前

COMPASS：基于认知MCTS的安全搜索代理过程对齐框架

原标题：COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents

速览

LLM驱动的搜索代理在提升多步推理能力的同时，也引入了检索导致的安全退化风险。COMPASS框架结合认知树探索合成隐蔽攻击轨迹，并利用反思式步骤对齐隔离高风险中间动作，实现细粒度过程监督。实验表明，该方法在显著减少训练数据需求的同时，实现了安全性与通用性的良好平衡。

AI 深度解读

COMPASS：认知 MCTS 引导的过程对齐，打造安全搜索智能体

背景

随着大语言模型（LLM）在搜索智能体（Search Agents）中的广泛应用，智能体已具备进行多步推理和调用外部工具的能力。这种能力极大地提升了智能体解决复杂问题的效率，但也引入了新的安全隐患：检索诱导的安全退化（Retrieval-induced Safety Degradation）。

在传统的单轮交互中，恶意意图通常较为明显，容易被安全过滤器识别。然而，在智能体的多步工作流中，有害意图往往会被分解为一系列看似无害的子查询（Sub-queries）。这些子查询单独看来可能完全合规，但串联起来却可能导致不安全的结果。现有的对齐方法难以捕捉这种稀疏且隐蔽的安全信号，也无法有效监督多步交互中多样化的违规行为。因此，如何在保持智能体通用效用（Utility）的同时，实现全流程的鲁棒安全对齐，成为当前亟待解决的关键问题。

核心内容

针对上述挑战，研究人员提出了 COMPASS（Cognitive MCTS-Guided Process Alignment，认知 MCTS 引导的过程对齐）框架。该框架旨在通过整合认知树探索和反思式逐步对齐机制，在智能体工作流的每个阶段实现精细化的安全监督。

1. 认知树探索（Cognitive Tree Exploration, CTE）

COMPASS 的核心创新之一是利用认知树探索来高效合成隐蔽的攻击轨迹。

机制：CTE 借鉴了蒙特卡洛树搜索（MCTS）的思想，在智能体的推理过程中构建搜索树。它不仅评估当前步骤的安全性，还前瞻性地模拟后续多步交互可能产生的后果。
目的：通过这种树状探索，系统能够识别出那些单独看无害、但组合后具有潜在风险的“隐蔽攻击路径”。这使得安全对齐不再局限于单点检测，而是覆盖整个推理链条。

2. 反思式逐步对齐（Introspective Step-wise Alignment, ISA）

为了解决多步交互中安全信号稀疏的问题，COMPASS 引入了反思式逐步对齐机制。

机制：ISA 允许智能体在每一步操作后对自身行为进行“反思”。它专门用于隔离和识别具有风险的中间动作（Intermediate Actions）。
目的：通过对中间步骤进行细粒度的过程监督，ISA 能够及时拦截潜在的危险行为，防止错误累积导致最终的不安全输出。这种方法实现了对智能体内部推理过程的透明化监督。

3. 安全与效用的平衡

COMPASS 的设计目标是在不牺牲智能体通用能力的前提下提升安全性。实验结果表明，该框架在实现 favorable safety-utility trade-off（有利的安全-效用权衡）方面表现优异。更重要的是，COMPASS 所需的训练数据量显著少于现有方法，证明了其数据效率和对齐策略的有效性。

关键要点

问题定义：LLM 驱动的智能体面临“检索诱导的安全退化”风险，即有害意图被分解为看似无害的子查询，导致传统安全过滤失效。
核心框架：提出 COMPASS 框架，采用认知 MCTS 引导的过程对齐方法，覆盖智能体全工作流。
技术创新 1 - CTE：利用认知树探索（Cognitive Tree Exploration）高效合成隐蔽的攻击轨迹，解决多步推理中的长程依赖安全问题。
技术创新 2 - ISA：采用反思式逐步对齐（Introspective Step-wise Alignment）隔离风险中间动作，实现细粒度的过程监督。
性能优势：
- 实现了良好的安全与效用权衡。
- 显著减少了所需的训练数据量，提高了数据效率。
- 能够有效捕捉稀疏的安全信号并监督多样化的违规类型。

意义与影响

COMPASS 的提出为构建更安全的 AI 智能体提供了新的技术路径。

从“结果安全”到“过程安全”：传统安全对齐多关注最终输出，而 COMPASS 强调对中间推理步骤的监督。这种转变对于处理复杂的多步任务至关重要，因为它能在危险发生前进行干预。
提升智能体的可靠性：通过模拟隐蔽攻击路径，COMPASS 增强了智能体对抗越狱攻击（Jailbreaking）和提示注入（Prompt Injection）的能力，使其在开放环境中更加鲁棒。
降低对齐成本：相比需要海量标注数据的方法，COMPASS 证明了通过更聪明的算法设计（如 MCTS 引导）可以大幅降低对齐的数据需求，这对于资源受限的场景具有重要意义。
推动 Agent 安全标准化：随着智能体在金融、医疗等高风险领域的应用增加，COMPASS 所倡导的“过程对齐”理念可能成为未来 Agent 安全标准的重要组成部分。

总之，COMPASS 不仅是一个新的对齐框架，更是对 LLM 智能体安全研究范式的一次重要补充，强调了在保持智能体强大推理能力的同时，必须对其内部决策过程进行精细化管控。

查看原文 →arxiv.org