技术博客arXiv cs.CL·7 天前

TRACES：基于轨迹状态建模的多轮LLM智能体主动安全审计

原标题：TRACES: Proactive Safety Auditing for Multi-Turn LLM Agents via Trajectory-State Modeling

速览

针对多轮LLM智能体中安全风险滞后显现的问题，研究提出TRACES框架。该方法利用观察者LLM的隐藏表示学习前缀级轨迹风险状态，通过弱监督训练实现密集的风险预测。实验表明TRACES能显著提升轨迹安全预测和主动风险识别能力，为长程智能体安全提供了新方案。

AI 深度解读

TRACES：通过轨迹状态建模实现多轮 LLM Agent 的主动安全审计

背景

随着大型语言模型（LLM）智能体（Agents）在现实世界中的应用日益广泛，它们不再仅仅进行简单的问答，而是越来越多地通过多轮工具调用（multi-turn tool use）和环境交互来执行复杂任务。这种长周期的交互模式虽然提升了智能体的能力，但也引入了新的安全隐患。

在传统的单轮对话或短流程中，安全风险评估往往关注最终输出。然而，在多轮智能体交互中，安全风险通常潜伏在中间步骤中，远早于最终结果暴露出来。例如，一个智能体可能在第一步就调用了不安全的 API，或者在第二步生成了有害的中间指令，尽管最终结果可能看似无害，但过程本身已经构成了严重的安全漏洞。

现有的安全审计方法多为“反应式”（Reactive），即在任务结束后进行事后诊断。这种滞后性导致审计者错过了在风险 unfolding（展开/发生）过程中进行干预的最佳时机。因此，业界亟需一种能够“主动”识别风险的机制，在风险演变为实际危害之前将其拦截。

核心内容

为了解决上述问题，研究人员提出了 TRACES（Trajectory-State Representation for Early Safety Auditing of Agents，基于轨迹状态表示的智能体早期安全审计）。TRACES 是一种基于表示学习的主动审计器，其核心创新在于利用观察者 LLM（Observer LLM）的隐藏层表示（hidden representations），从前缀级别（prefix-level）学习轨迹风险状态。

1. 从隐藏表示中提取潜在机制特征

TRACES 并不直接依赖最终的文本输出，而是深入 LLM 的内部状态。它从智能体每一步的表示中提取潜在的机制特征（latent mechanism features）。这些特征捕捉了模型在生成特定步骤时的内部认知状态和意图倾向，而不仅仅是表面的语义内容。

2. 建模时间演化以预测风险

仅仅提取单步特征是不够的，因为风险往往是一个动态演变的过程。TRACES 对这些潜在特征的时间演化进行建模，旨在估算当前的部分轨迹（partial trajectory）是否正在偏离安全轨道，向不安全行为漂移。通过捕捉这种动态变化，TRACES 能够判断智能体是处于“安全”、“中性”还是“高风险”状态。

3. 弱监督训练与密集预测

在训练数据方面，为每个具体的中间步骤进行人工风险标注成本高昂且存在歧义（因为中间步骤的意图可能模糊）。TRACES 巧妙地采用了“弱轨迹级监督”（weak trajectory-level supervision）。也就是说，训练数据仅标注整个长轨迹的最终安全性，而不标注每一步的风险。

尽管监督信号稀疏，TRACES 仍能通过内部机制学习，产生密集的“前缀级别”风险估计。这意味着对于轨迹中的每一个时间点，TRACES 都能给出一个实时的风险评分。这种设计既降低了数据标注成本，又实现了细粒度的实时监控。

4. 性能验证

在多个智能体安全基准测试中，TRACES 在两个关键指标上均表现出色：

全轨迹安全预测：准确判断整个交互序列是否安全。
主动风险区分：在风险发生早期准确识别出潜在的危险趋势。

此外，分析表明，这些提取出的风险状态不仅可以用于审计，还可以用于训练更安全的智能体，从而形成“审计-反馈-优化”的闭环。

关键要点

主动而非被动：TRACES 的核心价值在于“主动”（Proactive）。它不再等待任务结束后的事后诸葛亮，而是在多轮交互过程中实时监测风险，为干预留出时间窗口。
基于内部表示：不同于仅分析输入输出的黑盒方法，TRACES 利用观察者 LLM 的隐藏层表示（Hidden Representations），深入模型内部捕捉意图和机制特征。
解决标注难题：通过引入“弱轨迹级监督”，TRACES 避免了昂贵且模糊的逐步骤人工标注，同时仍能输出高密度的前缀级风险估计，实现了成本与精度的平衡。
动态风险建模：TRACES 不仅看单点，更看重“轨迹”的时间演化。它通过建模潜在特征随时间的变化，判断智能体是否正在“漂移”向不安全行为。
双重效用：TRACES 输出的风险状态不仅用于审计监控，还被证明有助于训练更安全的智能体，展示了主动审计在提升长期智能体安全性方面的广泛潜力。

意义与影响

TRACES 的提出标志着 LLM 智能体安全研究从“结果导向”向“过程导向”的重要转变。

首先，它解决了长周期智能体交互中的“黑盒风险”问题。在多轮工具调用中，最终结果可能掩盖了过程中的违规操作。TRACES 提供了细粒度的透明度，使得开发者和管理者能够看到风险是如何一步步累积的，从而进行精准修复。

其次，TRACES 为构建可信赖的自主智能体提供了技术基础。随着智能体在金融、医疗、自动驾驶等高敏感领域的应用，仅仅依靠最终结果的合规性检查已不足以保障安全。主动审计机制能够在风险萌芽阶段发出警报，甚至通过反馈机制引导智能体自我修正，这对于实现真正可靠的 AI 代理至关重要。

最后，该方法论具有广泛的适用性。虽然本文聚焦于 LLM Agents，但其“基于表示学习的主动风险建模”思路可以推广到其他需要长序列决策和高风险控制的 AI 系统中，为构建更安全、更可控的人工智能生态提供了新的范式。

查看原文 →arxiv.org