← 返回信息流
技术博客arXiv cs.AI·2 天前

TRACE:轨迹风险感知压缩提升长程智能体安全性

原标题:TRACE: Trajectory Risk-Aware Compression for Long-Horizon Agent Safety

速览

针对长程LLM智能体中稀疏且延迟的风险信号难以检测的问题,研究提出轨迹风险感知压缩(TRACE)方法。该方法采用压缩器-阅读器架构,将完整轨迹编码为紧凑的潜在证据状态,以此作为安全参考进行判断。实验显示TRACE在多个基准测试中准确率领先,并能有效缓解上下文增长带来的性能下降。

AI 深度解读

TRACE:面向长程智能体安全的轨迹风险感知压缩技术

背景

随着大型语言模型(LLM)智能体(Agents)能力的提升,其在现实世界中的应用正从简单的单轮对话转向需要执行多步、长周期任务的复杂场景。这种“长程”(Long-Horizon)特性使得智能体在完成任务的过程中会产生跨越数十甚至数百个时间步的交互轨迹。

然而,现有的安全检测机制主要面临以下挑战:

  1. 风险信号的稀疏性与延迟性:在长轨迹中,导致不安全结果的关键风险信号往往分散在不同的步骤中,且其危害可能在很久之后才显现。
  2. 局部审查的局限性:传统的检测器通常基于单轮对话(Turn-level)或短上下文窗口进行审查。这种局部视角难以捕捉跨步骤的依赖关系,导致分散的风险线索在长序列处理中被遗漏或过早丢失。
  3. 证据聚合困难:当上下文长度增加时,模型难以可靠地保留和聚合早期的风险证据,导致长程安全检测的准确率随着轨迹长度的增加而显著下降。

为了解决这一痛点,研究团队提出了 TRACE(Trajectory Risk-Aware Compression for Long-Horizon Agent Safety,面向长程智能体安全的轨迹风险感知压缩)框架,旨在通过一种新的证据压缩机制,提升长程智能体安全检测的可靠性。

核心内容

TRACE 的核心思想是将长程智能体安全检测问题重新定义为轨迹级别的证据压缩问题。其目标是让模型能够像人类审查员一样,在浏览长轨迹时,自动提取并保留关键的风险证据,忽略无关噪音,从而做出准确的安全判断。

1. 架构设计:压缩器-阅读器(Compressor-Reader)

TRACE 采用了一种两阶段的“压缩器-阅读器”架构,具体工作流程如下:

  • 压缩器(Compressor)

    • 功能:接收完整的智能体交互轨迹(包含所有中间步骤、工具调用和状态变化),将其编码为一个紧凑的潜在证据状态(Latent Evidence State)。
    • 监督机制:该压缩过程是在轨迹级别(Trajectory-level)的监督下进行的。这意味着压缩器不仅学习单个步骤的特征,更学习如何跨步骤聚合风险线索,确保关键的安全证据在压缩过程中不被丢失。
    • 目的:解决长序列中的“过早证据丢失”问题,将分散的风险线索整合为一个高密度的表示。
  • 阅读器(Reader)

    • 功能:接收原始的完整轨迹以及由压缩器生成的潜在证据状态。
    • 判断逻辑:阅读器以潜在证据状态作为安全参考基准,对原始轨迹进行最终的安全判定。
    • 优势:通过引入压缩后的证据参考,阅读器能够更准确地定位轨迹中的高风险片段,并恢复那些在长距离依赖中容易被忽略的跨步骤证据。

2. 技术优势

  • 分散风险线索的聚合:通过显式的压缩步骤,TRACE 能够有效地将分散在不同时间步的微弱风险信号聚集起来,形成有力的证据链。
  • 减少信息熵增:相比于直接让大模型处理超长上下文,TRACE 先通过压缩器过滤噪音,降低了阅读器的认知负荷,提高了判断的鲁棒性。
  • 上下文长度无关性增强:实验表明,随着上下文长度的增加,TRACE 的性能退化幅度远小于基线模型,显示出更好的可扩展性。

关键要点

  • 问题重构:将长程安全检测从“序列分类”重构为“轨迹证据压缩与检索”问题,强调对分散、延迟风险信号的捕捉。
  • 双模块协同
    • Compressor:负责在轨迹级别监督下,将长轨迹压缩为紧凑的潜在证据状态。
    • Reader:利用潜在证据状态作为参考,对原始轨迹进行安全裁决。
  • 解决核心痛点:有效解决了长轨迹中风险信号稀疏、延迟以及局部检测器无法聚合跨步骤证据的问题。
  • 性能表现卓越
    • ASSEBenchPre-Ex-BenchR-Judge 三个基准测试中,TRACE 在所有评估的后端模型(Backbones)上均取得了最佳准确率。
    • 相比强大的基线模型,准确率提升了高达 12.6 个百分点
    • LongSafety 基准测试中,随着上下文长度的增长,TRACE 的性能下降幅度显著小于其他方法。
  • 可解释性增强:注意力可视化(Attention Visualizations)和案例研究(Case Studies)显示,压缩后的参考证据能帮助阅读器聚焦于风险关键片段,并成功恢复跨步骤的证据关联。
  • 开源支持:相关代码已公开,便于社区复现和进一步研究。

意义与影响

TRACE 的提出对长程智能体(Long-Horizon Agents)的安全落地具有重要的理论和实践意义:

  1. 填补长程安全检测空白:现有的安全护栏多针对短对话或单步操作,TRACE 提供了一种专门针对长周期、多步骤任务的安全检测范式,填补了该领域的技术空白。
  2. 提升复杂场景下的可靠性:在自动驾驶、自动化代码生成、复杂规划等需要长程推理的场景中,TRACE 能够更可靠地识别潜在的安全隐患,降低智能体执行危险操作的风险。
  3. 优化计算效率与安全性平衡:通过“压缩-阅读”机制,TRACE 在不显著增加计算负担的前提下,提升了长上下文下的检测精度,为在资源受限环境下部署长程智能体安全监控提供了可行方案。
  4. 推动可解释安全研究:TRACE 通过显式的证据压缩和注意力可视化,使得安全检测过程更加透明和可解释,有助于开发者理解模型为何判定某轨迹为不安全,从而更好地调试和优化智能体行为。

总之,TRACE 代表了一种从“局部静态审查”向“全局动态证据聚合”转变的安全检测新思路,为构建更安全、更可靠的下一代长程 AI 智能体奠定了重要基础。

查看原文 →arxiv.org