← 返回信息流
技术博客arXiv cs.CL·3 小时前

超越上下文压缩:结构化上下文淘汰机制赋能长程智能体

原标题:Beyond Compaction: Structured Context Eviction for Long-Horizon Agents

速览

研究提出上下文窗口生命周期(CWL)方案,通过语义感知的结构化淘汰策略,赋予长程大语言模型智能体近乎无限的工作能力。相比传统压缩或截断,CWL能保留关键因果结构,避免幻觉并降低计算成本。实验显示,该机制在8000万token的长序列任务中保持了高精度,无性能衰减。

AI 深度解读

Beyond Compaction: Structured Context Eviction for Long-Horizon Agents

背景

随着大型语言模型(LLM)在智能体(Agents)领域的应用日益深入,特别是面对需要长时间交互、多步骤推理的“长视界”(Long-Horizon)任务时,上下文窗口(Context Window)的管理成为了一个核心瓶颈。传统的处理长对话或长轨迹的方法主要依赖于两种策略:一是基于摘要的压缩(Summarization-based Compaction),即定期将历史对话浓缩为简短的摘要;二是基于最近性的截断(Recency Truncation),即简单地丢弃最早的对话记录。

然而,这两种传统方法存在显著的局限性。基于摘要的方法往往导致不可预测的信息丢失,破坏因果结构,且需要额外的模型调用成本,甚至可能引发因压缩导致的幻觉(Hallucination)。而简单的截断策略则缺乏语义感知能力,往往丢弃了虽然时间久远但依然关键、或可恢复的信息,同时保留了最新但可能冗余的动作记录。

为了解决这些问题,研究人员提出了 Context Window Lifecycle (CWL),一种旨在为长视界 LLM 智能体提供“有效无限”工作视界的上下文管理方案。该方案发表于 arXiv (cs.CL),提交于 2026 年 5 月 1 日。

核心内容

CWL 的核心思想是引入一种“渐进式、语义感知的驱逐”(graduated, semantically-aware eviction)机制,通过确定性的、无需 LLM 参与的政策来管理上下文,从而在保持性能稳定的同时严格控制 Token 预算。

1. 轨迹标注与依赖图构建

在智能体执行任务的过程中,CWL 要求智能体对其轨迹进行结构化标注。具体来说,智能体将工作过程标记为“类型化”(typed)且“依赖链接”(dependency-linked)的片段(Episodes)。这意味着每一个动作或推理步骤都被视为一个独立的单元,并与其前置条件、后续依赖或环境状态变化建立明确的逻辑连接。这种结构形成了一个“片段图”(Episode Graph),而非简单的线性时间序列。

2. 确定性驱逐策略

当上下文 Token 数量超过预设预算时,CWL 启动驱逐机制。这一过程是确定性的,且不依赖额外的 LLM 推理,从而避免了摘要压缩带来的额外成本和延迟。驱逐优先级基于片段图中的依赖关系:

  • 保留核心:用户的输入(User Turns)以及智能体当前正在积极推理的探索性上下文会被优先保留。
  • 激进剔除:那些效果已经持久化存储在当前环境中的动作片段(Action Episodes)会被优先剔除。例如,如果智能体已经成功执行了“保存文件”的操作,该文件状态已存在于环境中,那么“保存文件”这一动作的历史记录就不再是推理当前步骤所必需的。

3. 与现有方法的对比优势

CWL 明确指出了其相对于两种主流方法的四大优势:

  • 对比摘要压缩
    1. 避免了不可预测的信息丢失(Unpredictable lossiness)。
    2. 保护了因果结构(Causal structure),因为依赖图保留了逻辑关系而非模糊的语义摘要。
    3. 不阻塞模型成本(Blocking model cost),因为驱逐是确定性的规则操作,无需调用 LLM 进行摘要生成。
    4. 避免了压缩引发的幻觉(Compression-induced hallucination)。
  • 对比最近性截断
    • CWL 是语义感知的。它不是简单地丢弃“时间上最旧”的内容,而是根据依赖图丢弃“最古老且最可恢复”的内容。这意味着即使某些信息时间久远,如果它对当前推理至关重要或不可恢复,它将被保留;反之,最新但已无用的动作记录可能被剔除。

4. 技术实现细节

文章描述了 CWL 的四个关键组成部分:

  1. 标注协议(Annotation Protocol):定义智能体如何标记片段类型和依赖关系。
  2. 片段图(Episode Graph):存储和管理这些结构化片段的数据结构。
  3. 驱逐策略(Eviction Policy):基于依赖关系的优先级排序算法。
  4. Token 记账循环(Token-accounting Loop):实时监控上下文大小并触发驱逐的机制。

关键要点

  • 有效无限的视界:CWL 通过动态管理上下文,使长视界智能体能够在不显著增加内存负担的情况下,维持近乎无限的工作视界。
  • 语义感知的驱逐:摒弃了基于时间的简单截断,采用基于依赖关系的语义驱逐,确保关键推理路径的完整性。
  • 零额外 LLM 成本:驱逐过程由确定性策略执行,无需调用 LLM 进行摘要或评估,降低了延迟和计算开销。
  • 性能稳定性:通过将活跃上下文维持在一个稳定的上限内,CWL 避免了因提示词(Prompt)过长而导致的性能下降。
  • 实证效果显著:在长视界智能体基准测试中,CWL 支持单个智能体会话完成跨越 8000 万 Token 的 89 个顺序任务,且相对于每个任务孤立进行的会话,任务准确率没有可测量的下降。

意义与影响

CWL 的提出标志着智能体上下文管理从“被动截断”或“黑盒压缩”向“结构化主动管理”的转变。

首先,它解决了长视界智能体在实际部署中的可扩展性问题。通过确保上下文大小稳定且可预测,开发者可以更可靠地设计复杂的、多步骤的智能体工作流,而不必担心上下文溢出导致的性能崩溃。

其次,CWL 保护了智能体的推理质量。通过保留因果结构和关键依赖关系,它减少了因信息丢失或幻觉导致的错误累积,这对于需要高可靠性的应用场景(如代码生成、自动化运维、复杂数据分析)至关重要。

最后,该方法的经济性优势明显。由于避免了摘要生成所需的额外 LLM 调用,CWL 降低了长会话的运行成本,使得长时间运行的智能体在经济上更加可行。随着智能体应用从简单的问答向复杂的自主代理演进,类似 CWL 这样的结构化上下文管理技术将成为基础设施的重要组成部分。

查看原文 →arxiv.org