技术博客arXiv cs.CL·3 小时前

超越上下文压缩：结构化上下文淘汰机制赋能长程智能体

原标题：Beyond Compaction: Structured Context Eviction for Long-Horizon Agents

速览

研究提出上下文窗口生命周期（CWL）方案，通过语义感知的结构化淘汰策略，赋予长程大语言模型智能体近乎无限的工作能力。相比传统压缩或截断，CWL能保留关键因果结构，避免幻觉并降低计算成本。实验显示，该机制在8000万token的长序列任务中保持了高精度，无性能衰减。

AI 深度解读

Beyond Compaction: Structured Context Eviction for Long-Horizon Agents

背景

随着大型语言模型（LLM）在智能体（Agents）领域的应用日益深入，特别是面对需要长时间交互、多步骤推理的“长视界”（Long-Horizon）任务时，上下文窗口（Context Window）的管理成为了一个核心瓶颈。传统的处理长对话或长轨迹的方法主要依赖于两种策略：一是基于摘要的压缩（Summarization-based Compaction），即定期将历史对话浓缩为简短的摘要；二是基于最近性的截断（Recency Truncation），即简单地丢弃最早的对话记录。

然而，这两种传统方法存在显著的局限性。基于摘要的方法往往导致不可预测的信息丢失，破坏因果结构，且需要额外的模型调用成本，甚至可能引发因压缩导致的幻觉（Hallucination）。而简单的截断策略则缺乏语义感知能力，往往丢弃了虽然时间久远但依然关键、或可恢复的信息，同时保留了最新但可能冗余的动作记录。

为了解决这些问题，研究人员提出了 Context Window Lifecycle (CWL)，一种旨在为长视界 LLM 智能体提供“有效无限”工作视界的上下文管理方案。该方案发表于 arXiv (cs.CL)，提交于 2026 年 5 月 1 日。

核心内容

CWL 的核心思想是引入一种“渐进式、语义感知的驱逐”（graduated, semantically-aware eviction）机制，通过确定性的、无需 LLM 参与的政策来管理上下文，从而在保持性能稳定的同时严格控制 Token 预算。

1. 轨迹标注与依赖图构建

在智能体执行任务的过程中，CWL 要求智能体对其轨迹进行结构化标注。具体来说，智能体将工作过程标记为“类型化”（typed）且“依赖链接”（dependency-linked）的片段（Episodes）。这意味着每一个动作或推理步骤都被视为一个独立的单元，并与其前置条件、后续依赖或环境状态变化建立明确的逻辑连接。这种结构形成了一个“片段图”（Episode Graph），而非简单的线性时间序列。

2. 确定性驱逐策略

当上下文 Token 数量超过预设预算时，CWL 启动驱逐机制。这一过程是确定性的，且不依赖额外的 LLM 推理，从而避免了摘要压缩带来的额外成本和延迟。驱逐优先级基于片段图中的依赖关系：

保留核心：用户的输入（User Turns）以及智能体当前正在积极推理的探索性上下文会被优先保留。
激进剔除：那些效果已经持久化存储在当前环境中的动作片段（Action Episodes）会被优先剔除。例如，如果智能体已经成功执行了“保存文件”的操作，该文件状态已存在于环境中，那么“保存文件”这一动作的历史记录就不再是推理当前步骤所必需的。

3. 与现有方法的对比优势

CWL 明确指出了其相对于两种主流方法的四大优势：

对比摘要压缩：
1. 避免了不可预测的信息丢失（Unpredictable lossiness）。
2. 保护了因果结构（Causal structure），因为依赖图保留了逻辑关系而非模糊的语义摘要。
3. 不阻塞模型成本（Blocking model cost），因为驱逐是确定性的规则操作，无需调用 LLM 进行摘要生成。
4. 避免了压缩引发的幻觉（Compression-induced hallucination）。
对比最近性截断：
- CWL 是语义感知的。它不是简单地丢弃“时间上最旧”的内容，而是根据依赖图丢弃“最古老且最可恢复”的内容。这意味着即使某些信息时间久远，如果它对当前推理至关重要或不可恢复，它将被保留；反之，最新但已无用的动作记录可能被剔除。

4. 技术实现细节

文章描述了 CWL 的四个关键组成部分：

标注协议（Annotation Protocol）：定义智能体如何标记片段类型和依赖关系。
片段图（Episode Graph）：存储和管理这些结构化片段的数据结构。
驱逐策略（Eviction Policy）：基于依赖关系的优先级排序算法。
Token 记账循环（Token-accounting Loop）：实时监控上下文大小并触发驱逐的机制。

关键要点

有效无限的视界：CWL 通过动态管理上下文，使长视界智能体能够在不显著增加内存负担的情况下，维持近乎无限的工作视界。
语义感知的驱逐：摒弃了基于时间的简单截断，采用基于依赖关系的语义驱逐，确保关键推理路径的完整性。
零额外 LLM 成本：驱逐过程由确定性策略执行，无需调用 LLM 进行摘要或评估，降低了延迟和计算开销。
性能稳定性：通过将活跃上下文维持在一个稳定的上限内，CWL 避免了因提示词（Prompt）过长而导致的性能下降。
实证效果显著：在长视界智能体基准测试中，CWL 支持单个智能体会话完成跨越 8000 万 Token 的 89 个顺序任务，且相对于每个任务孤立进行的会话，任务准确率没有可测量的下降。

意义与影响

CWL 的提出标志着智能体上下文管理从“被动截断”或“黑盒压缩”向“结构化主动管理”的转变。

首先，它解决了长视界智能体在实际部署中的可扩展性问题。通过确保上下文大小稳定且可预测，开发者可以更可靠地设计复杂的、多步骤的智能体工作流，而不必担心上下文溢出导致的性能崩溃。

其次，CWL 保护了智能体的推理质量。通过保留因果结构和关键依赖关系，它减少了因信息丢失或幻觉导致的错误累积，这对于需要高可靠性的应用场景（如代码生成、自动化运维、复杂数据分析）至关重要。

最后，该方法的经济性优势明显。由于避免了摘要生成所需的额外 LLM 调用，CWL 降低了长会话的运行成本，使得长时间运行的智能体在经济上更加可行。随着智能体应用从简单的问答向复杂的自主代理演进，类似 CWL 这样的结构化上下文管理技术将成为基础设施的重要组成部分。

查看原文 →arxiv.org