技术博客arXiv cs.AI·3 天前

AdaCoM：利用外部LLM实现长周期任务的自适应上下文管理

原标题：Learning Agent-Compatible Context Management for Long-Horizon Tasks

速览

针对大模型智能体在处理长周期任务时面临的上下文退化问题，研究提出AdaCoM方法。该方法训练外部LLM通过灵活操作管理冻结智能体的上下文，无需重新训练智能体本身。实验表明，AdaCoM在保留任务约束的同时剪除过时内容，显著提升了搜索和深度研究任务的性能。

AI 深度解读

Learning Agent-Compatible Context Management for Long-Horizon Tasks 深度解读

背景

随着大语言模型（LLM）智能体（Agent）在现实世界应用中的普及，诸如网页搜索（Web Search）和深度研究（Deep Research）等长周期任务（Long-Horizon Tasks）变得日益普遍。在这些任务中，智能体需要在漫长的交互过程中积累大量的上下文信息。然而，随着上下文窗口的不断扩展，模型面临着“长上下文退化”（long-context degradation）的风险，即随着输入长度的增加，模型对关键信息的注意力分散，导致推理能力下降甚至完全失效。

为了解决这一问题，先前的研究主要依赖于上下文管理策略。这些策略通常包括智能体侧的上下文控制，或者采用固定的处理手段，如摘要生成（Summarization）。然而，这类方法存在显著的局限性：

训练成本高：它们通常要求对智能体本身进行微调或适应训练，以学会如何管理上下文。
封闭模型不可用：对于像 GPT-4 或 Claude 等闭源（Closed-source）智能体，无法直接修改其内部参数，因此上述方法难以实施。
缺乏灵活性：固定策略忽略了不同智能体架构和能力差异，未能考虑到不同模型可能需要截然不同的上下文管理策略。

核心内容

针对上述痛点，研究团队提出了 Adaptive Context Management (AdaCoM)。这是一种全新的上下文管理框架，其核心创新在于引入一个外部的、可训练的 LLM 来管理一个**冻结（Frozen）**的智能体的上下文。

1. 架构与机制

AdaCoM 不改变目标智能体的参数，而是通过一个外部控制器来执行灵活的上下文修改动作。这些动作包括保留、删除、压缩或重组上下文内容。该外部控制器通过端到端的强化学习（End-to-end Reinforcement Learning）进行训练，旨在优化最终任务的性能，而非仅仅优化上下文本身的压缩率。

2. 实验评估

研究团队在多个主流智能体上进行了广泛测试，涵盖了网页搜索和深度研究基准测试。实验结果显示，AdaCoM 能够显著改善智能体的表现。其核心机制在于：

保留关键信息：严格保留任务约束（Task Constraints）和当前进度（Progress）。
剪枝过时内容：有效剔除那些不再相关或过时的上下文信息（Stale Content），从而防止上下文窗口被噪声淹没。

3. 发现：保真度与可靠性的权衡（Fidelity-Reliability Trade-off）

通过对学习到的策略进行分析，研究人员揭示了一个重要的现象，即“保真度与可靠性的权衡”：

高性能智能体：那些在基础 ReAct（Reasoning + Acting）模式下表现较好的智能体，从高保真度的上下文保留中受益更多。这意味着它们有能力处理更完整的信息，不需要过度的压缩。
低性能智能体：表现较差的智能体则需要更激进的压缩策略。这是为了将上下文限制在一个“可靠推理区间”（Reliable Reasoning Regime）内，避免因信息过载而导致推理崩溃。

4. 泛化能力

迁移实验表明，AdaCoM 在能力相似（以基础 ReAct 性能为衡量标准）的智能体之间具有最佳的泛化效果。这暗示了一种实用的路径：为智能体系统构建可复用（Reusable）的上下文管理器是可行的，但需要根据目标智能体的基础能力进行适配。

关键要点

外部控制，冻结模型：AdaCoM 通过训练一个外部 LLM 来管理上下文，无需修改底层智能体的参数，完美兼容闭源模型。
强化学习驱动：上下文管理策略不是预设的规则，而是通过端到端强化学习自动习得的，能够根据任务动态调整。
动态剪枝与保留：核心优势在于能够智能地识别并剔除“过时内容”，同时严格保留“任务约束”和“当前进度”，解决长上下文退化问题。
基于能力的策略分化：
- 强智能体 $\rightarrow$ 高保真度保留（High-fidelity Preservation）。
- 弱智能体 $\rightarrow$ 激进压缩（Aggressive Compression）以维持推理可靠性。
可复用的上下文管理器：AdaCoM 证明了在不同智能体间迁移上下文管理策略的可能性，特别是当智能体基础能力相近时，效果最佳。

意义与影响

AdaCoM 的提出为长周期智能体应用提供了一个极具实用价值的解决方案。

首先，它打破了闭源智能体在长上下文管理上的技术壁垒。由于不需要对模型本身进行微调，企业或开发者可以直接将 AdaCoM 应用于 GPT、Claude 等主流闭源模型，显著降低部署复杂度和成本。

其次，它揭示了智能体能力与上下文管理策略之间的内在联系。这一发现指导我们在构建多智能体系统时，不应采用“一刀切”的上下文压缩策略，而应根据智能体的基础推理能力（如 Vanilla ReAct 性能）来定制或选择相应的上下文管理模块。

最后，AdaCoM 为构建标准化的、可复用的智能体基础设施铺平了道路。随着智能体生态的繁荣，一个高效、自适应的外部上下文管理层可能成为智能体架构中的标准组件，从而推动 AI 代理在复杂、长期任务中的可靠性和实用性迈上新台阶。

查看原文 →arxiv.org