← 返回信息流
技术博客arXiv cs.AI·3 天前

AdaCoM:利用外部LLM实现长周期任务的自适应上下文管理

原标题:Learning Agent-Compatible Context Management for Long-Horizon Tasks

速览

针对大模型智能体在处理长周期任务时面临的上下文退化问题,研究提出AdaCoM方法。该方法训练外部LLM通过灵活操作管理冻结智能体的上下文,无需重新训练智能体本身。实验表明,AdaCoM在保留任务约束的同时剪除过时内容,显著提升了搜索和深度研究任务的性能。

AI 深度解读

Learning Agent-Compatible Context Management for Long-Horizon Tasks 深度解读

背景

随着大语言模型(LLM)智能体(Agent)在现实世界应用中的普及,诸如网页搜索(Web Search)和深度研究(Deep Research)等长周期任务(Long-Horizon Tasks)变得日益普遍。在这些任务中,智能体需要在漫长的交互过程中积累大量的上下文信息。然而,随着上下文窗口的不断扩展,模型面临着“长上下文退化”(long-context degradation)的风险,即随着输入长度的增加,模型对关键信息的注意力分散,导致推理能力下降甚至完全失效。

为了解决这一问题,先前的研究主要依赖于上下文管理策略。这些策略通常包括智能体侧的上下文控制,或者采用固定的处理手段,如摘要生成(Summarization)。然而,这类方法存在显著的局限性:

  1. 训练成本高:它们通常要求对智能体本身进行微调或适应训练,以学会如何管理上下文。
  2. 封闭模型不可用:对于像 GPT-4 或 Claude 等闭源(Closed-source)智能体,无法直接修改其内部参数,因此上述方法难以实施。
  3. 缺乏灵活性:固定策略忽略了不同智能体架构和能力差异,未能考虑到不同模型可能需要截然不同的上下文管理策略。

核心内容

针对上述痛点,研究团队提出了 Adaptive Context Management (AdaCoM)。这是一种全新的上下文管理框架,其核心创新在于引入一个外部的、可训练的 LLM 来管理一个**冻结(Frozen)**的智能体的上下文。

1. 架构与机制

AdaCoM 不改变目标智能体的参数,而是通过一个外部控制器来执行灵活的上下文修改动作。这些动作包括保留、删除、压缩或重组上下文内容。该外部控制器通过端到端的强化学习(End-to-end Reinforcement Learning)进行训练,旨在优化最终任务的性能,而非仅仅优化上下文本身的压缩率。

2. 实验评估

研究团队在多个主流智能体上进行了广泛测试,涵盖了网页搜索和深度研究基准测试。实验结果显示,AdaCoM 能够显著改善智能体的表现。其核心机制在于:

  • 保留关键信息:严格保留任务约束(Task Constraints)和当前进度(Progress)。
  • 剪枝过时内容:有效剔除那些不再相关或过时的上下文信息(Stale Content),从而防止上下文窗口被噪声淹没。

3. 发现:保真度与可靠性的权衡(Fidelity-Reliability Trade-off)

通过对学习到的策略进行分析,研究人员揭示了一个重要的现象,即“保真度与可靠性的权衡”:

  • 高性能智能体:那些在基础 ReAct(Reasoning + Acting)模式下表现较好的智能体,从高保真度的上下文保留中受益更多。这意味着它们有能力处理更完整的信息,不需要过度的压缩。
  • 低性能智能体:表现较差的智能体则需要更激进的压缩策略。这是为了将上下文限制在一个“可靠推理区间”(Reliable Reasoning Regime)内,避免因信息过载而导致推理崩溃。

4. 泛化能力

迁移实验表明,AdaCoM 在能力相似(以基础 ReAct 性能为衡量标准)的智能体之间具有最佳的泛化效果。这暗示了一种实用的路径:为智能体系统构建可复用(Reusable)的上下文管理器是可行的,但需要根据目标智能体的基础能力进行适配。

关键要点

  • 外部控制,冻结模型:AdaCoM 通过训练一个外部 LLM 来管理上下文,无需修改底层智能体的参数,完美兼容闭源模型。
  • 强化学习驱动:上下文管理策略不是预设的规则,而是通过端到端强化学习自动习得的,能够根据任务动态调整。
  • 动态剪枝与保留:核心优势在于能够智能地识别并剔除“过时内容”,同时严格保留“任务约束”和“当前进度”,解决长上下文退化问题。
  • 基于能力的策略分化
    • 强智能体 $\rightarrow$ 高保真度保留(High-fidelity Preservation)。
    • 弱智能体 $\rightarrow$ 激进压缩(Aggressive Compression)以维持推理可靠性。
  • 可复用的上下文管理器:AdaCoM 证明了在不同智能体间迁移上下文管理策略的可能性,特别是当智能体基础能力相近时,效果最佳。

意义与影响

AdaCoM 的提出为长周期智能体应用提供了一个极具实用价值的解决方案。

首先,它打破了闭源智能体在长上下文管理上的技术壁垒。由于不需要对模型本身进行微调,企业或开发者可以直接将 AdaCoM 应用于 GPT、Claude 等主流闭源模型,显著降低部署复杂度和成本。

其次,它揭示了智能体能力与上下文管理策略之间的内在联系。这一发现指导我们在构建多智能体系统时,不应采用“一刀切”的上下文压缩策略,而应根据智能体的基础推理能力(如 Vanilla ReAct 性能)来定制或选择相应的上下文管理模块。

最后,AdaCoM 为构建标准化的、可复用的智能体基础设施铺平了道路。随着智能体生态的繁荣,一个高效、自适应的外部上下文管理层可能成为智能体架构中的标准组件,从而推动 AI 代理在复杂、长期任务中的可靠性和实用性迈上新台阶。

查看原文 →arxiv.org