← 返回信息流
技术博客arXiv cs.AI·8 天前

AGORA:用于LLM智能体无推理提示压缩的适配器接地观测动作保留

原标题:AGORA: Adapter-Grounded Observation-Action Retention for Inference-Free Prompt Compression in LLM Agents

速览

针对现有令牌级压缩器破坏LLM智能体动作语义导致性能崩溃的问题,研究提出AGORA方法。该方法结合结构解析器与固定保留机制,实现无推理的步骤级压缩。实验表明,AGORA在多数场景下能保留75%以上性能,并实现显著的自适应压缩比。

AI 深度解读

AGORA:无需推理的提示词压缩新范式,拯救大语言模型智能体的“动作语法”

背景

在大型语言模型(LLM)智能体(LLM Agents)的应用场景中,上下文窗口(Context Window)的管理是一个核心痛点。随着智能体在环境中执行多步操作,历史交互记录迅速膨胀,导致提示词(Prompt)长度激增,进而引发推理成本高昂和上下文遗忘问题。

目前,业界广泛采用的提示词压缩技术主要借鉴了通用语言模型(General LM)领域的做法,即基于词元级别(Token-level)的提取式压缩(Extractive Compressors)。这些方法试图通过评估每个词元的重要性来剔除冗余信息。然而,这种通用方法在智能体场景下遭遇了严重的结构性失效。

研究表明,尽管现有的词元级压缩方法能够实现 1.3 到 13.3 倍的压缩率,但在跨越 17 种不同环境、骨干模型和方法组合的测试中,其平均奖励值(Mean Reward)均跌至 0.05 以下,几乎等同于随机猜测或完全失败。

这一失败模式被作者定义为**“动作语法破坏”(Action-Grammar Destruction)**。其根本原因在于:承载动作语义的关键词元(如标识符、括号、动作动词等)往往具有最低的自信息量(Self-information Rank)。通用压缩器倾向于保留高信息量的“闲聊”或背景描述,而恰恰移除了维持智能体与环境交互所必需的格式和动作指令,导致环境拒绝执行残存的提示词。

针对这一诊断,研究指出智能体场景需要的是**步骤粒度(Step-granularity)**的压缩,而非单纯的词元粒度压缩。

核心内容

为了解决上述问题,研究团队提出了 AGORA(Adapter-Grounded Observation-Action Retention),这是一种**无需推理(Inference-Free)**的步骤级提示词压缩方法。AGORA 的设计旨在不依赖额外的 LLM 推理开销,即可实现高效且高质量的上下文压缩。

1. 架构组成

AGORA 由三个核心组件构成:

  • 结构化提示词解析器(Structural Prompt Parser): 用于解析智能体交互的结构,识别出观察(Observation)、动作(Action)等关键模块,而非仅仅将其视为一串连续的词元。

  • 永久保留底线(Always-Keep Floor): 这是一个硬性规则层,确保格式关键内容(Format-critical content)和近期关键内容(Recency-critical content)不被删除。这直接解决了“动作语法破坏”问题,确保动作动词、括号、标识符等结构元素始终保留在上下文中。

  • 相关性评分器(Relevance Scorer): 这是一个参数量为 1.25 亿(125M) 的小型模型。它基于**反事实下一步动作变化标签(Counterfactual Next-Action-Change Labels)**进行训练。

    • 训练目标:预测如果移除某段内容,是否会导致智能体的下一步动作发生改变。
    • 效率:每个步骤的处理时间约为 2 毫秒(~2ms/step)
    • 零推理成本:在压缩过程中,不需要调用主 LLM 进行打分或推理,实现了“零每步 LLM 开销”(Zero per-step LLM toll)。

2. 工作原理

AGORA 摒弃了传统的“计算每个词元重要性并剔除低分词元”的路径,转而采用步骤级的保留策略:

  1. 首先,通过结构化解析器识别出智能体交互的步骤。
  2. 应用“永久保留底线”,强制保留所有格式和近期关键信息。
  3. 对于剩余的非关键内容,利用轻量级的 125M 参数相关性评分器进行评估。
  4. 根据评分结果,自适应地决定哪些历史步骤或观察内容可以压缩或丢弃。

3. 实验结果

在对比实验中,AGORA 与现有的无需推理方法及基于 LLM 的方法进行了比较:

  • 性能保留:在 9 个测试单元格(Cells)中的 8 个,AGORA 成功保留了 >= 75% 的未压缩性能。唯一的一个例外单元格也达到了 73% 的性能保留率。相比之下,其他所有方法均崩溃至极低水平。
  • 自适应压缩:消融实验(Ablation Study)隔离了各个组件的贡献:
    • 结构化底线是维持质量的主导杠杆(Dominant quality lever)。
    • 学习到的评分器提供了从单一固定保留率(Fixed Keep Ratio)到 1.0 到 11.5 倍 的端到端自适应压缩能力。这意味着 AGORA 可以根据内容的相关性动态调整压缩比例,而非一刀切。

关键要点

  • 通用压缩器不适用于智能体:传统的词元级提取式压缩器在 LLM 智能体场景中失效,原因是其破坏了关键的“动作语法”(如动作动词、括号),导致环境交互失败。
  • AGORA 的核心创新:提出了一种无需推理(Inference-Free)的步骤级压缩方法,结合结构化解析、永久保留底线和轻量级相关性评分器。
  • 零推理成本:AGORA 使用一个 1.25 亿参数的小型模型进行评分,每个步骤仅需 ~2ms,无需调用主 LLM,实现了真正的零额外推理开销。
  • 性能卓越:在 9 项测试中有 8 项保持了 >= 75% 的未压缩性能,显著优于现有的无需推理和基于 LLM 的压缩方法。
  • 组件贡献明确:结构化底线是保证基本功能的关键,而学习到的评分器则提供了从 1.0x 到 11.5x 的自适应压缩灵活性。
  • 训练数据独特:相关性评分器基于“反事实下一步动作变化”标签训练,直接优化智能体的决策连贯性,而非通用的文本连贯性。

意义与影响

AGORA 的提出标志着 LLM 智能体上下文管理技术的一个重要转折点。

首先,它揭示了当前智能体研究中一个被忽视的结构性缺陷:智能体的交互逻辑依赖于特定的语法结构,而通用 NLP 任务中的“信息密度”指标并不能准确反映智能体动作的有效性。 这一发现促使研究者重新审视针对智能体优化的上下文管理策略。

其次,AGORA 证明了轻量级、专用模型在解决特定子任务(如提示词压缩)上的巨大潜力。通过训练一个 1.25 亿参数的小模型来替代昂贵的 LLM 推理打分,既降低了延迟(~2ms/step),又消除了额外的 API 调用成本,使得实时、长程智能体交互在经济和技术上都更加可行。

最后,AGORA 的“结构化保留 + 自适应压缩”范式为后续研究提供了新的思路。未来的智能体优化工作可能需要更深入地结合环境交互的结构特性,开发更多针对动作语义、状态跟踪和决策连贯性的专用压缩或记忆机制,从而推动智能体在复杂、长周期任务中的实际应用落地。

查看原文 →arxiv.org