技术博客arXiv cs.AI·8 天前

AGORA：用于LLM智能体无推理提示压缩的适配器接地观测动作保留

原标题：AGORA: Adapter-Grounded Observation-Action Retention for Inference-Free Prompt Compression in LLM Agents

速览

针对现有令牌级压缩器破坏LLM智能体动作语义导致性能崩溃的问题，研究提出AGORA方法。该方法结合结构解析器与固定保留机制，实现无推理的步骤级压缩。实验表明，AGORA在多数场景下能保留75%以上性能，并实现显著的自适应压缩比。

AI 深度解读

AGORA：无需推理的提示词压缩新范式，拯救大语言模型智能体的“动作语法”

背景

在大型语言模型（LLM）智能体（LLM Agents）的应用场景中，上下文窗口（Context Window）的管理是一个核心痛点。随着智能体在环境中执行多步操作，历史交互记录迅速膨胀，导致提示词（Prompt）长度激增，进而引发推理成本高昂和上下文遗忘问题。

目前，业界广泛采用的提示词压缩技术主要借鉴了通用语言模型（General LM）领域的做法，即基于词元级别（Token-level）的提取式压缩（Extractive Compressors）。这些方法试图通过评估每个词元的重要性来剔除冗余信息。然而，这种通用方法在智能体场景下遭遇了严重的结构性失效。

研究表明，尽管现有的词元级压缩方法能够实现 1.3 到 13.3 倍的压缩率，但在跨越 17 种不同环境、骨干模型和方法组合的测试中，其平均奖励值（Mean Reward）均跌至 0.05 以下，几乎等同于随机猜测或完全失败。

这一失败模式被作者定义为**“动作语法破坏”（Action-Grammar Destruction）**。其根本原因在于：承载动作语义的关键词元（如标识符、括号、动作动词等）往往具有最低的自信息量（Self-information Rank）。通用压缩器倾向于保留高信息量的“闲聊”或背景描述，而恰恰移除了维持智能体与环境交互所必需的格式和动作指令，导致环境拒绝执行残存的提示词。

针对这一诊断，研究指出智能体场景需要的是**步骤粒度（Step-granularity）**的压缩，而非单纯的词元粒度压缩。

核心内容

为了解决上述问题，研究团队提出了 AGORA（Adapter-Grounded Observation-Action Retention），这是一种**无需推理（Inference-Free）**的步骤级提示词压缩方法。AGORA 的设计旨在不依赖额外的 LLM 推理开销，即可实现高效且高质量的上下文压缩。

1. 架构组成

AGORA 由三个核心组件构成：

结构化提示词解析器（Structural Prompt Parser）：用于解析智能体交互的结构，识别出观察（Observation）、动作（Action）等关键模块，而非仅仅将其视为一串连续的词元。
永久保留底线（Always-Keep Floor）：这是一个硬性规则层，确保格式关键内容（Format-critical content）和近期关键内容（Recency-critical content）不被删除。这直接解决了“动作语法破坏”问题，确保动作动词、括号、标识符等结构元素始终保留在上下文中。
相关性评分器（Relevance Scorer）：这是一个参数量为 1.25 亿（125M） 的小型模型。它基于**反事实下一步动作变化标签（Counterfactual Next-Action-Change Labels）**进行训练。
- 训练目标：预测如果移除某段内容，是否会导致智能体的下一步动作发生改变。
- 效率：每个步骤的处理时间约为 2 毫秒（~2ms/step）。
- 零推理成本：在压缩过程中，不需要调用主 LLM 进行打分或推理，实现了“零每步 LLM 开销”（Zero per-step LLM toll）。

2. 工作原理

AGORA 摒弃了传统的“计算每个词元重要性并剔除低分词元”的路径，转而采用步骤级的保留策略：

首先，通过结构化解析器识别出智能体交互的步骤。
应用“永久保留底线”，强制保留所有格式和近期关键信息。
对于剩余的非关键内容，利用轻量级的 125M 参数相关性评分器进行评估。
根据评分结果，自适应地决定哪些历史步骤或观察内容可以压缩或丢弃。

3. 实验结果

在对比实验中，AGORA 与现有的无需推理方法及基于 LLM 的方法进行了比较：

性能保留：在 9 个测试单元格（Cells）中的 8 个，AGORA 成功保留了 >= 75% 的未压缩性能。唯一的一个例外单元格也达到了 73% 的性能保留率。相比之下，其他所有方法均崩溃至极低水平。
自适应压缩：消融实验（Ablation Study）隔离了各个组件的贡献：
- 结构化底线是维持质量的主导杠杆（Dominant quality lever）。
- 学习到的评分器提供了从单一固定保留率（Fixed Keep Ratio）到 1.0 到 11.5 倍 的端到端自适应压缩能力。这意味着 AGORA 可以根据内容的相关性动态调整压缩比例，而非一刀切。

关键要点

通用压缩器不适用于智能体：传统的词元级提取式压缩器在 LLM 智能体场景中失效，原因是其破坏了关键的“动作语法”（如动作动词、括号），导致环境交互失败。
AGORA 的核心创新：提出了一种无需推理（Inference-Free）的步骤级压缩方法，结合结构化解析、永久保留底线和轻量级相关性评分器。
零推理成本：AGORA 使用一个 1.25 亿参数的小型模型进行评分，每个步骤仅需 ~2ms，无需调用主 LLM，实现了真正的零额外推理开销。
性能卓越：在 9 项测试中有 8 项保持了 >= 75% 的未压缩性能，显著优于现有的无需推理和基于 LLM 的压缩方法。
组件贡献明确：结构化底线是保证基本功能的关键，而学习到的评分器则提供了从 1.0x 到 11.5x 的自适应压缩灵活性。
训练数据独特：相关性评分器基于“反事实下一步动作变化”标签训练，直接优化智能体的决策连贯性，而非通用的文本连贯性。

意义与影响

AGORA 的提出标志着 LLM 智能体上下文管理技术的一个重要转折点。

首先，它揭示了当前智能体研究中一个被忽视的结构性缺陷：智能体的交互逻辑依赖于特定的语法结构，而通用 NLP 任务中的“信息密度”指标并不能准确反映智能体动作的有效性。 这一发现促使研究者重新审视针对智能体优化的上下文管理策略。

其次，AGORA 证明了轻量级、专用模型在解决特定子任务（如提示词压缩）上的巨大潜力。通过训练一个 1.25 亿参数的小模型来替代昂贵的 LLM 推理打分，既降低了延迟（~2ms/step），又消除了额外的 API 调用成本，使得实时、长程智能体交互在经济和技术上都更加可行。

最后，AGORA 的“结构化保留 + 自适应压缩”范式为后续研究提供了新的思路。未来的智能体优化工作可能需要更深入地结合环境交互的结构特性，开发更多针对动作语义、状态跟踪和决策连贯性的专用压缩或记忆机制，从而推动智能体在复杂、长周期任务中的实际应用落地。

查看原文 →arxiv.org