减少上下文反而更好:高效工程提升长程工具使用智能体性能
速览
针对企业工作流中LLM智能体因工具响应冗长导致的上下文溢出和高成本问题,研究对比了不同上下文工程策略。结果显示,保留最近5次工具交互并结合自动摘要,在Dynamics 365费用报销场景中实现了91.6%的完成率。该方案在降低96%令牌消耗的同时,显著提升了智能体的可靠性和运行效率。
AI 深度解读
Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents
背景
随着大语言模型(LLM)被广泛部署为处理企业工作流的自主智能体(Autonomous Agents),一个核心痛点日益凸显:企业级系统返回的工具响应(Tool Responses)往往冗长且包含大量非关键信息。在长周期(Long-Horizon)的任务执行中,这种冗余会导致上下文窗口溢出、状态过时错误(Stale-state errors),并显著增加推理成本。
本文聚焦于 Microsoft Dynamics 365 Finance and Operations 中的自动化费用项目分类(Automated Expense Itemization)场景,利用 Model Context Protocol (MCP) 工具进行实验。研究旨在探索如何在保持智能体性能的同时,通过高效的上下文工程(Context Engineering)来优化 token 消耗和推理效率。
核心内容
研究团队在包含 50 个任务的酒店费用基准测试上,评估了四种 GPT-5 配置的表现。所有结果均为 5 次独立运行的平均值,且在上下文工程对比中保持用户模型(User Model)恒定。
实验主要对比了以下四种上下文策略:
- 无用户模型基线(No-user-model baseline):不保留任何用户交互历史。
- 完整对话历史(Full conversation history):保留所有历史交互。
- 截断保留(Pruned context):仅保留最近 5 次工具调用/响应对。
- 自动摘要剪枝(Pruning with automated summarization):在保留近期交互的基础上,对早期历史进行自动摘要压缩。
实验结果分析:
- 基线表现:无用户模型基线的任务完成率极低,仅为 8.0% 的完整项目分类。
- 完整历史保留:保留完整上下文将完成率提升至 71.0%,但代价巨大——每个基准测试消耗 1,480,996 个 token,运行时间长达 14.56 小时。
- 近期交互剪枝:仅保留最近 5 次工具调用/响应对,完成率进一步提升至 79.0%,同时 token 消耗大幅降低至 535,274,运行时间缩短至 5.39 小时。
- 摘要剪枝(最佳方案):结合自动摘要技术,实现了最佳性能。完整项目分类率达到 91.6%,平均金额分类准确率达到 99.64%。其 token 消耗为 553,374,运行时间为 5.79 小时。
此外,研究还报告了置信区间、效应量分析、对剪枝和摘要窗口大小的敏感性分析、失败案例剖析、按类别分组(三类五类费用)的结果,以及跨模型证据(包括 Claude Sonnet 4.5 的表现)。
关键要点
- 上下文冗余是主要瓶颈:企业级工具返回的冗长响应是导致上下文溢出和高推理成本的主要原因。
- “少即是多”的上下文策略:对于长周期工具使用工作流,选择性保留最近的工具交互比保留完整历史更有效。
- 摘要技术提升性能上限:在保留近期交互的基础上,对早期历史进行自动摘要,不仅能大幅降低资源消耗,还能显著提升任务完成率(从 79.0% 提升至 91.6%)。
- 效率与可靠性兼得:最佳方案(摘要剪枝)相比完整历史保留,token 消耗减少约 63%,运行时间减少约 60%,同时任务完成率提高了 20.6 个百分点。
- 跨模型验证:该结论在 Claude Sonnet 4.5 等其他模型中也得到了证据支持,表明这是一种通用的优化策略。
- 全面评估体系:研究不仅关注准确率,还深入分析了不同费用类型、敏感性测试及失败模式,提供了严谨的实验依据。
意义与影响
本研究揭示了在构建面向企业工作流的长周期 LLM 智能体时,上下文管理策略的重要性远超以往认知。传统的“保留所有历史”策略在资源消耗和性能表现上均存在严重缺陷。
通过引入“近期交互保留 + 早期历史自动摘要”的高效上下文工程方法,企业可以在显著降低推理成本(Token 和算力)的同时,提升智能体的可靠性和任务完成率。这一发现为优化基于 MCP 等协议的企业级 AI 应用提供了重要的实践指导,证明了在复杂工作流中,精简且结构化的上下文输入是提升智能体效能的关键。
