技术博客arXiv cs.CL·3 天前

ExpGraph：基于图结构记忆的LLM智能体经验学习框架

原标题：ExpGraph: Model-Agnostic Experience Learning with Graph-Structured Memory for LLM Agents

速览

ExpGraph是一种模型无关的经验学习框架，允许冻结且可替换的LLM执行器通过外部经验复用进行改进，而无需参数更新。该框架将历史轨迹总结为可复用技能和失败教训，组织成自进化经验图，并通过图扩散和效用感知排名检索有用经验。在ExpSuite基准测试中，ExpGraph在静态任务和智能体环境中均显著优于最强基线，同时减少了平均交互步骤。

AI 深度解读

ExpGraph：基于图结构记忆的模型无关型经验学习框架

背景

大型语言模型（LLM）智能体（Agents）在推理、工具使用和多步交互方面展现出了强大的能力。然而，当前的主流范式存在一个显著的局限性：大多数智能体在解决任务时往往是从零开始（from scratch），缺乏对过往成功策略或失败教训的有效复用能力。

虽然通过在收集到的经验数据上进行微调（Fine-tuning）可以提升智能体的复用能力，但这种做法存在明显的僵化问题。当出现更强或更适合特定任务的执行器（Executor）时，微调后的模型难以灵活适应，需要重新训练，这限制了系统的可扩展性和实时适应能力。

为了解决这一痛点，研究人员提出了 ExpGraph，一种模型无关（Model-Agnostic）的经验学习框架。该框架旨在让冻结参数且可替换的 LLM 执行器，通过外部经验的重用来实现性能提升，而无需对执行器本身的参数进行更新。

核心内容

ExpGraph 的核心思想是将历史交互轨迹转化为可复用的技能（Skills）和失败教训（Failure Lessons），并通过图结构进行组织和管理。其工作流程主要包含以下几个关键环节：

1. 经验的结构化与图构建

ExpGraph 将历史轨迹总结为具体的“技能”和“教训”，并将它们组织为自进化经验图（Self-evolving Experience Graph）中的节点。这种图结构不仅存储了经验内容，还隐含了经验之间的逻辑关联。

2. 基于图扩散与效用感知的检索

为了从庞大的经验库中找出对当前任务最有用的经验，ExpGraph 采用了两种核心机制：

图扩散（Graph Diffusion）：利用图结构中的连接关系，通过扩散算法传播相关性，从而发现潜在的相关经验。
效用感知排名（Utility-aware Ranking）：根据经验在当前上下文中的预期效用进行排序，优先检索高价值的经验片段。

3. 轻量级检索副驾驶的训练

ExpGraph 训练了一个轻量级的“检索副驾驶”（Retrieval Copilot）。该模型通过强化学习（Reinforcement Learning）进行优化，其反馈信号来源于对比实验：比较智能体在“使用检索到的经验”与“不使用检索到的经验”两种情况下的执行器性能差异。这种奖励机制直接引导检索模型学习如何提供最有助于提升执行效果的提示。

4. 在线更新机制

经验图并非静态不变，而是根据下游任务的结果进行在线更新（Online Update）。这意味着随着智能体在真实任务中的交互，新的成功或失败案例会不断被吸收，使经验库持续进化。

5. 模型无关性设计

ExpGraph 的关键创新在于其“模型无关”的特性。它不依赖于特定 LLM 的微调，而是通过外部经验的重用来增强任何冻结参数的 LLM 执行器。这使得用户可以随时替换或升级底层的 LLM 执行器，而无需重新训练整个系统，极大地提高了系统的灵活性和适应性。

关键要点

解决从零开始的问题：ExpGraph 旨在打破 LLM 智能体每次任务都从头开始的局限，通过复用历史经验提高效率和成功率。
无需参数更新：通过外部经验重用机制，支持冻结且可替换的 LLM 执行器，避免了频繁微调带来的计算成本和灵活性丧失。
图结构记忆：将经验组织为自进化图，利用图扩散和效用感知排名实现精准检索，比传统的向量相似度检索更能捕捉经验间的深层逻辑。
强化学习驱动的检索优化：检索副驾驶通过对比执行器性能差异进行强化学习训练，确保检索到的经验能直接转化为执行效果的提升。
广泛的评估基准：在 ExpSuite 基准上进行评估，涵盖问答、数学推理、代码生成以及多步智能体环境（如 ALFWorld 和 AppWorld）。
显著的性能提升：
- 在静态任务中，相比最强基线，使用较小执行器时提升 12.2%，使用较大执行器时提升 4.7%。
- 在智能体环境中，提升幅度分别为 21.4% 和 12.7%。
- 同时，平均交互步骤分别减少了 12.7% 和 21.6%，表明系统不仅更准确，而且更高效。
消融实验验证：实验证明，图结构化经验、效用感知排名和自适应检索三者共同作用，实现了跨不同任务和执行器模型的有效经验复用。

意义与影响

ExpGraph 的提出标志着 LLM 智能体架构从“单次推理”向“持续学习”的重要转变。

首先，它提供了一种高效的知识复用机制。传统方法依赖微调，成本高且更新慢；ExpGraph 通过外部记忆和检索，实现了低成本的即时知识注入，特别适合需要快速适应新任务或新模型的场景。

其次，模型无关性设计极大地增强了系统的工程实用性。在实际应用中，底层 LLM 技术迭代迅速，ExpGraph 允许开发者在不重构整个智能体逻辑的情况下，无缝切换或升级底层模型，同时保留历史积累的经验资产。

最后，图结构记忆的引入解决了传统检索增强生成（RAG）中缺乏结构化关联的问题。通过图扩散和效用感知，ExpGraph 能够更智能地理解经验之间的因果和逻辑关系，从而在复杂的多步推理任务中提供更精准的辅助，显著减少智能体的试错成本（交互步骤）并提高任务完成率。

这一框架为构建更智能、更高效、更具适应性的下一代 AI 智能体系统提供了新的技术路径。

查看原文 →arxiv.org