技术博客arXiv cs.AI·3 小时前

HORMA：分层记忆导航提升智能体长程任务效率

原标题：Organize then Retrieve: Hierarchical Memory Navigation for Efficient Agents

速览

针对大语言模型智能体在处理长程任务时面临的上下文膨胀和推理质量下降问题，研究者提出HORMA（分层组织与检索记忆智能体）。该方法将经验组织为类似文件系统的分层结构，通过强化学习驱动的导航模块高效检索关键上下文，避免信息丢失。实验表明，HORMA在ALFWorld等基准测试中显著提升了任务性能，同时将长对话任务的Token使用量降低至基线的22.17%。

AI 深度解读

Organize then Retrieve: Hierarchical Memory Navigation for Efficient Agents

背景

大型语言模型（LLM）智能体在应对长周期（long-horizon）任务时，面临着根本性的架构挑战。由于 LLM 本质上是无状态的（stateless），智能体必须将所有与任务相关的信息编码在日益增长的输入上下文中。随着对话轮次和任务复杂度的增加，这种依赖导致了一系列严重问题：

推理质量下降：上下文窗口过长会稀释关键信息，导致模型注意力分散，推理能力退化。
推理成本激增：处理长上下文需要消耗大量的计算资源，显著增加了 Token 使用量和经济成本。
延迟增加：长上下文的处理时间直接影响了智能体的响应速度，特别是在需要实时交互的场景中。

为了解决这些问题，现有的工作主要依赖于两种机制：有损压缩（lossy compression）或基于相似性的检索（similarity-based retrieval）。然而，这两种方法往往存在局限性：

有损压缩可能会丢失关键的细节信息。
基于相似性的检索通常难以捕捉多步智能体任务所必需的时间结构（temporal structure）和因果依赖关系（causal dependencies）。

因此，业界亟需一种既能高效管理工作记忆，又能保留完整细节和逻辑结构的机制。

核心内容

本文提出了 HORMA（Hierarchical Organize-and-Retrieve Memory Agent，分层组织与检索记忆智能体）。HORMA 的核心思想是“先组织，后检索”（Organize then Retrieve），通过将经验数据组织成类似文件系统的分层结构，实现了高效的信息访问，同时避免了详细信息的丢失。

HORMA 将工作记忆分解为两个主要阶段：结构化记忆构建和基于导航的检索。

1. 结构化记忆构建（Structured Memory Construction）

这一阶段负责将智能体的交互经验转化为层次化的记忆结构。

文件系统式结构：HORMA 将经验组织成树状或层级结构，类似于计算机的文件系统。高层节点包含摘要实体（summarized entities），低层节点链接到对应的原始轨迹（raw trajectories）。这种设计允许智能体在不加载全部原始数据的情况下，快速浏览高层摘要，并在需要时深入查看细节。
迭代优化机制：构建模块并非静态，而是通过迭代方式不断优化经验的组织方式。它特别关注区分两类失败原因：
- 信息缺失导致的失败：即智能体因为缺乏必要信息而无法完成任务。
- 上下文误导或过载导致的失败：即智能体因为被无关或过多的信息干扰而做出错误判断。通过区分这两类失败，HORMA 能够动态调整记忆的粒度，确保关键信息被突出，而噪声信息被适当隔离或压缩。

2. 基于导航的检索（Navigation-based Retrieval）

这一阶段负责在构建好的记忆结构中，精准地提取任务相关的上下文。

轻量级导航智能体：HORMA 训练了一个轻量级的智能体（agent）来执行导航任务。该智能体通过遍历分层结构，决定哪些节点需要被加载到当前上下文中。
强化学习训练：导航智能体使用强化学习（Reinforcement Learning）进行训练，其目标是选择“最小但充分”（minimal yet sufficient）的上下文。这意味着它不仅要找到相关信息，还要尽可能减少无关信息的引入，从而降低延迟。
关键路径优化：通过这种导航机制，HORMA 能够显著减少执行关键任务路径上的延迟，因为智能体不再需要处理整个庞大的历史上下文，而是只加载当前步骤所需的最少信息。

关键要点

分层记忆架构：HORMA 采用类似文件系统的层级结构，将摘要与原始轨迹链接，实现了信息的高效索引与细节保留。
双阶段工作记忆：明确区分了“记忆构建”和“记忆检索”两个阶段，前者负责结构化经验，后者负责按需提取。
失败归因驱动优化：构建模块能够区分“信息缺失”和“上下文过载”导致的失败，并据此优化记忆结构，这是其优于简单压缩或检索方法的关键。
RL 驱动的精准检索：使用强化学习训练的轻量级智能体进行导航，确保检索到的上下文既最小化又充分化，从而平衡性能与效率。
显著的效率提升：在长对话任务中，HORMA 的 Token 使用量最多仅为基线方法的 22.17%，同时保持了任务性能的提升。
广泛的适用性：在 ALFWorld、LoCoMo 和 LongMemEval 等多个基准测试中，HORMA 在受限的上下文预算下均表现出优于现有方法的效果，并能有效泛化到未见过的任务中。

意义与影响

HORMA 的提出为解决 LLM 智能体在长周期任务中的可扩展性问题提供了新的思路。其意义主要体现在以下几个方面：

突破了上下文窗口的限制：通过分层组织和按需检索，HORMA 使得智能体能够处理远超当前上下文窗口限制的任务，而无需无限扩大模型输入。
优化了成本与性能的权衡：大幅降低的 Token 消耗（最高减少近 80%）意味着更低的推理成本和更快的响应速度，这对于大规模部署智能体应用至关重要。
增强了智能体的逻辑连贯性：通过保留时间结构和因果依赖，HORMA 帮助智能体在多步任务中保持更好的逻辑一致性，减少了因信息丢失或噪声干扰导致的错误。
推动了记忆机制的研究方向：HORMA 证明了将结构化数据管理思想（如文件系统）引入 AI 记忆机制的有效性，为后续研究提供了新的范式，即从单纯的“检索”转向“组织+导航”的复合机制。

总之，HORMA 不仅在技术指标上取得了显著进步，更在方法论上为构建高效、可靠且可扩展的 LLM 智能体提供了重要的参考。

查看原文 →arxiv.org