技术博客arXiv cs.AI·1 天前

通用智能体必须记住什么？

原标题：What Must Generalist Agents Remember?

速览

该论文提出了通用智能体在多变环境中实现近优行为所需的记忆存储形式。研究表明，当不同领域存在观测瓶颈且最优动作冲突时，智能体必须在记忆中保留领域相关信息。此外，充足的记忆信息可用于近似重构局部转移动力学。这些发现确立了记忆作为通用智能体进行领域消歧、模型重构和规划的基础作用。

AI 深度解读

通用智能体必须记住什么？——对记忆在通用人工智能中作用的理论剖析

背景

随着大语言模型（LLM）和通用智能体（Generalist Agents）的兴起，AI 系统正从单一任务专家向能够跨领域、跨目标行动的多面手转变。然而，这种“通用性”带来了巨大的计算和存储挑战。智能体需要在不同的环境（Domains）和不同的目标（Goals）之间切换，而它无法在每次交互时都重新学习整个世界的物理规律或任务逻辑。

这就引出了一个核心的理论问题：为了实现跨环境的近最优（near-optimal）行动，智能体必须在记忆中保留什么信息？

传统的强化学习或规划方法往往假设智能体拥有完美的世界模型，或者仅依赖当前状态（Current State）进行决策。但在现实世界的复杂场景中，当前观测往往存在“信息瓶颈”（Observational Bottleneck），即当前的感官输入不足以区分不同的潜在环境或任务背景。如果智能体不能从过去的经验中提取并保留关键信息，它将无法做出正确的决策。

本文（发表于 arXiv cs.AI，2026年6月）试图从形式化（Formal）的角度回答这一问题。它不仅仅是在讨论工程上的记忆机制（如 RAG 或向量数据库），而是在探讨记忆作为智能体认知底层的数学必要性。

核心内容

本文构建了一个形式化框架，用于分析通用智能体为了在多个环境和目标下实现近最优行动，必须在记忆中存储的内容。研究主要包含两个核心定理和推论：

1. 观测瓶颈与记忆分布的分离定理（Separation Theorem）

文章首先定义了一个关键概念：观测瓶颈。当两个不同的领域（Domain A 和 Domain B）在当前的观测空间中共享相同的观测结果（即智能体看到的一样），但它们要求的最优动作却截然不同（例如，在 A 中向左走最优，在 B 中向右走最优）时，就形成了观测瓶颈。

研究证明：

如果一个智能体的策略要在所有此类领域中保持均匀的近最优性（uniformly near-optimal），那么它必须在观测瓶颈处诱导不同的记忆分布。
换句话说，仅仅依靠“当前状态观测”是不够的。如果两个环境在当前看起来一模一样，但后续最优动作不同，智能体必须通过记忆来区分它们。
这意味着，成功的通用智能体不能仅依赖当前状态观测，而必须在记忆中保留与领域相关的历史信息，以便在观测模糊时进行消歧（Disambiguation）。

2. 记忆作为过渡动力学重构的基石

文章进一步探讨了记忆与“世界模型”（World Model）或“过渡动力学”（Transition Dynamics）之间的关系。

如果智能体的记忆中包含了足够的信息，使其能够估计相关目标的值（Value Estimation），那么这种记忆可以被用来近似重构智能体的局部过渡动力学。
这意味着，记忆不仅仅是存储过去事件的仓库，它还是智能体理解“世界如何运作”的基础。通过记忆，智能体可以推断出状态转移的概率分布，从而进行规划（Planning）。

3. 记忆作为通用智能体的底层基质

综合上述结果，文章得出结论：记忆是支持通用智能体三大核心能力的基质（Substrate）：

领域消歧（Domain Disambiguation）：区分当前处于哪个潜在环境或任务背景。
过渡模型重构（Transition-Model Reconstruction）：从经验中学习或推断环境的动态变化规律。
规划（Planning）：基于对环境和目标的预测，制定长期行动策略。

关键要点

当前观测的局限性：在存在“观测瓶颈”的场景下，仅凭当前状态无法做出最优决策，因为不同的潜在环境可能产生相同的当前观测，但需要不同的行动。
记忆的必要性：为了实现跨领域的通用性，智能体必须在记忆中显式地保留能够区分不同领域（Domain-relevant）的信息。这是实现“均匀近最优策略”的数学必要条件。
记忆与价值估计的等价性：如果记忆足以支持对多个相关目标的价值评估，那么该记忆也隐含了重构环境局部动态模型（Transition Dynamics）的能力。
记忆的多重功能：记忆不仅是存储工具，更是认知基础。它同时服务于环境识别（这是哪里/哪个任务？）、模型学习（世界如何变化？）和未来规划（我该怎么做？）。
对架构设计的启示：通用智能体的架构设计不能忽视记忆机制的容量和结构。记忆必须足够丰富以捕捉领域特异性信息，且必须能够被有效地用于价值预测和模型推断。

意义与影响

这篇论文为当前大热的“通用智能体”（Generalist Agents）研究提供了重要的理论支撑，其影响主要体现在以下几个方面：

挑战“纯当前状态”决策范式：许多基于 Transformer 的 Agent 架构倾向于将历史轨迹压缩为 Prompt 或上下文窗口，这在一定程度上是经验性的。本文从理论上证明了，如果缺乏对“领域相关记忆”的显式保留，智能体在复杂多任务环境中必然会出现性能瓶颈。这解释了为什么简单的上下文学习（In-Context Learning）在处理高度相似但动作冲突的任务时会失败。
重新定义“世界模型”与“记忆”的关系：传统上，世界模型（World Model）和记忆（Memory）常被分开讨论。本文指出，记忆是世界模型重构的基础。这意味着，构建强大的世界模型不应仅依赖实时感知，而应依赖于对历史记忆的高效编码和提取。这为结合 RAG（检索增强生成）与强化学习提供了理论依据：RAG 本质上是利用外部记忆来辅助内部模型的重构和消歧。
指导 Agent 架构设计：对于构建像 Google 的 Gemini、Anthropic 的 Claude 或 OpenAI 的 GPT 系列等通用模型背后的 Agent 系统，本文提示开发者：
- 记忆机制需要具备结构化区分能力，而不仅仅是向量相似度搜索。
- 需要设计专门的机制来确保在观测模糊时，记忆能激活正确的“领域先验”。
- 评估 Agent 性能时，应考察其记忆是否足以支持跨任务的价值迁移和动力学推断。
为 AGI 的认知架构提供线索：从认知科学角度看，人类之所以能应对复杂多变的环境，是因为我们拥有长期记忆，能够区分相似场景下的不同规则。本文的形式化结果暗示，通用人工智能（AGI）的核心难点之一，可能不在于计算能力，而在于如何构建一种能够在信息压缩（效率）和信息保留（准确性）之间取得平衡的记忆机制。

总之，这篇文章提醒我们，在追求 Agent 的“通用性”时，不能忽视“记忆”这一认知基石。没有合适的记忆机制，智能体就无法真正理解环境，也无法进行有效的长期规划。

查看原文 →arxiv.org