技术博客arXiv cs.AI·15 小时前

通过约束优化实现长程语言智能体的可观测安全记忆保留

原标题：Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents

速览

针对长程语言智能体上下文窗口有限的问题，研究将记忆保留建模为具有预算可行性和延迟成本的约束随机优化问题。提出的OSL-MR框架严格分离在线可观测特征与离线监督信号，结合证据学习与混合评分启发式方法。实验表明，该方法在LOCOMO和LongMemEval数据集上优于基于近期性和生成式代理的基线，尤其在记忆预算紧张时表现更佳。

AI 深度解读

Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents

背景

随着大语言模型（LLM）向长视界（Long-Horizon）智能体演进，其核心挑战之一在于如何管理无限增长的信息与有限上下文窗口之间的矛盾。长视界语言智能体在运行过程中会不断积累观察结果、推理轨迹以及检索到的事实，这些数据量往往远超模型有限的上下文窗口容量。因此，记忆保留（Memory Retention）不再仅仅是一个存储问题，而本质上是一个资源分配问题。

现有的记忆系统虽然通过启发式评分、检索优化或学习压缩等手段改进了管理效率，但它们大多将记忆保留视为一个局部决策问题。这些方法往往忽略了在现实世界的可观测性约束（Observability Constraints）下，当前保留或遗忘某个记忆片段对长期性能的深远影响。例如，过早遗忘关键事实可能导致后续任务失败，而保留过多无关信息则会占用宝贵的计算资源并引入噪声。

为了填补这一空白，研究人员提出将记忆保留形式化为一个带有显式预算可行性、证据效用以及延迟成本（包括遗漏惩罚、重新获取延迟和过时信息风险）的约束随机优化问题。

核心内容

本文提出了 OSL-MR（Observability-Safe Learning for Memory Retention，可观测性安全记忆保留学习）框架，旨在解决长视界语言智能体在有限资源下的记忆管理难题。该框架的核心创新在于严格区分了“在线可观测特征”与“离线可用监督信号”（Online-Available Supervision, OAS），并在此基础上构建了一个混合评分机制。

1. 问题建模：约束随机优化

研究团队将记忆保留建模为一个约束随机优化问题。在这个模型中，智能体需要在每一步决定保留或丢弃哪些记忆片段。优化目标不仅考虑当前的即时效用，还明确建模了长期的延迟成本：

遗漏惩罚（Miss Penalties）：当智能体在后续任务中需要某条记忆但已将其遗忘时产生的惩罚。
重新获取延迟（Reacquisition Delays）：当遗忘的记忆被重新检索时所需的时间或计算成本。
过时信息风险（Stale-Information Risk）：保留过时或不准确信息导致的性能下降风险。

2. OSL-MR 框架架构

OSL-MR 框架由两个主要部分组成，实现了在线部署与离线训练的有效解耦：

证据学习者（Evidence Learner）：这是一个基于交互数据训练的模型，用于直接学习查询条件（Query-Conditioned）下的证据价值。它利用离线可用的完整监督信号进行训练，能够评估特定记忆片段在给定查询下的长期效用。
混合评分启发式方法（Mixed-Score Heuristic）：这是一个部署在在线环境中的基线评分机制。它既作为可部署的在线安全基线（Online-Safe Baseline），确保在缺乏完整监督信号时仍能做出合理决策；又作为结构化归纳偏置（Structured Inductive Prior），为证据学习器的训练提供指导。

3. 可观测性安全分离（OAS）

OSL-MR 的关键在于其“可观测性安全”特性。在在线推理阶段，智能体无法获知未来的任务需求或完整的上下文历史（即缺乏离线监督信号）。OSL-MR 确保策略仅依赖于在线可观测的特征进行决策，同时在训练阶段利用离线数据学习更优的价值评估函数。这种分离使得学习到的策略既具备高性能，又能在严格的在线可观测性约束下安全部署。

关键要点

记忆保留的资源属性：长视界智能体的记忆管理本质上是资源分配问题，需平衡存储成本与信息效用。
长期后果建模：现有方法多关注局部决策，OSL-MR 显式建模了遗忘带来的长期延迟成本（遗漏惩罚、重获延迟、过时风险）。
OAS 分离机制：通过严格分离在线可观测特征与离线可用监督，解决了训练与部署环境不一致的问题。
混合评分的双重角色：Mixed-Score 既作为在线部署的稳健基线，又作为离线训练的结构化先验，提升了学习效率。
查询条件化的价值评估：证据学习器能够根据当前查询动态评估记忆片段的长期价值，而非仅依赖静态评分。
实验验证：在 LOCOMO 和 LongMemEval 数据集上的实验表明，OSL-MR 在严格记忆预算下，性能 consistently 优于基于近期性（Recency-based）的方法、Generative Agents 风格的评分以及其他启发式基线。
鲁棒性：敏感性分析显示，该框架在不同成本配置下均表现出良好的鲁棒性，且混合评分先验在保持召回率的同时提高了精确率。

意义与影响

OSL-MR 框架为长视界语言智能体的记忆管理提供了一种新的理论视角和技术路径。其意义主要体现在以下几个方面：

从启发式到优化驱动：传统的记忆管理多依赖经验法则（如最近优先、频率优先），而 OSL-MR 将其提升为严格的约束优化问题，使得记忆决策更加理性和可解释。
解决部署鸿沟：通过 OAS 分离机制，该框架有效弥合了离线训练（拥有全知视角）与在线部署（受限视角）之间的差距，使得复杂的强化学习或监督学习策略能够安全地应用于实时智能体系统。
提升资源效率：在有限的上下文窗口和计算资源下，OSL-MR 能够更精准地识别高价值记忆，减少无效信息的存储和检索开销，从而提升智能体的整体运行效率。
推动通用智能体发展：随着智能体在复杂、长期任务中的应用日益广泛，具备“知道该记住什么”能力的记忆机制将成为构建通用人工智能（AGI）智能体的关键组件。OSL-MR 为这一目标提供了可行的工程实现方案。

总之，这项工作不仅改进了记忆保留的技术性能，更强调了在现实约束条件下进行长期规划的重要性，为未来长视界智能体的设计奠定了重要基础。

查看原文 →arxiv.org