微软Memora推出谐波记忆表示,平衡抽象与具体性
速览
Memora是微软研究提出的谐波记忆表示框架,主要用于提升AI代理在长期任务中的生产力。 该框架通过分离存储内容与检索机制,实现高效组织记忆。 它在长对话基准上取得SOTA性能,相比全上下文处理可节省高达98%的token消耗。 这一创新为构建更智能的AI代理提供了新思路。
AI 深度解读
背景
现代大型语言模型(LLMs)拥有强大的推理能力,但本质上是无状态的。每次对话从零开始,漫长的对话历史需要模型反复重新阅读全部内容,新信息要么作为原始文本片段存储(碎片化且容易出现噪声),要么压缩成模糊的摘要(精确细节易丢失)。这在长时段任务中成为瓶颈,例如跟踪数月项目的研究代理或构建长期领域专长的自主代理。
现有内存系统(如Mem0提取原子事实、RAG索引原始文本片段、Zep和GraphRAG通过实体关系施加结构)均存在内在权衡:要么保留细节但碎片化,要么压缩摘要但丢失精确信息。Memora旨在解决这一核心问题,提供同时兼顾抽象和具体性的记忆系统。
核心内容
Memora 是一个专为长时段AI代理设计的智能记忆框架。其核心洞见在于将存储内容与检索方式彻底解耦:存储的内容可以保持丰富而富有表达力(例如项目时间线、多轮对话中的约束讨论),而检索则通过一个轻量级的结构层完成。结果是一个可扩展的记忆系统,它将相关信息整合为稳定单元,在需要时浮现细粒度细节,并允许代理在自身历史中导航,而无需重复阅读全部内容。
在标准长对话基准测试中,Memora 实现了新的最优性能,同时使用比全上下文推断少高达98%的上下文令牌。
为什么这很难:抽象–具体性的张力
现有记忆系统分为两个极端:
- 内容碎片化系统(如RAG和Mem0):直接嵌入提取的事实或文本片段。这保留了细节,但产生了脆弱、孤立的条目,丧失了叙事连贯性。
- 粗略抽象系统:将经验压缩为紧凑摘要。虽然效率高,但摘要过程剥夺了约束、边缘情况和数值细节,这些细节才是记忆真正有用的核心。
- 基于图的系统:在内容之上添加结构,但仍依赖内容本身进行检索,并且通常需要刚性的本体架构,不跨领域泛化。
Memora 通过“谐波组织”解决了这一张力。每个记忆条目包含两个组件:
- 主要抽象(primary abstraction):一个短语(6–8个词),精确捕捉该记忆的根本主题。只对这个抽象进行嵌入用于相似度搜索,而其值(rich content)本身永远不会被直接通过内容检索。
- 记忆值:保存原始丰富内容。
这种分离机制意味着,当新信息出现关于某个演化主题时,它会与现有条目合并到同一个主要抽象下,而不会碎片化为一系列部分重复的条目。
此外,每个记忆值会提取短的、上下文感知的标签(cue anchors),作为备选访问路径。这些标签作为灵活、有机生成的元数据工作。
具体例子:用户说“Dave 和 Sarah 同意将原型推迟到4月1日,试点推迟到5月2日,MVP推迟到5月30日”。知识图系统需要预定义的实体类型和关系模式(Person → agreed_on → Milestone → has_date → Date),任何新增关系模式都需扩展架构。而在Memora中,主要抽象“Updated Project Orion timeline agreed by Dave and Sarah”作为规范访问点,而cue anchors如“Dave Project Orion update”、“Project Orion prototype schedule”、“Project Orion pilot timeline”提供替代检索路径——无需预定义本体。后续查询关于Dave的近期贡献、原型时间表或试点时间,都可以通过不同cue路由到同一个底层记忆,完整细节则保存在记忆值中。
在这一表示之上,Memora引入了策略引导的检索器,将记忆访问视为主动推理过程,而非一次性返回top-k语义相似项。策略检索器会迭代优化查询、通过cue anchors扩展搜索相关但不完全相似的记忆,并决定何时停止。这让代理能够导航到纯语义搜索可能遗漏的多跳相关上下文,就像人类回忆连贯事件时那样。
检索策略既可以通过强LLM手动提示生成,也可以通过强化学习蒸馏为更小的模型。
Memora已在两个长上下文基准上进行评估:LoCoMo(对话平均600轮)和LongMemEval(上下文115,000令牌)。在两个基准上均获得新的最优性能——LoCoMo的LLM评判准确率86.3%,LongMemEval的87.4%——优于RAG、Mem0、Nemori、Zep、LangMem,甚至全上下文推断。多跳推理差距尤为显著,因为Memora通过cue anchors遍历的能力带来了最大收益。效率方面,Memora每对话存储的记忆条目约为Mem0的一半(344 vs. 651),并将令牌消耗降低高达98%相对于全上下文推断。
关键要点
- Memora通过将存储的丰富记忆内容与检索的轻量级抽象(主要抽象)和cue anchors解耦,实现长期代理的规模化记忆。
- 主要抽象(6–8词短语)仅用于嵌入检索,记忆值保存完整细节,新信息可统一合并至同一抽象,避免碎片化。
- Cue anchors作为有机生成的上下文感知标签,提供灵活的备选访问路径,无需预定义本体。
- 策略引导的检索器将检索视为主动推理:迭代优化查询、扩展cue anchors、多跳导航、决定停止时机。
- 在LoCoMo和LongMemEval基准上均创SOTA,LLM评判准确率86.3%和87.4%,优于RAG、Mem0、Zep及全上下文,效率提升98%减少令牌消耗。
- 设计超越基准,旨在支持AI代理与用户长期协作、积累组织知识(数月至数年)。
意义与影响
Memora的出现标志着AI记忆系统从“短期会话”向“长期自主代理”迈进,为多月项目协作者、研究代理等长时段部署提供了实用解决方案。它不仅在效率上大幅节省上下文令牌(98%),还通过谐波组织和策略检索器提升了多跳推理能力,直接解决了现有系统在抽象与具体性之间的根本张力。
这一突破为未来AI代理的长期协作和组织知识积累打开了新空间。论文已于ICML 2026发表,代码已开源(https://github.com/microsoft/Memora)。在微软研究院的贡献下,Memora标志着记忆技术从碎片化向可扩展、自我导航的成熟系统转型,其影响将延伸至商业 copilots、研究代理和企业级AI部署。
