AI 资讯Hacker News·3 天前

微软Memora推出谐波记忆表示，平衡抽象与具体性

原标题：Memora: A Harmonic Memory Representation Balancing Abstraction and Specificity

速览

Memora是微软研究提出的谐波记忆表示框架，主要用于提升AI代理在长期任务中的生产力。该框架通过分离存储内容与检索机制，实现高效组织记忆。它在长对话基准上取得SOTA性能，相比全上下文处理可节省高达98%的token消耗。这一创新为构建更智能的AI代理提供了新思路。

AI 深度解读

背景

现代大型语言模型（LLMs）拥有强大的推理能力，但本质上是无状态的。每次对话从零开始，漫长的对话历史需要模型反复重新阅读全部内容，新信息要么作为原始文本片段存储（碎片化且容易出现噪声），要么压缩成模糊的摘要（精确细节易丢失）。这在长时段任务中成为瓶颈，例如跟踪数月项目的研究代理或构建长期领域专长的自主代理。

现有内存系统（如Mem0提取原子事实、RAG索引原始文本片段、Zep和GraphRAG通过实体关系施加结构）均存在内在权衡：要么保留细节但碎片化，要么压缩摘要但丢失精确信息。Memora旨在解决这一核心问题，提供同时兼顾抽象和具体性的记忆系统。

核心内容

Memora 是一个专为长时段AI代理设计的智能记忆框架。其核心洞见在于将存储内容与检索方式彻底解耦：存储的内容可以保持丰富而富有表达力（例如项目时间线、多轮对话中的约束讨论），而检索则通过一个轻量级的结构层完成。结果是一个可扩展的记忆系统，它将相关信息整合为稳定单元，在需要时浮现细粒度细节，并允许代理在自身历史中导航，而无需重复阅读全部内容。

在标准长对话基准测试中，Memora 实现了新的最优性能，同时使用比全上下文推断少高达98%的上下文令牌。

为什么这很难：抽象–具体性的张力

现有记忆系统分为两个极端：

内容碎片化系统（如RAG和Mem0）：直接嵌入提取的事实或文本片段。这保留了细节，但产生了脆弱、孤立的条目，丧失了叙事连贯性。
粗略抽象系统：将经验压缩为紧凑摘要。虽然效率高，但摘要过程剥夺了约束、边缘情况和数值细节，这些细节才是记忆真正有用的核心。
基于图的系统：在内容之上添加结构，但仍依赖内容本身进行检索，并且通常需要刚性的本体架构，不跨领域泛化。

Memora 通过“谐波组织”解决了这一张力。每个记忆条目包含两个组件：

主要抽象（primary abstraction）：一个短语（6–8个词），精确捕捉该记忆的根本主题。只对这个抽象进行嵌入用于相似度搜索，而其值（rich content）本身永远不会被直接通过内容检索。
记忆值：保存原始丰富内容。

这种分离机制意味着，当新信息出现关于某个演化主题时，它会与现有条目合并到同一个主要抽象下，而不会碎片化为一系列部分重复的条目。

此外，每个记忆值会提取短的、上下文感知的标签（cue anchors），作为备选访问路径。这些标签作为灵活、有机生成的元数据工作。

具体例子：用户说“Dave 和 Sarah 同意将原型推迟到4月1日，试点推迟到5月2日，MVP推迟到5月30日”。知识图系统需要预定义的实体类型和关系模式（Person → agreed_on → Milestone → has_date → Date），任何新增关系模式都需扩展架构。而在Memora中，主要抽象“Updated Project Orion timeline agreed by Dave and Sarah”作为规范访问点，而cue anchors如“Dave Project Orion update”、“Project Orion prototype schedule”、“Project Orion pilot timeline”提供替代检索路径——无需预定义本体。后续查询关于Dave的近期贡献、原型时间表或试点时间，都可以通过不同cue路由到同一个底层记忆，完整细节则保存在记忆值中。

在这一表示之上，Memora引入了策略引导的检索器，将记忆访问视为主动推理过程，而非一次性返回top-k语义相似项。策略检索器会迭代优化查询、通过cue anchors扩展搜索相关但不完全相似的记忆，并决定何时停止。这让代理能够导航到纯语义搜索可能遗漏的多跳相关上下文，就像人类回忆连贯事件时那样。

检索策略既可以通过强LLM手动提示生成，也可以通过强化学习蒸馏为更小的模型。

Memora已在两个长上下文基准上进行评估：LoCoMo（对话平均600轮）和LongMemEval（上下文115,000令牌）。在两个基准上均获得新的最优性能——LoCoMo的LLM评判准确率86.3%，LongMemEval的87.4%——优于RAG、Mem0、Nemori、Zep、LangMem，甚至全上下文推断。多跳推理差距尤为显著，因为Memora通过cue anchors遍历的能力带来了最大收益。效率方面，Memora每对话存储的记忆条目约为Mem0的一半（344 vs. 651），并将令牌消耗降低高达98%相对于全上下文推断。

关键要点

Memora通过将存储的丰富记忆内容与检索的轻量级抽象（主要抽象）和cue anchors解耦，实现长期代理的规模化记忆。
主要抽象（6–8词短语）仅用于嵌入检索，记忆值保存完整细节，新信息可统一合并至同一抽象，避免碎片化。
Cue anchors作为有机生成的上下文感知标签，提供灵活的备选访问路径，无需预定义本体。
策略引导的检索器将检索视为主动推理：迭代优化查询、扩展cue anchors、多跳导航、决定停止时机。
在LoCoMo和LongMemEval基准上均创SOTA，LLM评判准确率86.3%和87.4%，优于RAG、Mem0、Zep及全上下文，效率提升98%减少令牌消耗。
设计超越基准，旨在支持AI代理与用户长期协作、积累组织知识（数月至数年）。

意义与影响

Memora的出现标志着AI记忆系统从“短期会话”向“长期自主代理”迈进，为多月项目协作者、研究代理等长时段部署提供了实用解决方案。它不仅在效率上大幅节省上下文令牌（98%），还通过谐波组织和策略检索器提升了多跳推理能力，直接解决了现有系统在抽象与具体性之间的根本张力。

这一突破为未来AI代理的长期协作和组织知识积累打开了新空间。论文已于ICML 2026发表，代码已开源（https://github.com/microsoft/Memora）。在微软研究院的贡献下，Memora标志着记忆技术从碎片化向可扩展、自我导航的成熟系统转型，其影响将延伸至商业 copilots、研究代理和企业级AI部署。

查看原文 →microsoft.com