技术博客arXiv cs.CL·23 小时前

MemSlides：分层记忆驱动个性化幻灯片生成与多轮局部修订框架

原标题：MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

速览

MemSlides提出了一种分层记忆框架，将长期记忆与短期工作记忆分离，并进一步细分为用户画像记忆和工具记忆。该框架通过作用最小影响区域的局部修订技术，实现了在多轮交互中可靠地保留和更新用户偏好。实验表明，这种机制显著提升了个性化对齐能力和闭环修改行为的有效性。

在当前的 AI 辅助办公场景中，个性化演示文稿（Presentation）的生成正面临一个核心痛点：传统的生成模型往往仅依赖于当前的提示词（Prompt）或预设模板。这种“无状态”或“浅层状态”的生成方式，难以满足复杂创作流程中的深层需求。

具体而言，一个成熟的演示文稿创作 Agent 需要解决三个关键挑战：

跨任务的用户偏好一致性：Agent 必须在不同的任务轮次中保持对用户稳定偏好（Persona）的记忆。
动态约束的保留：在多轮修订（Multi-turn Revision）过程中，Agent 需要准确捕获并保留用户新引入的偏好和约束条件，而不是被之前的上下文淹没。
可靠的局部编辑能力：用户通常不希望每次修改都重新生成整个演示文稿，而是希望针对特定页面或段落进行精准调整。

现有的工作大多缺乏对“记忆”机制的系统性设计，导致在长对话或复杂修改任务中，Agent 容易遗忘早期设定或产生幻觉。为此，研究团队提出了 MemSlides，这是一个专为个性化演示文稿生成设计的分层记忆驱动 Agent 框架。

MemSlides 的核心创新在于其分层记忆架构（Hierarchical Memory Framework）。该框架将记忆系统严格分离为长期记忆（Long-term Memory）和工作记忆（Working Memory），并对长期记忆进行了进一步的细分。

MemSlides 将记忆系统划分为以下三个核心组件：

用户画像记忆（User Profile Memory）：
- 归属：长期记忆的一部分。
- 功能：存储基于意图条件（Intent-conditioned）的用户画像。
- 作用：负责“第 0 轮”（Round-0）的个性化初始化。它确保 Agent 在开始创作前，能够理解并内化用户的基本风格、专业背景和目标受众等稳定特征。
工作记忆（Working Memory）：
- 归属：短期/会话级记忆。
- 功能：携带活跃偏好（Active Preferences）和会话约束（Session Constraints）。
- 作用：在多轮修订过程中，工作记忆负责维持当前对话上下文的连贯性。它记录了用户在当前会话中提出的具体修改意见、临时约束以及上下文关联信息，确保 Agent 能够“记住”上一轮对话的重点。
工具记忆（Tool Memory）：
- 归属：长期记忆的一部分。
- 功能：存储可重用的执行经验（Reusable Execution Experience）。
- 作用：这是一种关于“如何操作”的记忆。它记录了 Agent 在过去成功执行局部编辑任务的经验，使得 Agent 在进行后续类似的局部修改时更加可靠和高效。

MemSlides 不仅设计了记忆系统，还将其与局部修订机制相结合。

传统痛点：大多数生成式 AI 在处理修改请求时，倾向于重新生成整个演示文稿（Full Deck Regeneration）。这不仅计算成本高，而且容易破坏已生成的、用户满意的部分内容。
MemSlides 方案：通过引入“作用域”概念，Agent 能够识别出受修改请求影响的最小区域（Smallest Affected Region）。
执行逻辑：当用户提出修改意见时，Agent 利用工作记忆理解意图，利用工具记忆调用过往经验，仅对受影响的幻灯片或文本块进行更新，而不是推翻重来。

研究团队在受控环境中对 MemSlides 进行了评估，主要验证了三个维度的效果：

用户画像记忆的有效性：在多 persona、多意图的画像库测试中，引入用户画像记忆显著提升了 Agent 在“人格对齐”（Persona-alignment）方面的判断准确率。
工具记忆注入的效果：在诊断性的匹配对（Matched-pair）设置中，注入工具记忆显著改善了 Agent 在“闭环修改行为”（Closed-loop modify behavior）中的表现，即 Agent 能更准确地执行修改指令。
工作记忆的传递能力：定性案例（Qualitative Cases）展示了工作记忆成功将偏好从一轮传递到下一轮的能力，证明了其在多轮对话中的稳定性。

记忆分离原则：MemSlides 的核心贡献在于明确区分了持久化用户资料、会话级工作记忆和可重用的执行经验。这种分离避免了信息混淆，提升了生成的个性化程度和编辑的可靠性。
局部修订优于全局重生成：通过作用域（Scoped）机制，Agent 能够针对最小受影响区域进行更新，解决了传统生成式 AI 在修改任务中“牵一发而动全身”的效率与质量痛点。
三轮记忆协同：
- User Profile Memory 解决“我是谁/用户是谁”的初始设定问题。
- Working Memory 解决“刚才说了什么/当前要做什么”的上下文连贯问题。
- Tool Memory 解决“以前怎么改成功的”技能复用问题。
实证支持：实验数据表明，这种分层记忆设计在 persona 对齐、修改行为准确性和偏好传递方面均优于基线方法。

MemSlides 的提出标志着 AI 辅助创作工具从“单次生成”向“持续协作”的重要转变。

提升创作体验的连贯性：通过工作记忆机制，Agent 不再是每次对话都“失忆”的独立个体，而是能够记住用户意图演变的合作伙伴。这对于需要反复打磨的演示文稿创作至关重要。
降低计算成本与内容损耗：局部修订（Local Revision）不仅节省了算力，更重要的是保护了用户已经认可的内容不被随机生成的噪声覆盖，提高了用户对 AI 生成结果的信任度。
为个性化 Agent 提供架构范式：MemSlides 提出的“长期-短期”双层记忆，以及将“用户画像”与“工具经验”分离的设计思路，为其他领域的个性化 Agent（如个性化写作、代码生成助手）提供了可借鉴的架构参考。
推动 AI 从“生成器”向“编辑者”进化：传统 LLM 擅长从头生成，但不擅长精细修改。MemSlides 通过工具记忆和局部作用域机制，增强了 AI 作为“编辑者”的专业能力，使其更符合专业办公场景的实际需求。

综上所述，MemSlides 通过精细化的记忆管理和局部修订技术，有效解决了个性化演示文稿生成中的稳定性、一致性和精确性问题，为下一代智能办公 Agent 的发展提供了重要的技术路径。