← 返回信息流
技术博客arXiv cs.CL·23 小时前

MemSlides:分层记忆驱动个性化幻灯片生成与多轮局部修订框架

原标题:MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

速览

MemSlides提出了一种分层记忆框架,将长期记忆与短期工作记忆分离,并进一步细分为用户画像记忆和工具记忆。该框架通过作用最小影响区域的局部修订技术,实现了在多轮交互中可靠地保留和更新用户偏好。实验表明,这种机制显著提升了个性化对齐能力和闭环修改行为的有效性。

AI 深度解读

MemSlides:基于分层记忆驱动的智能体框架,实现个性化幻灯片生成与多轮局部修订

背景

在当前的 AI 辅助办公场景中,个性化演示文稿(Presentation)的生成正面临一个核心痛点:传统的生成模型往往仅依赖于当前的提示词(Prompt)或预设模板。这种“无状态”或“浅层状态”的生成方式,难以满足复杂创作流程中的深层需求。

具体而言,一个成熟的演示文稿创作 Agent 需要解决三个关键挑战:

  1. 跨任务的用户偏好一致性:Agent 必须在不同的任务轮次中保持对用户稳定偏好(Persona)的记忆。
  2. 动态约束的保留:在多轮修订(Multi-turn Revision)过程中,Agent 需要准确捕获并保留用户新引入的偏好和约束条件,而不是被之前的上下文淹没。
  3. 可靠的局部编辑能力:用户通常不希望每次修改都重新生成整个演示文稿,而是希望针对特定页面或段落进行精准调整。

现有的工作大多缺乏对“记忆”机制的系统性设计,导致在长对话或复杂修改任务中,Agent 容易遗忘早期设定或产生幻觉。为此,研究团队提出了 MemSlides,这是一个专为个性化演示文稿生成设计的分层记忆驱动 Agent 框架。

核心内容

MemSlides 的核心创新在于其分层记忆架构(Hierarchical Memory Framework)。该框架将记忆系统严格分离为长期记忆(Long-term Memory)工作记忆(Working Memory),并对长期记忆进行了进一步的细分。

1. 分层记忆架构详解

MemSlides 将记忆系统划分为以下三个核心组件:

  • 用户画像记忆(User Profile Memory)

    • 归属:长期记忆的一部分。
    • 功能:存储基于意图条件(Intent-conditioned)的用户画像。
    • 作用:负责“第 0 轮”(Round-0)的个性化初始化。它确保 Agent 在开始创作前,能够理解并内化用户的基本风格、专业背景和目标受众等稳定特征。
  • 工作记忆(Working Memory)

    • 归属:短期/会话级记忆。
    • 功能:携带活跃偏好(Active Preferences)和会话约束(Session Constraints)。
    • 作用:在多轮修订过程中,工作记忆负责维持当前对话上下文的连贯性。它记录了用户在当前会话中提出的具体修改意见、临时约束以及上下文关联信息,确保 Agent 能够“记住”上一轮对话的重点。
  • 工具记忆(Tool Memory)

    • 归属:长期记忆的一部分。
    • 功能:存储可重用的执行经验(Reusable Execution Experience)。
    • 作用:这是一种关于“如何操作”的记忆。它记录了 Agent 在过去成功执行局部编辑任务的经验,使得 Agent 在进行后续类似的局部修改时更加可靠和高效。

2. 作用域幻灯片局部修订(Scoped Slide-Local Revision)

MemSlides 不仅设计了记忆系统,还将其与局部修订机制相结合。

  • 传统痛点:大多数生成式 AI 在处理修改请求时,倾向于重新生成整个演示文稿(Full Deck Regeneration)。这不仅计算成本高,而且容易破坏已生成的、用户满意的部分内容。
  • MemSlides 方案:通过引入“作用域”概念,Agent 能够识别出受修改请求影响的最小区域(Smallest Affected Region)。
  • 执行逻辑:当用户提出修改意见时,Agent 利用工作记忆理解意图,利用工具记忆调用过往经验,仅对受影响的幻灯片或文本块进行更新,而不是推翻重来。

3. 实验验证

研究团队在受控环境中对 MemSlides 进行了评估,主要验证了三个维度的效果:

  1. 用户画像记忆的有效性:在多 persona、多意图的画像库测试中,引入用户画像记忆显著提升了 Agent 在“人格对齐”(Persona-alignment)方面的判断准确率。
  2. 工具记忆注入的效果:在诊断性的匹配对(Matched-pair)设置中,注入工具记忆显著改善了 Agent 在“闭环修改行为”(Closed-loop modify behavior)中的表现,即 Agent 能更准确地执行修改指令。
  3. 工作记忆的传递能力:定性案例(Qualitative Cases)展示了工作记忆成功将偏好从一轮传递到下一轮的能力,证明了其在多轮对话中的稳定性。

关键要点

  • 记忆分离原则:MemSlides 的核心贡献在于明确区分了持久化用户资料会话级工作记忆可重用的执行经验。这种分离避免了信息混淆,提升了生成的个性化程度和编辑的可靠性。
  • 局部修订优于全局重生成:通过作用域(Scoped)机制,Agent 能够针对最小受影响区域进行更新,解决了传统生成式 AI 在修改任务中“牵一发而动全身”的效率与质量痛点。
  • 三轮记忆协同
    • User Profile Memory 解决“我是谁/用户是谁”的初始设定问题。
    • Working Memory 解决“刚才说了什么/当前要做什么”的上下文连贯问题。
    • Tool Memory 解决“以前怎么改成功的”技能复用问题。
  • 实证支持:实验数据表明,这种分层记忆设计在 persona 对齐、修改行为准确性和偏好传递方面均优于基线方法。

意义与影响

MemSlides 的提出标志着 AI 辅助创作工具从“单次生成”向“持续协作”的重要转变。

  1. 提升创作体验的连贯性:通过工作记忆机制,Agent 不再是每次对话都“失忆”的独立个体,而是能够记住用户意图演变的合作伙伴。这对于需要反复打磨的演示文稿创作至关重要。
  2. 降低计算成本与内容损耗:局部修订(Local Revision)不仅节省了算力,更重要的是保护了用户已经认可的内容不被随机生成的噪声覆盖,提高了用户对 AI 生成结果的信任度。
  3. 为个性化 Agent 提供架构范式:MemSlides 提出的“长期-短期”双层记忆,以及将“用户画像”与“工具经验”分离的设计思路,为其他领域的个性化 Agent(如个性化写作、代码生成助手)提供了可借鉴的架构参考。
  4. 推动 AI 从“生成器”向“编辑者”进化:传统 LLM 擅长从头生成,但不擅长精细修改。MemSlides 通过工具记忆和局部作用域机制,增强了 AI 作为“编辑者”的专业能力,使其更符合专业办公场景的实际需求。

综上所述,MemSlides 通过精细化的记忆管理和局部修订技术,有效解决了个性化演示文稿生成中的稳定性、一致性和精确性问题,为下一代智能办公 Agent 的发展提供了重要的技术路径。

查看原文 →arxiv.org