← 返回信息流
技术博客arXiv cs.CL·2 天前

MERIT框架:双层级长期记忆提升Text-to-SQL智能体检索能力

原标题:Learning to Retrieve: Dual-Level Long-Term Memory for Text-to-SQL Agents

速览

针对现有Text-to-SQL智能体长期记忆检索方法的局限,研究者提出MERIT动态多视界记忆检索框架。该框架维护会话级和回合级两级记忆,并利用强化学习与过程奖励模型优化检索策略。实验表明,MERIT在BIRD-Interact和Spider2-Snow基准上均优于基线方法,显著提升了交互成功率并减少了交互轮次。

AI 深度解读

Learning to Retrieve: Dual-Level Long-Term Memory for Text-to-SQL Agents 深度解读

背景

交互式 Text-to-SQL(自然语言转 SQL)智能体(Agents)旨在通过多轮交互来解决数据库任务。这一过程通常包含四个关键阶段:模式探索(Schema Exploration)、查询执行(Query Execution)、反馈解释(Feedback Interpretation)以及决策修正(Decision Revision)。

在这一复杂的多步推理过程中,长期记忆(Long-term Memory)对于智能体复用过往经验至关重要。然而,现有的检索方法存在明显的局限性:

  1. 静态方法:依赖于固定的相似度启发式规则(Fixed Similarity Heuristics),这些规则无法针对下游任务的实际效用进行优化。
  2. 动态方法:通常仅从稀疏的最终结果中学习,并且仅在单一的时间视界(Single Decision Horizon)上进行记忆检索。

这种单一维度的检索策略在处理交互式任务时显得力不从心。因为在交互的不同阶段,记忆的有效性是动态变化的:用于初始全局规划的记忆,往往与用于局部、状态条件化执行(Local, State-conditioned Execution)的记忆截然不同。现有的方法未能区分这种差异,导致经验复用的效率低下。

核心内容

为了解决上述问题,研究团队提出了 MERIT(Memory Enhanced Retrieval for Interactive Text-to-SQL),这是一个动态的多视界(Multi-horizon)记忆检索框架。MERIT 的核心创新在于将记忆检索细分为两个层级,并分别进行优化。

1. 双层级记忆架构

MERIT 将长期记忆划分为两个互补的层级,以应对不同阶段的交互需求:

  • Episode-level Memory(Episode 级记忆)
    • 作用:提供全局战略指导(Global Strategic Guidance)。
    • 适用场景:用于任务的初始规划阶段,帮助智能体理解整体数据库结构和任务目标。
  • Turn-level Memory(Turn 级记忆)
    • 作用:提供局部决策支持(Local Decision Support)。
    • 适用场景:用于交互过程中的具体步骤,针对当前的状态条件进行细粒度的决策修正和执行。

2. 基于强化学习的检索策略

MERIT 摒弃了传统的静态相似度匹配,转而采用学习到的检索策略(Learned Retrieval Policies)。这两个层级的记忆检索均通过强化学习(Reinforcement Learning, RL)进行优化,旨在最大化长期回报,而非仅仅匹配语义相似度。

3. 解决稀疏奖励问题:轻量级过程奖励模型

在训练 Turn-level 检索策略时,面临的主要挑战是中间监督信号有限。传统的强化学习通常依赖最终任务的成功与否作为奖励信号,这导致奖励稀疏,难以指导中间步骤的学习。

为此,MERIT 引入了一种轻量级的过程奖励模型(Process Reward Model, PRM)

  • 该模型为局部记忆选择提供密集的代理奖励(Dense Proxy Rewards)。
  • 通过评估每一步记忆检索的质量,PRM 能够更精细地指导 Turn-level 检索策略的学习,从而克服稀疏奖励带来的训练困难。

4. 实验验证与结果

研究在 BIRD-Interact 基准测试上进行了广泛实验,主要发现如下:

  • 性能提升:MERIT 在成功率(Success Rate)上显著优于无记忆(No-memory)、静态检索(Static-retrieval)和动态检索(Dynamic-retrieval)基线模型。
  • 效率提升:在提高成功率的同时,MERIT 还减少了平均交互轮次(Average Interaction Turns),证明了其检索策略的高效性。
  • 跨基准迁移能力:在 Spider2-Snow 基准测试上的迁移结果表明,MERIT 无需针对特定基准进行微调,即可实现积极的跨基准迁移效果(Positive Cross-benchmark Transfer)。

关键要点

  • 双层级记忆设计:MERIT 创新性地将记忆分为 Episode-level(全局战略)和 Turn-level(局部决策),分别对应不同的交互阶段需求。
  • 动态多视界检索:不同于单一时间视界的检索,MERIT 通过多视界框架适应交互过程中记忆有效性的动态变化。
  • 强化学习优化:两个层级的检索策略均通过强化学习进行端到端优化,直接针对下游任务效用进行训练。
  • 过程奖励模型(PRM)的应用:利用轻量级 PRM 提供密集的代理奖励,有效解决了 Turn-level 检索训练中中间监督信号稀疏的问题。
  • 实证优势:在 BIRD-Interact 上,MERIT 同时实现了更高的成功率和更少的交互轮次,证明了其在准确性和效率上的双重优势。
  • 泛化能力强:在 Spider2-Snow 上的零样本/少样本迁移实验表明,该方法具有良好的通用性,不依赖于特定基准的过拟合。

意义与影响

MERIT 的提出对交互式 Text-to-SQL 智能体领域具有重要的理论和实践意义:

  1. 重新定义记忆复用机制:传统方法往往将记忆视为静态的知识库,而 MERIT 证明了记忆的价值是情境依赖的。通过区分全局规划和局部执行所需的记忆,智能体能够更精准地调用相关信息,显著提升了复杂多步推理任务中的表现。
  2. 推动强化学习在检索中的应用:通过将强化学习引入记忆检索,并引入过程奖励模型来解决稀疏奖励问题,MERIT 为其他需要多步决策的智能体系统提供了可借鉴的训练范式。这种方法论可以扩展到代码生成、机器人控制等其他序列决策领域。
  3. 提升实际部署效率:减少平均交互轮次意味着更低的 API 调用成本和更快的响应时间,这对于 Text-to-SQL 在真实商业数据库环境中的大规模部署至关重要。
  4. 增强系统鲁棒性:跨基准测试的良好表现表明,MERIT 学到的检索策略具有更强的泛化能力,能够适应不同数据库结构和查询风格,降低了针对新场景进行大量微调的需求。

总之,MERIT 通过精细化的双层级记忆管理和先进的强化学习训练策略,解决了现有 Text-to-SQL 智能体在长期记忆利用上的瓶颈,为构建更高效、更智能的数据库交互系统指明了新方向。

查看原文 →arxiv.org