技术博客arXiv cs.CL·2 天前

MERIT框架：双层级长期记忆提升Text-to-SQL智能体检索能力

原标题：Learning to Retrieve: Dual-Level Long-Term Memory for Text-to-SQL Agents

速览

针对现有Text-to-SQL智能体长期记忆检索方法的局限，研究者提出MERIT动态多视界记忆检索框架。该框架维护会话级和回合级两级记忆，并利用强化学习与过程奖励模型优化检索策略。实验表明，MERIT在BIRD-Interact和Spider2-Snow基准上均优于基线方法，显著提升了交互成功率并减少了交互轮次。

AI 深度解读

Learning to Retrieve: Dual-Level Long-Term Memory for Text-to-SQL Agents 深度解读

背景

交互式 Text-to-SQL（自然语言转 SQL）智能体（Agents）旨在通过多轮交互来解决数据库任务。这一过程通常包含四个关键阶段：模式探索（Schema Exploration）、查询执行（Query Execution）、反馈解释（Feedback Interpretation）以及决策修正（Decision Revision）。

在这一复杂的多步推理过程中，长期记忆（Long-term Memory）对于智能体复用过往经验至关重要。然而，现有的检索方法存在明显的局限性：

静态方法：依赖于固定的相似度启发式规则（Fixed Similarity Heuristics），这些规则无法针对下游任务的实际效用进行优化。
动态方法：通常仅从稀疏的最终结果中学习，并且仅在单一的时间视界（Single Decision Horizon）上进行记忆检索。

这种单一维度的检索策略在处理交互式任务时显得力不从心。因为在交互的不同阶段，记忆的有效性是动态变化的：用于初始全局规划的记忆，往往与用于局部、状态条件化执行（Local, State-conditioned Execution）的记忆截然不同。现有的方法未能区分这种差异，导致经验复用的效率低下。

核心内容

为了解决上述问题，研究团队提出了 MERIT（Memory Enhanced Retrieval for Interactive Text-to-SQL），这是一个动态的多视界（Multi-horizon）记忆检索框架。MERIT 的核心创新在于将记忆检索细分为两个层级，并分别进行优化。

1. 双层级记忆架构

MERIT 将长期记忆划分为两个互补的层级，以应对不同阶段的交互需求：

Episode-level Memory（Episode 级记忆）：
- 作用：提供全局战略指导（Global Strategic Guidance）。
- 适用场景：用于任务的初始规划阶段，帮助智能体理解整体数据库结构和任务目标。
Turn-level Memory（Turn 级记忆）：
- 作用：提供局部决策支持（Local Decision Support）。
- 适用场景：用于交互过程中的具体步骤，针对当前的状态条件进行细粒度的决策修正和执行。

2. 基于强化学习的检索策略

MERIT 摒弃了传统的静态相似度匹配，转而采用学习到的检索策略（Learned Retrieval Policies）。这两个层级的记忆检索均通过强化学习（Reinforcement Learning, RL）进行优化，旨在最大化长期回报，而非仅仅匹配语义相似度。

3. 解决稀疏奖励问题：轻量级过程奖励模型

在训练 Turn-level 检索策略时，面临的主要挑战是中间监督信号有限。传统的强化学习通常依赖最终任务的成功与否作为奖励信号，这导致奖励稀疏，难以指导中间步骤的学习。

为此，MERIT 引入了一种轻量级的过程奖励模型（Process Reward Model, PRM）：

该模型为局部记忆选择提供密集的代理奖励（Dense Proxy Rewards）。
通过评估每一步记忆检索的质量，PRM 能够更精细地指导 Turn-level 检索策略的学习，从而克服稀疏奖励带来的训练困难。

4. 实验验证与结果

研究在 BIRD-Interact 基准测试上进行了广泛实验，主要发现如下：

性能提升：MERIT 在成功率（Success Rate）上显著优于无记忆（No-memory）、静态检索（Static-retrieval）和动态检索（Dynamic-retrieval）基线模型。
效率提升：在提高成功率的同时，MERIT 还减少了平均交互轮次（Average Interaction Turns），证明了其检索策略的高效性。
跨基准迁移能力：在 Spider2-Snow 基准测试上的迁移结果表明，MERIT 无需针对特定基准进行微调，即可实现积极的跨基准迁移效果（Positive Cross-benchmark Transfer）。

关键要点

双层级记忆设计：MERIT 创新性地将记忆分为 Episode-level（全局战略）和 Turn-level（局部决策），分别对应不同的交互阶段需求。
动态多视界检索：不同于单一时间视界的检索，MERIT 通过多视界框架适应交互过程中记忆有效性的动态变化。
强化学习优化：两个层级的检索策略均通过强化学习进行端到端优化，直接针对下游任务效用进行训练。
过程奖励模型（PRM）的应用：利用轻量级 PRM 提供密集的代理奖励，有效解决了 Turn-level 检索训练中中间监督信号稀疏的问题。
实证优势：在 BIRD-Interact 上，MERIT 同时实现了更高的成功率和更少的交互轮次，证明了其在准确性和效率上的双重优势。
泛化能力强：在 Spider2-Snow 上的零样本/少样本迁移实验表明，该方法具有良好的通用性，不依赖于特定基准的过拟合。

意义与影响

MERIT 的提出对交互式 Text-to-SQL 智能体领域具有重要的理论和实践意义：

重新定义记忆复用机制：传统方法往往将记忆视为静态的知识库，而 MERIT 证明了记忆的价值是情境依赖的。通过区分全局规划和局部执行所需的记忆，智能体能够更精准地调用相关信息，显著提升了复杂多步推理任务中的表现。
推动强化学习在检索中的应用：通过将强化学习引入记忆检索，并引入过程奖励模型来解决稀疏奖励问题，MERIT 为其他需要多步决策的智能体系统提供了可借鉴的训练范式。这种方法论可以扩展到代码生成、机器人控制等其他序列决策领域。
提升实际部署效率：减少平均交互轮次意味着更低的 API 调用成本和更快的响应时间，这对于 Text-to-SQL 在真实商业数据库环境中的大规模部署至关重要。
增强系统鲁棒性：跨基准测试的良好表现表明，MERIT 学到的检索策略具有更强的泛化能力，能够适应不同数据库结构和查询风格，降低了针对新场景进行大量微调的需求。

总之，MERIT 通过精细化的双层级记忆管理和先进的强化学习训练策略，解决了现有 Text-to-SQL 智能体在长期记忆利用上的瓶颈，为构建更高效、更智能的数据库交互系统指明了新方向。

查看原文 →arxiv.org