技术博客arXiv cs.CL·2 小时前

Progress-SQL：渐进式奖励强化学习提升Text-to-SQL性能

原标题：Progress-SQL: Improving Reinforcement Learning for Text-to-SQL via Progressive Rewards

速览

针对现有强化学习方法在Text-to-SQL任务中奖励信号稀疏的问题，研究提出Progress-SQL多轮强化学习框架。该方法引入Oracle-guided Diagnostic Tree进行结构对齐，并定义渐进式奖励以衡量SQL修正过程中的改进。实验表明，该方法在BIRD和Spider等基准测试中均显著提升了生成性能。

AI 深度解读

Progress-SQL：通过渐进式奖励改进 Text-to-SQL 的强化学习

背景

Text-to-SQL（自然语言转 SQL）任务旨在将用户的自然语言查询自动转换为可执行的 SQL 语句，是数据库交互中的核心难题。近年来，强化学习（Reinforcement Learning, RL）在提升大型语言模型（LLM）生成 SQL 的能力方面展现出了巨大潜力。

然而，现有的强化学习方法主要存在一个关键缺陷：它们通常基于**单次状态（single SQL state）定义的一次性奖励（one-shot rewards）**进行优化。这种机制存在以下局限性：

指导有限：对于迭代式的 SQL 修正过程，一次性奖励提供的反馈信号过于稀疏，无法有效引导模型在每一步的改进方向。
捕捉不足：它难以充分捕捉多轮 SQL 精炼过程中的渐进式改进，导致模型在复杂查询或错误恢复场景中表现不佳。

为了解决这一问题，研究者提出了 Progress-SQL 框架，旨在通过引入**渐进式奖励（progressive rewards）**机制，优化多轮强化学习过程，从而提升 Text-to-SQL 的整体性能。

核心内容

Progress-SQL 是一个专为 Text-to-SQL 设计的多轮强化学习框架。其核心创新在于构建了一套能够衡量“进步”的奖励机制，而非仅仅评估最终结果。具体技术细节如下：

1. 基于 Oracle 的诊断树（Oracle-guided Diagnostic Tree, ODT）

为了提供细粒度的反馈，该方法引入了 ODT 机制：

结构化抽象：ODT 将 SQL 查询抽象为**子句级别（clause-level）**的结构化配置文件。
诊断反馈：基于这种结构化表示，ODT 能够为下一轮的 SQL 精炼提供具体的诊断反馈，帮助模型定位错误并指导修正方向。

2. 渐进式奖励（Progressive Reward）设计

为了提供密集且鲁棒的奖励信号，Progress-SQL 结合了两种对齐方式，并定义了衡量从初始 SQL 到最终 SQL 改进程度的奖励函数：

基于 ODT 的结构对齐：评估 SQL 结构层面的匹配度。
词汇对齐（Lexical Alignment）：评估词汇层面的匹配度。
改进度量：奖励不仅关注最终结果，更关注从初始生成到最终修正过程中的改进幅度。

3. 辅助奖励机制

除了核心的渐进式奖励外，框架还引入了两种辅助奖励以进一步优化模型行为：

渐进延迟奖励（Progression Latency Reward）：鼓励模型在更早的轮次中达到正确性，即“越快越对越好”，减少不必要的迭代。
执行状态奖励（Execution Status Reward）：鼓励模型从无效 SQL（invalid SQL）中恢复，提升对语法错误或执行错误的容忍度和修复能力。

4. 实验验证

该方法在多个基准数据集上进行了广泛评估，包括：

BIRD
Spider
Spider 鲁棒性变体（Spider robustness variants）

实验结果表明，Progress-SQL 在主要性能指标和鲁棒性评估中均一致地提升了 Text-to-SQL 的性能。

关键要点

痛点解决：解决了现有 RL 方法中一次性奖励无法有效指导多轮迭代修正的问题。
核心架构：提出了 Progress-SQL 多轮强化学习框架，核心在于渐进式奖励。
ODT 机制：利用 Oracle-guided Diagnostic Tree (ODT) 将 SQL 抽象为子句级结构，提供细粒度的诊断反馈。
奖励组合：
- 结合结构对齐（基于 ODT）与词汇对齐。
- 定义渐进式奖励，量化从初始到最终的改进。
- 引入渐进延迟奖励以优化收敛速度。
- 引入执行状态奖励以增强错误恢复能力。
性能提升：在 BIRD、Spider 及其鲁棒性变体数据集上，均实现了性能的一致提升，证明了方法的有效性和鲁棒性。

意义与影响

Progress-SQL 的提出标志着 Text-to-SQL 领域从“结果导向”向“过程导向”强化学习的重要转变。

方法论创新：通过引入 ODT 和渐进式奖励，该方法为处理复杂、长链条的逻辑推理任务提供了新的思路。它证明了在 LLM 微调中，对中间步骤的细粒度反馈比单纯的结果反馈更为重要。
提升鲁棒性：执行状态奖励和渐进延迟奖励的设计，直接针对了实际应用中常见的 SQL 语法错误和长尾分布问题，有助于提升模型在真实场景下的稳定性和可用性。
通用性潜力：虽然本文聚焦于 Text-to-SQL，但其“基于结构化诊断的渐进式奖励”框架可能适用于其他需要多步推理和迭代的序列生成任务（如代码生成、数学推理等），具有广泛的借鉴意义。

总之，Progress-SQL 通过更精细的奖励设计，显著提升了大语言模型在复杂 SQL 生成任务中的表现，为后续研究提供了有价值的参考范式。

查看原文 →arxiv.org