技术博客arXiv cs.CL·1 小时前

EXPO-SQL：基于执行反馈的细粒度子句级策略优化

原标题：EXPO-SQL: Execution-based Clause-level Policy Optimization for Text-to-SQL

速览

针对现有Text-to-SQL强化学习方法中统一查询级奖励导致的信号不足问题，研究提出EXPO-SQL方法。该方法通过分析执行结果和错误信息，识别错误子句并提供细粒度的子句级奖励监督。实验表明，EXPO-SQL在多个基准测试中显著优于现有的监督微调、提示及基于强化学习的方法。

AI 深度解读

EXPO-SQL：基于执行的子句级策略优化，破解 Text-to-SQL 细粒度奖励难题

背景

Text-to-SQL 技术旨在让用户通过自然语言查询数据库，其核心在于将自然语言指令转化为可执行的 SQL 查询语句。近年来，随着大型语言模型（LLM）的兴起，基于强化学习（RL）的方法逐渐成为主流。这类方法利用 SQL 执行反馈（Execution Feedback）来训练模型，旨在让模型学会生成不仅语法正确、而且语义和逻辑上都正确的 SQL 代码。

然而，现有的基于 RL 的方法存在一个显著的缺陷：粗粒度的奖励机制。在传统的 Text-to-SQL 强化学习框架中，系统通常只针对整个 SQL 查询的最终执行结果给予奖励（Reward）。如果整个查询执行成功，所有子句（Clauses）都获得相同的正向奖励；如果执行失败，所有子句都受到惩罚。这种设计忽略了 SQL 语句内部结构的复杂性，将正确子句与错误子句一视同仁。

这种“一刀切”的奖励分配方式导致了学习信号不足的问题。模型无法区分哪些部分是生成得好的，哪些部分是导致错误的根源，从而难以在复杂的 SQL 生成任务中实现精细化的优化。

核心内容

为了解决上述问题，研究人员提出了 EXPO-SQL（EXecution-based clause-level Policy Optimization for Text-to-SQL，基于执行的子句级策略优化）。该方法的核心创新在于引入了细粒度的子句级奖励（Clause-level Rewards），通过更精准的执行反馈来指导模型学习。

1. 细粒度奖励分配机制

EXPO-SQL 不再仅仅关注整个 SQL 语句的最终执行结果，而是深入到 SQL 的各个子句（如 SELECT、FROM、WHERE、JOIN 等部分）层面进行分析。

2. 错误子句识别方法

为了准确分配子级奖励，EXPO-SQL 采用了一种基于执行结果的分析策略，主要包含以下两个维度：

错误消息分析（Error Messages Analysis）：当 SQL 执行报错时，系统会解析数据库返回的错误信息，定位导致错误的具体子句。
子句级增量执行（Clause-wise Incremental Execution）：这是一种更精细的技术。系统逐步执行 SQL 的不同部分，观察每一步的执行状态。通过对比不同子句执行前后的状态变化，判断该子句是否引入了错误或不一致。

通过这两种机制，EXPO-SQL 能够识别出哪些子句是正确的，哪些是错误的，从而为每个子句分配独立的奖励信号。

3. 策略优化

基于识别出的子句级奖励，EXPO-SQL 对策略模型进行优化。这意味着模型在学习过程中，不仅知道“整个查询是否成功”，还知道“哪个部分做对了，哪个部分做错了”。这种细粒度的监督信号极大地增强了模型对 SQL 逻辑结构的理解能力。

4. 实验验证

在多个广泛使用的 Text-to-SQL 基准测试集上，EXPO-SQL 进行了全面评估。实验结果表明，通过细粒度的子句级学习，EXPO-SQL 显著优于现有的监督微调（SFT）、提示工程（Prompting）以及基于强化学习的方法。

关键要点

痛点解决：解决了现有 Text-to-SQL 强化学习方法中奖励分配过于粗糙的问题，避免了正确子句与错误子句被同等对待导致的信号稀释。
核心创新：提出了子句级策略优化，将奖励信号细化到 SQL 语句的各个组成部分，提供了更丰富的学习反馈。
技术实现：通过错误消息分析和子句级增量执行两种手段，精准识别并定位 SQL 中的错误子句，实现细粒度的奖励分配。
性能提升：在标准基准测试中，EXPO-SQL 在生成准确、可执行的 SQL 方面，显著超越了传统的监督微调、提示方法以及现有的强化学习基线模型。
开源支持：项目代码已开源（https://github.com/jhn25/EXPO-SQL），便于社区复现和进一步研究。

意义与影响

EXPO-SQL 的提出标志着 Text-to-SQL 领域从“粗粒度反馈”向“细粒度反馈”的重要转变。

提升模型鲁棒性与准确性：通过提供细粒度的学习信号，模型能够更准确地理解 SQL 的逻辑结构，减少因局部错误导致整体失败的情况，从而生成更健壮、更准确的查询语句。
优化强化学习在代码生成中的应用：该方法为基于 RL 的代码生成任务提供了新的思路，证明了在执行反馈中引入结构化、细粒度的奖励机制是可行的且有效的。
推动自然语言与数据库交互的智能化：随着 Text-to-SQL 技术的进步，非技术用户能够更可靠地通过自然语言与复杂数据库进行交互，降低了数据查询的门槛，提升了数据驱动决策的效率。
开源贡献：代码的开源促进了学术界和工业界对这一方向的深入研究，有助于推动整个 Text-to-SQL 生态系统的技术进步。

查看原文 →arxiv.org