技术博客arXiv cs.CL·3 小时前

Test-Time Verification for Text-to-SQL via Outcome Reward Models

AI 深度解读

背景

文本到SQL（Text-to-SQL）作为大语言模型（LLMs）在结构化推理任务中的典型应用，旨在将自然语言问题自动转换为可执行的SQL查询。尽管LLMs在该任务上取得了显著进展，但在推理阶段提升其生成结果的可靠性仍是一个核心挑战。

当前，常见的测试时推理策略主要包括Best-of-N采样和多数投票。这些方法通常依赖启发式信号来进行候选输出的筛选，例如SQL语句的执行成功与否，或者相同输出出现的频率。然而，这些启发式信号存在明显局限：它们只能提供有限的语义区分能力。例如，两个SQL语句可能都能成功执行（不报错），但逻辑和结果截然不同；或者多数投票可能因为模型的系统性偏见而选出高频但错误的答案。因此，亟需一种更具语义理解能力的评分函数来指导测试时的验证与选择。

核心内容

本文研究了结果奖励模型（Outcome Reward Models, ORMs）在Text-to-SQL测试时验证中的应用。ORMs作为一种学习得到的语义评分函数，此前已在测试时缩放和对齐任务中有所探索，但在结构化查询生成领域的应用尚属空白。

为了有效训练适用于Text-to-SQL的ORM，作者提出了名为GradeSQL的可扩展框架。该框架的核心优势在于完全无需人工标注，其训练流程如下：首先，通过自动化候选生成产生多样化的SQL查询；然后，利用执行器对这些候选SQL进行执行，并根据执行结果（如结果集的正确性）自动生成标签。这种基于执行的自动化标签机制，使得大规模训练特定任务的验证器成为可能。

在实际应用阶段，作者将训练好的ORM集成到验证驱动的Best-of-N流程中。模型针对同一问题生成多个候选SQL，随后由ORM对这些候选进行语义层面的打分，最终选出得分最高的SQL作为输出。

作者在BIRD和Spider这两个广泛使用的基准测试上，跨多个开源LLM家族评估了该方法。实验结果表明，基于ORM的选择策略始终优于传统的基于执行的Best-of-N和多数投票方法。具体而言，在BIRD基准上最高获得了+4.33%的性能提升，在Spider基准上最高获得了+2.10%的性能提升。

此外，研究还揭示了ORM良好的扩展特性：随着候选集规模的增大，ORM能够更有效地筛选出正确答案，性能提升更加明显；同时，在面对复杂查询时，ORM带来的改进幅度也显著大于简单查询。这证明了学习得到的语义评分函数能够捕捉到启发式信号难以触及的深层逻辑差异。

关键要点

查看原文 →arxiv.org

Test-Time Verification for Text-to-SQL via Outcome Reward Models

AI 深度解读

背景

核心内容

关键要点

相关推荐