← 返回信息流
技术博客arXiv cs.CL·3 小时前

SOMA-SQL:合成日志与执行探测解决NL-to-SQL歧义

原标题:SOMA-SQL: Resolving Multi-Source Ambiguity in NL-to-SQL via Synthetic Log and Execution Probing

速览

针对自然语言转SQL在真实场景中因模式庞大和模糊导致的错误,SOMA-SQL提出一种无需人工干预的自动歧义解决机制。该方法通过构建合成查询日志来锚定模式解释,并利用结构化歧义分类法执行探测查询以生成证据。实验显示,该方法在六个公共基准上平均提升执行准确率13.0%,在模糊问题上提升达16.7%。

AI 深度解读

SOMA-SQL:通过合成日志与执行探测解决 NL-to-SQL 中的多源歧义

背景

自然语言接口数据库(NL-to-SQL)旨在将用户的自然语言问题转化为可执行的 SQL 查询。然而,在现实世界的应用场景中,这一技术往往显得脆弱不堪。主要挑战在于用户提出的问题通常信息不足(underspecified),而数据库模式(schema)则庞大且充满歧义。

在 NL-to-SQL 任务中,歧义性主要来源于三个方面:用户问题的模糊性、数据库模式的复杂性以及模型对意图的解读偏差。这些多源歧义是导致系统失败的核心模式,具体表现为:用户意图对齐失败、模式接地(schema grounding)错误以及生成的 SQL 语句出现逻辑或语法错误。

现有的解决方案主要依赖人工澄清,或者将歧义问题简化为模式表示问题。然而,这两种方法都存在明显的局限性:前者无法规模化扩展,后者则无法自主解决歧义。因此,业界急需一种能够自动、规模化地解决多源歧义的技术路径。

核心内容

为了解决上述痛点,研究人员提出了 SOMA-SQL 框架。该方法通过目标明确的合成查询日志(synthetic query log)和基于歧义的探测(ambiguity-driven probing),实现了歧义的自动解析。

1. 合成日志构建与模式接地

SOMA-SQL 首先构建合成查询日志。这一步骤的核心目的是为模式解释提供依据(ground schema interpretation),并指导候选 SQL 的生成。通过模拟可能的查询路径,系统能够更准确地理解数据库结构与实际业务需求之间的映射关系。

2. 结构化歧义分类与探测

在生成候选 SQL 后,SOMA-SQL 引入了一种主动式的歧义发现机制。该机制基于两个关键驱动因素:

  • 结构化歧义分类法(Structured Ambiguity Taxonomy):对可能出现的歧义类型进行系统化分类。
  • 候选分歧(Candidate Disagreements):分析不同候选 SQL 之间的差异点。

基于上述驱动因素,系统执行目标明确的探测查询(targeted probing queries)。这些探测查询旨在产生消除歧义的证据(disambiguation evidence)。

3. SQL 选择与修复

利用探测产生的证据,SOMA-SQL 对候选 SQL 进行最终选择或修复。这一过程无需人工介入(human-in-the-loop),实现了从歧义发现到解决的全自动化闭环。

4. 泛化能力

SOMA-SQL 采用的主动歧义发现与解决策略,使其能够泛化到未见过的数据库模式和查询分布中,展现出良好的鲁棒性和适应性。

关键要点

  • 自动解决多源歧义:SOMA-SQL 不再依赖人工澄清,而是通过合成日志和主动探测,自主解决来自用户问题、数据库模式和模型解读的多源歧义。
  • 双阶段处理流程
    1. 构建阶段:利用合成查询日志接地模式解释,引导候选 SQL 生成。
    2. 探测与修复阶段:基于结构化歧义分类和候选分歧,执行探测查询以获取消除歧义的证据,进而选择或修复最终 SQL。
  • 无需人工干预:整个歧义发现与解决过程完全自动化,无需 human-in-the-loop,具备规模化应用的潜力。
  • 广泛的泛化性:该方法不仅适用于特定数据集,还能有效泛化到未见过的 schema 和查询分布中。
  • 显著的性能提升:在六个公共基准测试中,SOMA-SQL 的平均执行准确率(execution accuracy)比最先进(SOTA)的基线模型提高了 13.0%
  • 歧义场景下的巨大增益:在处理具有高度歧义的问题时,性能提升尤为显著,最高增益达到 16.7%

意义与影响

SOMA-SQL 的提出标志着 NL-to-SQL 技术从“被动响应”向“主动澄清”的重要转变。

  1. 突破规模化瓶颈:传统依赖人工澄清的方法无法应对海量用户查询,而 SOMA-SQL 的自动化机制使得大规模部署自然语言数据库接口成为可能。
  2. 提升系统鲁棒性:通过主动探测和结构化歧义处理,系统能够更准确地捕捉用户意图,显著降低因模式复杂或问题模糊导致的错误率。
  3. 推动基准测试进步:在多个公共基准上超越 SOTA 基线,特别是针对歧义问题的高增益,证明了该方法在处理真实世界复杂场景时的有效性。
  4. 方法论创新:将合成日志生成与执行探测相结合,为后续研究解决语义鸿沟和模式接地问题提供了新的技术范式。

这项研究由 Sai Ashish Somayajula 等人提交于 arXiv(cs.CL 领域,2026年6月9日),为构建更智能、更可靠的自然语言数据库接口提供了坚实的理论基础和技术路径。

查看原文 →arxiv.org