技术博客arXiv cs.CL·3 小时前

SOMA-SQL：合成日志与执行探测解决NL-to-SQL歧义

原标题：SOMA-SQL: Resolving Multi-Source Ambiguity in NL-to-SQL via Synthetic Log and Execution Probing

速览

针对自然语言转SQL在真实场景中因模式庞大和模糊导致的错误，SOMA-SQL提出一种无需人工干预的自动歧义解决机制。该方法通过构建合成查询日志来锚定模式解释，并利用结构化歧义分类法执行探测查询以生成证据。实验显示，该方法在六个公共基准上平均提升执行准确率13.0%，在模糊问题上提升达16.7%。

自然语言接口数据库（NL-to-SQL）旨在将用户的自然语言问题转化为可执行的 SQL 查询。然而，在现实世界的应用场景中，这一技术往往显得脆弱不堪。主要挑战在于用户提出的问题通常信息不足（underspecified），而数据库模式（schema）则庞大且充满歧义。

在 NL-to-SQL 任务中，歧义性主要来源于三个方面：用户问题的模糊性、数据库模式的复杂性以及模型对意图的解读偏差。这些多源歧义是导致系统失败的核心模式，具体表现为：用户意图对齐失败、模式接地（schema grounding）错误以及生成的 SQL 语句出现逻辑或语法错误。

现有的解决方案主要依赖人工澄清，或者将歧义问题简化为模式表示问题。然而，这两种方法都存在明显的局限性：前者无法规模化扩展，后者则无法自主解决歧义。因此，业界急需一种能够自动、规模化地解决多源歧义的技术路径。

为了解决上述痛点，研究人员提出了 SOMA-SQL 框架。该方法通过目标明确的合成查询日志（synthetic query log）和基于歧义的探测（ambiguity-driven probing），实现了歧义的自动解析。

SOMA-SQL 首先构建合成查询日志。这一步骤的核心目的是为模式解释提供依据（ground schema interpretation），并指导候选 SQL 的生成。通过模拟可能的查询路径，系统能够更准确地理解数据库结构与实际业务需求之间的映射关系。

在生成候选 SQL 后，SOMA-SQL 引入了一种主动式的歧义发现机制。该机制基于两个关键驱动因素：

基于上述驱动因素，系统执行目标明确的探测查询（targeted probing queries）。这些探测查询旨在产生消除歧义的证据（disambiguation evidence）。

利用探测产生的证据，SOMA-SQL 对候选 SQL 进行最终选择或修复。这一过程无需人工介入（human-in-the-loop），实现了从歧义发现到解决的全自动化闭环。

SOMA-SQL 采用的主动歧义发现与解决策略，使其能够泛化到未见过的数据库模式和查询分布中，展现出良好的鲁棒性和适应性。

自动解决多源歧义：SOMA-SQL 不再依赖人工澄清，而是通过合成日志和主动探测，自主解决来自用户问题、数据库模式和模型解读的多源歧义。
双阶段处理流程：
1. 构建阶段：利用合成查询日志接地模式解释，引导候选 SQL 生成。
2. 探测与修复阶段：基于结构化歧义分类和候选分歧，执行探测查询以获取消除歧义的证据，进而选择或修复最终 SQL。
无需人工干预：整个歧义发现与解决过程完全自动化，无需 human-in-the-loop，具备规模化应用的潜力。
广泛的泛化性：该方法不仅适用于特定数据集，还能有效泛化到未见过的 schema 和查询分布中。
显著的性能提升：在六个公共基准测试中，SOMA-SQL 的平均执行准确率（execution accuracy）比最先进（SOTA）的基线模型提高了 13.0%。
歧义场景下的巨大增益：在处理具有高度歧义的问题时，性能提升尤为显著，最高增益达到 16.7%。

SOMA-SQL 的提出标志着 NL-to-SQL 技术从“被动响应”向“主动澄清”的重要转变。

这项研究由 Sai Ashish Somayajula 等人提交于 arXiv（cs.CL 领域，2026年6月9日），为构建更智能、更可靠的自然语言数据库接口提供了坚实的理论基础和技术路径。