← 返回信息流
技术博客arXiv cs.CL·2 小时前

GRAB:通过潜在桥接实现多表问答

原标题:Latent Bridges for Multi-Table Question Answering

速览

研究提出GRAB流水线,将关系数据转化为异构图并通过消息传递编码。该方法通过少量查询条件的潜在令牌将信号传递给冻结的大语言模型,保留其推理能力。实验表明,该方法在多表设置下显著提升问答性能,为关系深度学习与大模型结合提供了高效方案。

AI 深度解读

Latent Bridges for Multi-Table Question Answering:深度解读

背景

随着大型语言模型(LLM)在自然语言处理领域的统治地位日益巩固,如何有效地将结构化数据(如数据库表格)与 LLM 的通用推理能力相结合,成为了当前研究的一个热点。传统的表格问答(Table Question Answering, TQA)任务通常依赖于将表格数据转化为文本或 SQL 查询,但这在处理涉及多表关联(Multi-Table)的复杂关系型数据时往往显得力不从心。

现有的方法面临两个主要挑战:一是如何在保持 LLM 强大通用推理能力的前提下,让其理解复杂的表格间关系;二是如何高效地训练这种混合系统,避免对庞大的 LLM 进行全量微调带来的计算资源浪费。此外,如何将关系型数据中的拓扑结构信息有效地传递给 LLM,同时保持表示的紧凑性和任务相关性,也是一个尚未完全解决的技术难题。

核心内容

本文提出了一种名为 GRAB 的新框架,旨在解决多表问答中的上述问题。GRAB 采用了一种“构建器-编码器-桥梁”(Constructor-Encoder-Bridge)的流水线架构,其核心思想是通过一个轻量级的图神经网络模块来预处理关系型数据,并通过“潜在桥梁”(Latent Bridges)将处理后的信号传递给冻结的 LLM。

具体而言,GRAB 的工作流程包含以下三个关键步骤:

  1. 数据提升与图构建(Constructor): 首先,系统将关系型表格数据提升(lift)为一个异构图(Heterogeneous Graph)。在这个图中,表格、列以及具体的单元格值被表示为不同类型的节点,而表与表之间的关联关系(如外键约束)则被表示为边。这种结构化的表示方式保留了数据之间的拓扑关系,这是扁平文本无法直接提供的。

  2. 消息传递编码(Encoder): 接下来,系统使用一个轻量级的图编码器对构建好的异构图进行编码。通过消息传递机制(Message Passing),节点之间交换信息,从而捕捉表格间的深层语义关联和结构特征。这一步旨在从原始的结构化数据中提取出紧凑且富含信息的表示。

  3. 潜在桥梁传输(Bridge): 这是 GRAB 最具创新性的部分。编码后的图信号并不直接以复杂的图结构输入给 LLM,而是通过一组“查询条件化的潜在令牌”(Query-Conditioned Latent Tokens)进行转换。这些潜在令牌充当了“桥梁”,将图编码器的输出映射到 LLM 能够理解的嵌入空间。同时,原始的扁平化文本数据也会一并输入给 LLM。

关键约束与训练策略: 为了确保 LLM 的通用推理能力不被破坏,GRAB 严格冻结了 LLM 的参数。整个流水线仅训练两个轻量级组件:

  • 轻量级图编码器
  • 潜在桥梁模块

这两个组件总共仅包含 9100 万(91M) 个参数。这种设计使得整个系统可以在有限的计算资源下高效训练,同时避免了灾难性遗忘(Catastrophic Forgetting)的风险,即不会因为针对特定表格任务微调而损害 LLM 在其他通用任务上的表现。

关键要点

  • 架构创新:提出了 GRAB 流水线,包含构建器、编码器和桥梁三个模块,专门针对关系型数据的问答任务设计。
  • 异构图表示:将关系型表格数据转化为异构图,利用消息传递机制捕捉表间复杂的关联结构。
  • 潜在桥梁机制:引入查询条件化的潜在令牌,将图编码器的结构化信号高效、紧凑地传递给 LLM,实现了结构化数据与文本数据的融合。
  • LLM 冻结策略:严格保持 LLM 参数冻结,仅训练 91M 参数的轻量级图编码器和潜在桥梁,既保证了训练效率,又保留了 LLM 的通用推理能力。
  • 性能提升:在关系型问答任务上显著提升了性能,特别是在具有挑战性的多表(Multi-Table)设置中,性能增益最为明显。
  • 高效性:提供了一种原则性的、高效的方法来连接关系型深度学习与 LLM,无需对大型模型进行昂贵的全量微调。

意义与影响

GRAB 框架的提出为结构化数据与生成式 AI 的结合提供了一个新的范式。其意义主要体现在以下几个方面:

  1. 弥合结构化数据与 LLM 的鸿沟:传统上,LLM 擅长处理非结构化文本,而对表格等结构化数据的理解能力有限。GRAB 通过图编码和潜在桥梁,有效地将表格间的逻辑关系“翻译”成 LLM 可理解的信号,极大地增强了 LLM 处理复杂关系型数据的能力。
  2. 高效且可扩展的训练方案:通过冻结 LLM 并仅训练少量参数,GRAB 降低了部署和训练成本。这使得企业可以利用现有的强大开源或闭源 LLM(如 Llama、GPT 系列等),快速构建针对自身关系型数据库的问答系统,而无需承担巨大的算力开销。
  3. 多表问答的突破:在多表关联场景下,数据的复杂性呈指数级增长。GRAB 在 demanding multi-table settings 中表现出的显著性能提升,证明了其在处理真实世界中复杂业务逻辑(如电商订单、金融交易记录等)时的潜力。
  4. 方法论的启示:该研究展示了“轻量级专用模块 + 冻结通用大模型”这一架构的有效性。这种思路可以推广到其他需要结合结构化知识与大模型推理能力的领域,如知识图谱问答、代码生成等。

总之,GRAB 不仅是一个具体的技术实现,更代表了一种将传统关系型数据库技术与前沿大语言模型有机结合的高效路径,为下一代智能数据交互系统的发展奠定了重要基础。

查看原文 →arxiv.org