STAGE:基于电子表格源数据生成文本转JSON训练数据
速览
针对从非结构化文档提取JSON数据的难题,研究提出STAGE(Spreadsheet-grounded Text-to-JSON Artifact GEneration)数据生成流水线。该方法利用大语言模型进行可扩展合成,并通过底层电子表格验证真实值以确保准确性。在STAGE-Eval基准测试中,该方法生成的训练数据显著提升了Qwen3-4B模型的精确匹配率和值准确率。
AI 深度解读
Source-Grounded Data Generation for Text-to-JSON Learning:基于源数据锚定的文本转JSON学习范式
背景
在金融申报、临床记录等遗留产业(Legacy Industries)中,高价值信息往往存储于长篇且非结构化的文档之中。将这些信息可靠地提取为结构化、机器可读的表示形式,是使内容能够被自动化系统访问的关键前提。
JSON 作为结构化提取的自然目标格式,其重要性不言而喻。然而,构建可靠且可扩展的“文本到JSON”(Text-to-JSON)训练数据一直是一个巨大的挑战。现有的数据生成方法往往难以保证生成数据的真实性与准确性,导致模型在训练后难以在真实场景中实现高精度的结构化提取。
核心内容
为了解决上述数据构建的痛点,研究团队提出了 STAGE(Spreadsheet-grounded Text-to-JSON Artifact GEneration,基于电子表格锚定的文本转JSON工件生成)方法。这是一种基于源数据锚定(Source-Grounded)的数据生成流水线,旨在通过大规模合成来构建报告与JSON Schema,同时利用底层电子表格验证真实值(Ground-truth values)。
1. 方法论:STAGE 流水线
STAGE 的核心创新在于引入了“源数据锚定”机制。具体流程如下:
- LLM 驱动的大规模合成:利用大型语言模型(LLMs)生成结构化的报告文本以及对应的 JSON Schema。这种方法解决了传统方法难以大规模生成多样化训练数据的问题。
- 基于电子表格的真实性验证:这是 STAGE 区别于其他方法的关键。在生成过程中,系统会将生成的 JSON 值与底层电子表格中的真实数据进行比对验证。这种机制确保了合成数据中的数值和事实准确性,避免了 LLM 常见的幻觉问题,从而提高了训练数据的质量。
2. 评估基准:STAGE-Eval
为了验证该方法的有效性,研究团队构建了 STAGE-Eval,这是一个基于源数据锚定的基准测试集,包含 851 个示例。该测试集专门用于评估模型在文本到 JSON 转换任务中的表现,特别是针对结构化提取的准确性和一致性。
3. 实验结果
在 STAGE-Eval 上的评估显示,STAGE 生成的训练数据显著优于现有方法。以 Qwen3-4B 模型为例,使用 STAGE 生成的数据进行训练后,性能提升如下:
- 精确匹配率(Exact Match):从 31.37% 提升至 74.27%。
- 数值准确率(Value Accuracy):从 45.46% 提升至 90.69%。
这一结果表明,通过源数据锚定生成的训练数据,能够极大地增强模型在结构化信息提取任务中的能力,特别是在需要高精度数值和结构对齐的场景下。
关键要点
- 问题定义:遗留产业中非结构化文档到结构化 JSON 的提取面临训练数据稀缺且质量难以保证的挑战。
- 核心方案:提出 STAGE 流水线,结合 LLM 的大规模生成能力与电子表格数据的真实性验证,实现“源数据锚定”。
- 技术优势:通过底层电子表格验证 Ground-truth values,有效抑制了 LLM 的幻觉,确保了合成数据的准确性。
- 基准构建:建立了 STAGE-Eval 基准测试集(851 个示例),为 Text-to-JSON 任务提供了可靠的评估标准。
- 性能飞跃:在 Qwen3-4B 模型上,精确匹配率提升超过 40 个百分点,数值准确率提升超过 45 个百分点,证明了该方法的有效性。
意义与影响
STAGE 的提出为自动化结构化数据提取领域提供了新的思路。其意义主要体现在以下几个方面:
- 解决数据瓶颈:通过结合 LLM 的生成能力和传统结构化数据(如电子表格)的真实性,STAGE 提供了一种可扩展且高质量的数据生成方案,缓解了高质量标注数据稀缺的问题。
- 提升工业应用可靠性:在金融、医疗等对数据准确性要求极高的领域,STAGE 生成的训练数据能够显著提升模型在真实场景中的表现,降低自动化系统的错误率。
- 推动 Text-to-JSON 技术发展:STAGE-Eval 基准的建立为社区提供了统一的评估标准,有助于后续研究更公平地比较不同方法的有效性,推动该领域的技术进步。
- 方法论的普适性:虽然本文主要关注文本到 JSON 的转换,但“源数据锚定”的思想可以推广到其他结构化数据提取任务中,为更广泛的自动化数据处理提供借鉴。
总之,STAGE 不仅是一个具体的技术工具,更是一种通过融合生成式 AI 与传统数据验证机制来提升 AI 系统可靠性的有效范式。
