技术博客arXiv cs.CL·7 小时前

STAGE：基于电子表格源数据生成文本转JSON训练数据

原标题：Source-Grounded Data Generation for Text-to-JSON Learning

速览

针对从非结构化文档提取JSON数据的难题，研究提出STAGE（Spreadsheet-grounded Text-to-JSON Artifact GEneration）数据生成流水线。该方法利用大语言模型进行可扩展合成，并通过底层电子表格验证真实值以确保准确性。在STAGE-Eval基准测试中，该方法生成的训练数据显著提升了Qwen3-4B模型的精确匹配率和值准确率。

AI 深度解读

Source-Grounded Data Generation for Text-to-JSON Learning：基于源数据锚定的文本转JSON学习范式

背景

在金融申报、临床记录等遗留产业（Legacy Industries）中，高价值信息往往存储于长篇且非结构化的文档之中。将这些信息可靠地提取为结构化、机器可读的表示形式，是使内容能够被自动化系统访问的关键前提。

JSON 作为结构化提取的自然目标格式，其重要性不言而喻。然而，构建可靠且可扩展的“文本到JSON”（Text-to-JSON）训练数据一直是一个巨大的挑战。现有的数据生成方法往往难以保证生成数据的真实性与准确性，导致模型在训练后难以在真实场景中实现高精度的结构化提取。

核心内容

为了解决上述数据构建的痛点，研究团队提出了 STAGE（Spreadsheet-grounded Text-to-JSON Artifact GEneration，基于电子表格锚定的文本转JSON工件生成）方法。这是一种基于源数据锚定（Source-Grounded）的数据生成流水线，旨在通过大规模合成来构建报告与JSON Schema，同时利用底层电子表格验证真实值（Ground-truth values）。

1. 方法论：STAGE 流水线

STAGE 的核心创新在于引入了“源数据锚定”机制。具体流程如下：

LLM 驱动的大规模合成：利用大型语言模型（LLMs）生成结构化的报告文本以及对应的 JSON Schema。这种方法解决了传统方法难以大规模生成多样化训练数据的问题。
基于电子表格的真实性验证：这是 STAGE 区别于其他方法的关键。在生成过程中，系统会将生成的 JSON 值与底层电子表格中的真实数据进行比对验证。这种机制确保了合成数据中的数值和事实准确性，避免了 LLM 常见的幻觉问题，从而提高了训练数据的质量。

2. 评估基准：STAGE-Eval

为了验证该方法的有效性，研究团队构建了 STAGE-Eval，这是一个基于源数据锚定的基准测试集，包含 851 个示例。该测试集专门用于评估模型在文本到 JSON 转换任务中的表现，特别是针对结构化提取的准确性和一致性。

3. 实验结果

在 STAGE-Eval 上的评估显示，STAGE 生成的训练数据显著优于现有方法。以 Qwen3-4B 模型为例，使用 STAGE 生成的数据进行训练后，性能提升如下：

精确匹配率（Exact Match）：从 31.37% 提升至 74.27%。
数值准确率（Value Accuracy）：从 45.46% 提升至 90.69%。

这一结果表明，通过源数据锚定生成的训练数据，能够极大地增强模型在结构化信息提取任务中的能力，特别是在需要高精度数值和结构对齐的场景下。

关键要点

问题定义：遗留产业中非结构化文档到结构化 JSON 的提取面临训练数据稀缺且质量难以保证的挑战。
核心方案：提出 STAGE 流水线，结合 LLM 的大规模生成能力与电子表格数据的真实性验证，实现“源数据锚定”。
技术优势：通过底层电子表格验证 Ground-truth values，有效抑制了 LLM 的幻觉，确保了合成数据的准确性。
基准构建：建立了 STAGE-Eval 基准测试集（851 个示例），为 Text-to-JSON 任务提供了可靠的评估标准。
性能飞跃：在 Qwen3-4B 模型上，精确匹配率提升超过 40 个百分点，数值准确率提升超过 45 个百分点，证明了该方法的有效性。

意义与影响

STAGE 的提出为自动化结构化数据提取领域提供了新的思路。其意义主要体现在以下几个方面：

解决数据瓶颈：通过结合 LLM 的生成能力和传统结构化数据（如电子表格）的真实性，STAGE 提供了一种可扩展且高质量的数据生成方案，缓解了高质量标注数据稀缺的问题。
提升工业应用可靠性：在金融、医疗等对数据准确性要求极高的领域，STAGE 生成的训练数据能够显著提升模型在真实场景中的表现，降低自动化系统的错误率。
推动 Text-to-JSON 技术发展：STAGE-Eval 基准的建立为社区提供了统一的评估标准，有助于后续研究更公平地比较不同方法的有效性，推动该领域的技术进步。
方法论的普适性：虽然本文主要关注文本到 JSON 的转换，但“源数据锚定”的思想可以推广到其他结构化数据提取任务中，为更广泛的自动化数据处理提供借鉴。

总之，STAGE 不仅是一个具体的技术工具，更是一种通过融合生成式 AI 与传统数据验证机制来提升 AI 系统可靠性的有效范式。

查看原文 →arxiv.org