技术博客arXiv cs.CL·4 小时前

KG2Cypher：构建企业级文本转Cypher系统的数据中心流水线

原标题：KG2Cypher: Data-Centric Pipeline for Building Enterprise Text-to-Cypher Systems

速览

企业知识图谱的自然语言接口构建成本高昂，KG2Cypher提出了一种以数据为中心的流水线，从现有图谱中自动生成文本-Cypher查询对。该方法结合LLM裁判和人工验证生成候选感知监督微调数据，并采用LoRA微调及条件模式提示进行推理。在韩国企业场景的评估中，该系统在广播节目和公司查询上显著提升了执行结果F1分数，实现了95.2%的精确匹配和99.9%的执行率。

AI 深度解读

KG2Cypher：构建企业级 Text-to-Cypher 系统的数据中心管道

背景

企业知识图谱（Enterprise Knowledge Graphs, KGs）正被广泛应用于内部搜索、数据分析以及问答系统中。然而，为私有企业图谱构建自然语言接口（即 Text-to-Cypher 系统）依然面临高昂的成本挑战。

传统的 Text-to-Cypher 方法通常依赖于从现有图谱中随机采样或人工构建训练数据，这种方式不仅效率低下，而且难以覆盖企业图谱中复杂的模式（Schema）和实体分布。特别是在非英语语境（如韩语）或短查询场景下，语言与图谱结构的对齐（Language Grounding）变得更加困难。

为了解决这一痛点，研究人员提出了 KG2Cypher，这是一种以数据为中心（Data-Centric）的管道，旨在利用现有的企业知识图谱，自动化地构建高质量的 Text-to-Cypher 训练数据，并优化后续的模型训练与推理流程。

核心内容

KG2Cypher 的核心创新在于其逆向数据生成策略和端到端的优化流程。该方法不依赖人工标注，而是从图谱事实出发，自动生成“问题-查询”对，并通过严格的验证机制确保数据质量。

1. 数据生成：从图谱事实到自然语言

KG2Cypher 的第一步是构建可执行的 Cypher 查询。系统首先从观测到的图谱事实（Graph Facts）中提取子图结构，并生成对应的 Cypher 查询语句。随后，利用大型语言模型（LLMs）根据这些查询及其相关的图谱上下文，生成对应的自然语言问题。这种“由查生问”的方式确保了生成的自然语言问题在逻辑上与 Cypher 查询严格一致。

2. 数据验证与格式化

生成的 Text-Cypher 对并非直接用于训练，而是经过双重验证：

LLM 裁判（LLM Judge）：利用大模型评估生成的问题与查询之间的语义一致性。
人工验证（Human Validation）：抽样进行人工审核，确保数据的准确性。

通过验证的数据被转换为候选感知（Candidate-aware）的 SFT（监督微调）数据。这种数据结构不仅包含问题和查询，还包含了图谱中的候选实体或模式信息，有助于模型更好地理解查询的上下文。

3. 模型训练与推理优化

基于生成的 SFT 数据，研究人员对生成器模型进行微调。在推理阶段，KG2Cypher 采用了三种关键技术来提升性能：

类别条件模式提示（Class-conditioned Schema Prompting）：根据查询的类别动态调整图谱模式的提示方式，减少无关模式的干扰。
实体检索（Entity Retrieval）：在生成查询前，先检索相关的实体，增强模型对具体实体的感知能力。
基于 LoRA 的推理（LoRA-based Inference）：使用低秩自适应（LoRA）技术进行微调，既保留了基础模型的能力，又显著降低了计算资源消耗，提高了微调效率。

4. 实验评估

研究团队在韩语企业环境中对 KG2Cypher 进行了评估。韩语环境的特点是搜索风格简短，且模式（Schema）存在大量同义 paraphrasing（释义），这使得语言与图谱结构的对齐极具挑战性。

评估结果如下：

LoRA SFT 的效果：在广播节目查询（broadcast-program queries）上，执行结果 F1 分数从 0.806 提升至 0.950；在公司查询（company queries）上，从 0.70 提升至 0.92。
整体性能：在 11 类查询设置下，KG2Cypher 实现了 95.2% 的精确匹配率（Exact Match），执行率达到 99.9%，执行结果 F1 分数高达 0.964。

关键要点

逆向数据构建：KG2Cypher 采用“图谱事实 -> Cypher 查询 -> 自然语言问题”的逆向生成路径，解决了企业图谱训练数据稀缺且标注成本高的问题。
双重验证机制：结合 LLM 裁判和人工验证，确保生成的 Text-Cypher 对的高质量和高一致性，避免噪声数据污染模型。
候选感知数据格式：将验证后的数据转化为候选感知（Candidate-aware）的 SFT 数据，增强了模型对图谱结构的理解能力。
推理优化策略：在推理阶段引入类别条件模式提示、实体检索和 LoRA 微调，显著提升了模型在复杂模式下的生成准确性和执行率。
跨语言适用性：在韩语企业场景下的成功应用证明了该方法在非英语、短查询及模式复杂场景下的鲁棒性。
性能显著提升：LoRA SFT 微调后，执行结果 F1 分数在多个查询类别上均有超过 10%-20% 的绝对提升，最终达到 0.964 的高水平。

意义与影响

KG2Cypher 的提出为企业级知识图谱的自然语言接口开发提供了一条高效、低成本的技术路径。其意义主要体现在以下几个方面：

降低部署门槛：通过自动化的数据生成管道，企业无需投入大量人力进行数据标注，即可快速构建高质量的 Text-to-Cypher 系统，加速了知识图谱在内部应用中的落地。
提升模型泛化能力：候选感知数据和类别条件提示的结合，使得模型能够更好地处理图谱中的模式歧义和实体指代问题，特别是在多义词和同义模式较多的企业环境中表现优异。
推动数据中心 AI 实践：KG2Cypher 展示了“数据为中心”（Data-Centric AI）在垂直领域的应用价值。通过优化数据质量和生成流程，而非仅仅依赖模型架构的改进，可以显著提升下游任务的性能。
验证非英语场景可行性：在韩语环境下的成功实验表明，该方法不局限于英语语境，具有跨语言的通用潜力，为全球企业构建本地化的知识图谱应用提供了参考。

总之，KG2Cypher 不仅是一个技术工具，更是一种解决企业知识图谱自然语言接口构建难题的系统性方法论，为后续相关研究提供了重要的基线和思路。

查看原文 →arxiv.org