技术博客arXiv cs.CL·2 小时前

大模型辅助标注可替代人工完成实体匹配训练数据准备

原标题：Labeling Training Data for Entity Matching Using Large Language Models

速览

该研究探索利用大语言模型作为教师模型，通过知识蒸馏工作流为实体匹配任务自动生成训练数据，从而避免手动标注。实验表明，使用机器标注数据训练的小模型性能与使用基准人工标注数据训练的模型相当，F1分数差异不足2点。此外，该方法大幅降低了标注成本和时间，推理速度比直接使用大模型快数十至数百倍。

AI 深度解读

利用大语言模型为实体匹配标注训练数据：深度解读

背景

实体匹配（Entity Matching, EM），即判断两个来自不同数据源的实体是否指代现实世界中的同一对象，是数据集成、清洗和管理中的核心任务。近年来，大型语言模型（LLMs）在实体匹配任务上展现出了强大的零样本（zero-shot）或少样本学习能力，无需特定的任务训练数据即可取得优异性能。

然而，这种直接应用 LLM 的方式存在显著的落地瓶颈：在处理大规模候选实体对时，LLM 的推理速度缓慢且计算成本高昂。相比之下，基于传统机器学习方法或小型语言模型（SLMs，如 RoBERTa）的实体匹配器虽然推理速度极快，但严重依赖高质量的任务特定训练数据。

这就形成了一个典型的权衡困境：是选择“快但需要数据”的传统模型，还是选择“不需要数据但慢且贵”的大模型？本文旨在探讨是否可以通过知识蒸馏（Knowledge Distillation）工作流，利用 LLM 作为教师模型来标注训练数据，从而训练出既快速又准确的“学生模型”，进而避免手动标注训练数据的昂贵成本。

核心内容

本研究系统地调查了利用知识蒸馏为实体匹配任务生成训练数据的有效性。研究围绕以下四个关键维度展开：

实体对选择策略（Pair-selection strategy）：如何从海量候选对中筛选出最具代表性或信息量的样本供 LLM 标注。
教师模型（Teacher model）：使用何种 LLM 来生成标签。
标签后处理方法（Label post-processing method）：如何清洗和处理 LLM 生成的潜在噪声标签。
学生模型（Student model）：使用何种小型模型来学习教师模型的输出。

为了验证该方法的有效性，研究团队在五个标准的实体匹配基准数据集上进行了评估：

Abt-Buy
Walmart-Amazon
WDC Products
DBLP-ACM
DBLP-Scholar

评估的核心指标是将使用“机器自动标注数据”训练的学生模型性能，与使用“基准数据集自带的人工标注数据”训练的同一模型性能进行对比。

实验结果与成本分析

实验结果表明，使用机器标注数据训练的学生模型，其性能与使用基准人工标注数据训练的模型大致相当。两者之间的性能差异（以 F1 分数衡量）在两个方向上均保持在 2 个 F1 点以内，这意味着自动生成的标签足以支持高性能模型的训练。

在成本效率方面，研究提供了极具说服力的数据：

标注成本：使用 GPT-5.2 为上述五个基准数据集的所有训练集进行标注，总成本仅为 28.31 美元至 40.88 美元。
人力成本估算：若采用人工方式标注相同规模的数据集，预计需要耗费 470 小时 的工作时间。
推理速度：在推理阶段，使用蒸馏训练出的轻量级模型 Ditto，其匹配速度比直接使用 LLM 进行匹配快 41.5 倍至 534 倍。

关键要点

可行性验证：利用 LLM 作为教师模型进行知识蒸馏，可以有效替代传统实体匹配任务中昂贵且耗时的人工数据标注环节。
性能无损：通过机器标注数据训练出的小型学生模型，其 F1 分数与使用人工标注数据训练的模型差异极小（<2 F1 points），证明了自动标注数据的高质量。
极低的边际成本：使用 GPT-5.2 进行大规模数据标注的成本极低（约 30-40 美元），相比人工标注（470 小时）具有压倒性的经济优势。
显著的性能提升：蒸馏后的学生模型（如 Ditto）在推理速度上比直接使用 LLM 快数十倍至数百倍，解决了 LLM 在大规模场景下落地难的问题。
关键影响因素：研究指出，实体对选择策略、教师模型的选择、标签后处理以及学生模型的架构，共同决定了知识蒸馏的效果。

意义与影响

这项研究揭示了当前 LLM 在解决“数据饥渴”问题上的巨大潜力。它表明，只要配合合适的实体对选择方法，现有的 LLM 能够大幅减少甚至完全消除为特定用例实体匹配任务手动标注训练数据的需求。

对于工业界而言，这一发现意味着：

降低部署门槛：企业可以快速构建高性能的实体匹配系统，无需预先积累大量标注数据。
优化成本结构：将高昂的推理成本（LLM）转化为低廉的训练成本（一次性标注）和极低的推理成本（SLM），实现了全生命周期的成本优化。
加速数据闭环：通过自动化标注流程，企业可以更灵活地适应新的数据源或业务场景，快速迭代模型。

总之，该工作为实体匹配领域提供了一条兼顾效率、成本与性能的新路径，即“LLM 标注 + SLM 推理”的混合范式。

查看原文 →arxiv.org