技术博客arXiv cs.CL·1 天前

LLM辅助框架修正FOLIO与MALLS数据集标注错误

原标题：Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

速览

研究团队对FOLIO和MALLS数据集进行人工审计，发现约39%和36%的条目存在一阶逻辑形式化错误。基于此，团队发布了修正后的基准数据，并开发了一种LLM辅助框架以指导人工复核。该方法能精准定位错误实例，在仅复核不到24%数据的情况下即可达到90%的准确率，大幅优于传统无引导方式。

AI 深度解读

修复 FOLIO 与 MALLS：经人工验证的标注与聚焦人类重标注的 LLM 辅助框架

背景

自然语言到一阶逻辑（Natural Language to First-Order Logic, NL-to-FOL）的准确转换是神经符号人工智能（Neurosymbolic AI）系统和自然语言推理（Natural Language Inference, NLI）任务的基石。在这一领域，基准数据集（Benchmarks）的质量直接决定了模型评估的可靠性。然而，尽管 NL-to-FOL 基准数据集被广泛使用，学术界此前从未对这些数据集进行过严谨的审计。

FOLIO 和 MALLS 是该领域两个重要的公开数据集。长期以来，研究者假设这些数据集的标注是准确且无歧义的，并以此作为评估模型性能的“黄金标准”。但随着基于大语言模型（LLM）的神经符号方法的发展，数据集本身的噪声和错误开始显著影响对模型真实能力的判断。

核心内容

本文针对 FOLIO 和 MALLS 数据集进行了系统性的审计，并提出了一套利用大语言模型辅助人类进行数据清洗的新框架。研究主要包含以下两个核心贡献：

1. 数据集审计：揭示高比例的标注错误

研究团队对 FOLIO 数据集的验证集（validation split）以及 MALLS 数据集的一部分测试实例进行了系统性的人工检查。审计结果令人震惊，揭示了现有基准数据中存在的严重质量问题：

FOLIO 数据集问题：
- 约 39% 的条目包含错误的一阶逻辑（FOL）形式化表达（即“地面真值”标签错误）。
- 约 16.4% 的自然语言句子存在歧义。
- 约 8.4% 的自然语言推理（NLI）标签错误。
MALLS 数据集问题：
- 约 36% 的条目包含错误的 FOL 形式化表达。
- 约 48% 的自然语言句子存在歧义。

这些发现表明，现有的 NL-to-FOL 基准数据集并非如预期般完美，其中包含大量噪声。

2. 修正数据与评估偏差分析

基于上述审计结果，研究团队开发并发布了修正后的“地面真值”（corrected ground truths）。为了量化标注错误对模型评估的影响，研究者使用修正后的数据重新测试了三个最先进的 LLM 模型：Gemma 4 31B-it、Qwen3-30B-A3B 和 GPT-4o-mini。

结果显示，使用修正后的地面真值进行评估时，这些模型的准确率提升了 +9 到 +22 个百分点。这一显著的性能提升证明，原有的标注错误严重扭曲了模型在参考基准任务上的评估结果，导致模型性能被低估或评估标准失真。

3. LLM 辅助的人类重标注框架

受上述发现启发，研究团队提出了一种基于 LLM 的框架，旨在辅助人类更高效地手动审查 NL-to-FOL 数据集。该框架的核心逻辑是：

聚焦高风险实例： 利用 LLM 识别并引导人类审查员重点关注那些最容易出错的数据实例，而非随机或均匀地分配审查任务。
效率提升： 实证研究表明，通过这种引导式审查，人类只需审查少于 24% 的数据实例，即可达到 90% 的数据集准确率。
对比基准： 相比之下，如果没有 LLM 的引导（即无指导审查），要达到同样的准确率需要审查超过 70% 的数据实例。

研究团队已公开所有经过人工验证的标注数据以及该框架的代码。

关键要点

基准数据存在严重缺陷： FOLIO 和 MALLS 等主流 NL-to-FOL 数据集中，分别有约 39% 和 36% 的条目存在错误的逻辑形式化标签，且存在高比例的歧义句子。
错误标签扭曲评估结果： 使用修正后的地面真值重新评估，SOTA 模型（如 Gemma 4, Qwen3, GPT-4o-mini）的准确率提升了 9-22 个百分点，证明原有基准无法真实反映模型能力。
LLM 可作为高效的“预审员”： 提出的 LLM 辅助框架能够通过识别高风险样本，将人类审查员的工作量减少至原来的 1/3 左右（从 >70% 降至 <24%），同时保持 90% 的高数据质量。
开源贡献： 研究团队公开了修正后的数据集标注和辅助审查框架的代码，为后续研究提供了更可靠的基础设施。

意义与影响

这项研究对神经符号 AI 和自然语言处理领域具有深远的影响：

重塑评估标准： 它迫使研究者重新审视 NL-to-FOL 任务的评估基准。未来的模型比较必须基于经过严格清洗和验证的数据集，否则性能对比将失去意义。
提高数据构建效率： 提出的 LLM 辅助框架为大规模语料库的清洗和标注提供了新的范式。它证明了人机协作（Human-in-the-loop）在解决数据质量问题上的巨大潜力，特别是当 LLM 用于“筛选”而非“生成”时，可以极大降低人工成本。
推动神经符号 AI 的发展： 更干净、更准确的数据集将有助于训练出更鲁棒的神经符号模型，促进逻辑推理与自然语言理解技术的融合。
警示数据质量的重要性： 该研究再次强调，在 AI 研究中，数据质量往往比模型架构更重要。忽视数据审计可能导致对技术进步的错误乐观估计或低估。

查看原文 →arxiv.org