技术博客arXiv cs.CL·14 小时前

LakeQA：面向百万级数据湖的探索性问答基准

原标题：LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake

速览

针对现实世界中证据分散于海量数据湖的难题，研究团队推出了LakeQA基准。该基准基于约9.5TB的异构数据构建，要求模型具备长程多跳推理和跨源证据组合能力。实验显示前沿大模型在该基准上表现不佳，凸显了其在真实数据湖场景下的挑战。

AI 深度解读

LakeQA：百万级数据湖上的探索性问答基准测试深度解读

背景

近年来，大型语言模型（LLMs）在阅读型问答（Reading-based QA）领域取得了显著进展。在这类任务中，证据通常被明确提供，或者可以通过简单的检索轻松获取。然而，现实世界中的问题往往并非如此理想。真实场景下的问题通常没有直接配对准确的证据文档，有用的证据分散在庞大的数据湖（Data Lakes）中。这意味着，在回答任何问题之前，搜索成为了一个不可或缺的前置步骤。

尽管数据湖在现代数据架构中占据核心地位，但目前缺乏能够全面评估模型在大型数据湖上进行搜索和推理能力的基准测试。现有的基准测试大多侧重于短文本检索或简单的多跳推理，难以模拟真实环境中“发现文档”与“跨源组合证据”的复杂过程。为了填补这一空白，研究者引入了 LakeQA，旨在构建一个以搜索为中心的问答基准，同时强调模型的搜索能力和推理能力。

核心内容

LakeQA 是一个专为数据湖设计的综合性基准测试，其核心目标是评估模型在执行搜索密集型问答任务时的表现。该基准不仅关注最终答案的准确性，更强调模型在海量数据中发现正确文档并整合多源证据进行长视距多跳推理的能力。

数据构建与规模 LakeQA 建立在异构数据集合之上，总规模约为 9.5 TB 的文本资源。这些数据主要来源于维基百科（Wikipedia）和开源政府数据，涵盖了结构化数据和非结构化数据。这种大规模、异构的数据集模拟了现代企业或机构中真实存在的数据湖环境，其中数据格式多样、体量巨大且缺乏统一的索引结构。

标注质量与任务设计 为了确保任务的高质量和高难度，LakeQA 中的每个样本都至少由一位拥有博士学位的专家进行标注。每个任务都要求模型执行长视距（long-horizon）的多跳推理，且中间步骤是隐式的。具体而言，智能体（Agent）需要完成以下复杂流程：

发现正确文档：在海量数据中定位相关的证据片段。
跨源组合证据：从不同的数据源中提取信息，并将它们逻辑地组合起来。
生成答案：基于综合后的证据生成最终答案。

这种设计迫使模型不仅要具备强大的检索能力，还要具备复杂的逻辑推理和信息整合能力，这与传统 QA 任务中直接给定上下文的做法有本质区别。

实验结果与挑战性 研究者对七款前沿的大型语言模型进行了测试，结果证实 LakeQA 具有极高的挑战性。例如，即使是目前最先进的 GPT-5.2，在 LakeQA 上的精确匹配（Exact-match）得分也仅为 18.37%。这一低分表明，当前的 SOTA 模型在处理大规模、异构数据湖中的搜索与推理任务时，仍存在巨大的性能瓶颈。

关键要点

填补基准空白：LakeQA 是首个专注于大规模数据湖环境的搜索型问答基准，解决了现有基准缺乏对“搜索+推理”双重能力评估的问题。
超大规模异构数据：基准测试基于约 9.5 TB 的维基百科和开源政府数据，涵盖结构化与非结构化数据，真实模拟现代数据湖场景。
专家级标注质量：每个样本均经过至少一名博士级专家标注，确保任务定义的准确性和推理路径的合理性。
复杂的推理需求：任务要求模型执行隐式中间步骤的长视距多跳推理，需先发现文档再跨源整合证据，而非简单的上下文抽取。
SOTA 模型表现不佳：七款前沿 LLM 测试结果显示，即使是 GPT-5.2 的精确匹配得分也仅为 18.37%，凸显了该任务的极高难度。
Agent 开发测试床：LakeQA 为开发能够在现代数据湖中既“查找”又“分析”数据的 LLM Agent 提供了逼真的测试环境。

意义与影响

LakeQA 的发布对大语言模型的研究和应用具有深远意义。首先，它揭示了当前 LLM 在应对真实世界复杂数据环境时的局限性。尽管模型在封闭数据集上的表现优异，但在面对开放、大规模、异构的数据湖时，其检索和推理能力仍有巨大提升空间。

其次，LakeQA 为 LLM Agent 的开发提供了关键的评估标准。随着企业越来越多地采用数据湖架构，能够自主在数据湖中搜索、理解并整合信息的智能体将成为刚需。LakeQA 作为一个高难度的基准，能够有效地筛选和推动那些具备真正“搜索-推理”闭环能力的模型发展。

最后，该基准强调了数据质量和标注的重要性。通过引入博士级专家标注，LakeQA 证明了构建高质量、高难度基准对于推动 AI 技术进步的关键作用。未来的研究可以基于 LakeQA 进一步优化检索算法、改进多跳推理机制，从而缩小当前 SOTA 模型与人类专家水平之间的差距，推动 AI 在金融、医疗、政府服务等依赖大量数据决策领域的实际应用。

查看原文 →arxiv.org