HistoriQA-ThirdRepublic: Multi-Hop Question Answering Corpus for Historical Research, Parliamentary Debates from the French Third Republic (1870-1940)
AI 深度解读
HistoriQA-ThirdRepublic:面向历史研究的多跳问答语料库——基于法国第三共和国(1870-1940)议会辩论
背景
当前,自然语言处理(NLP)领域的大型语言模型(LLM)和检索增强生成(RAG)系统在通用基准测试上取得了显著进展,但在特定专业领域的评估仍存在巨大空白。历史研究具有高度的复杂性,往往需要研究者跨越不同文献、结合时间线索、整合零散证据进行深度推理,而现有的通用问答数据集难以模拟这种真实的学术探究需求。为了弥合 NLP 基准测试与历史学术研究之间的差距,专门面向历史学界的垂直领域评测资源亟待开发。
核心内容
本文介绍了 HistoriQA-ThirdRepublic,这是一个专为历史研究设计的法语多跳问答(Multi-Hop Question Answering)语料库。该语料库的数据源自法国第三共和国(1870-1940)时期的议会辩论记录和报纸文章。
该数据集由历史学家参与设计,精准捕捉了历史探究中的复杂推理模式,主要包括:
- 跨源合成:需要在不同文献之间建立联系;
- 时间推理:基于时间线索进行逻辑推导;
- 稀疏证据整合:从碎片化的信息中拼凑出完整答案。
数据集共包含 1782 个问题,其核心特征在于强调跨越异构历史文档的多跳连接,这为在特定领域上下文中评估 RAG 和 LLM 系统提供了宝贵的资源
查看原文 →arxiv.org
