技术博客arXiv cs.CL·4 小时前

LEDGER：面向财报长文本检索与提取的基准评测

原标题：LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction

速览

为评估大模型在金融领域的长上下文处理能力，研究团队发布了LEDGER基准数据集。该数据集包含4999份带有图表和叙述的完整企业年报，并标注了31项关键财务指标。研究构建了涵盖页面级检索、单值查找及完整指标提取的多难度评测任务，并验证了其在CEO信函修辞与市场影响关联研究中的价值。

AI 深度解读

LEDGER：面向长上下文金融检索与提取的企业年报基准测试深度解读

背景

财务报告领域长期以来被视为检验大型语言模型（LLM）能力的天然试验场。随着近期发布的各类规模模型在超长上下文窗口（Long-Context）能力上的显著突破，针对这一特定领域进行严谨、系统性的评估变得日益迫切。

然而，当前的公共金融资源在评估任务设计上存在明显局限。大多数现有的基准测试将任务简化为纯文本的美国证券交易委员会（SEC）10-K 文件，并仅配对少量的问答对。这种处理方式忽略了真实商业环境中财报的复杂性——即包含大量图表、数据表格以及非结构化的叙述性文本。这种简化导致现有基准难以全面反映模型在处理高密度、多模态（文本+表格+图像/图表）长文档时的真实能力。

核心内容

为了解决上述痛点，研究团队发布了 LEDGER（Long-context Evaluation of Documents for Grounded Extraction and Retrieval，面向有依据提取与检索的文档长上下文评估）。这是一个包含 4,999 份数字化企业年度报告的大型语料库。与传统的监管文件不同，LEDGER 包含完整的文档内容，涵盖图表、表格和叙述性文本。

1. 数据集构建与标注

数据规模：收录 4,999 份企业年度报告。
标注内容：每份报告均标注了 31 项合并财务关键绩效指标（KPIs）。
市场关联：这些提取出的 KPI 被链接至财报发布日当天的市场反应数据，从而支持对“信息-市场影响”关系的分析。
质量控制：提供了人工 OCR（光学字符识别）质量级别的标注，并附带了标注者间一致性（Inter-annotator agreement）指标，确保了数据的可靠性。

2. 三大评估基准

基于该数据集，研究团队构建了覆盖难度光谱的三个评估基准：

纯页面级 KPI 检索任务：包含 118,048 个自然语言问题，采用类似 TREC（文本检索会议）的相关性判断标准，评估模型在长文档中定位特定财务信息的能力。
对话式“大海捞针”单值查找：模拟真实对话场景，要求模型在冗长文档中准确查找单一数值，测试其长上下文记忆与注意力机制的有效性。
完整 KPI 提取任务：要求模型从长且数值密集的报告中提取完整的 KPI 数据，测试其结构化信息抽取能力。

3. 工具链与研究用例

完整工具链：研究团队提供了完整的提取、验证和评分工具链，方便其他研究者复现和扩展实验。
案例研究：通过一个具体案例展示了数据集的研究价值——分析 CEO 信函中的修辞风格与发布后市场影响之间的关联，证明了该基准不仅适用于技术评估，还可用于金融语言学和社会科学交叉研究。

关键要点

突破传统局限：LEDGER 摒弃了仅使用纯文本 SEC 10-K 文件的传统做法，引入了包含图表、表格和叙述性文本的完整年度报告，更贴近真实业务场景。
大规模量化标注：对近 5,000 份报告进行了精细化的 31 项财务 KPI 标注，并建立了与自然语言问题（超 11.8 万个）的映射关系。
多维度的评估体系：
- 检索能力：通过 TREC 风格的相关性判断评估长文档信息定位。
- 记忆与注意力：通过“大海捞针”任务测试模型在超长上下文中的单点查找精度。
- 提取能力：评估从非结构化/半结构化混合文本中抽取结构化财务数据的能力。
高质量数据保障：提供了人工 OCR 级标注及一致性指标，解决了自动处理财报时常见的识别错误问题。
开放的工具生态：公开了完整的提取、验证和评分工具链，降低了后续研究的门槛。
跨学科研究价值：除了作为 NLP 模型的基准，LEDGER 还支持将文本特征（如 CEO 信函修辞）与市场结果关联的实证研究。

意义与影响

LEDGER 的发布填补了金融领域长上下文基准测试的空白，其意义体现在以下几个维度：

推动模型评估的精细化：随着 LLM 上下文窗口不断扩展，简单的 QA 测试已不足以衡量模型在复杂商业文档中的表现。LEDGER 提供了更贴近工业界需求的评估标准，迫使模型在理解图表、处理噪声文本和保持长程依赖方面取得实质性进步。
促进金融 AI 的落地应用：金融机构对自动化财报分析、合规审查和投资决策支持有巨大需求。LEDGER 所涵盖的“有依据提取”（Grounded Extraction）概念，强调了答案必须能在原文中找到确切依据，这对于减少大模型幻觉、提高金融决策的可解释性至关重要。
加速多模态与结构化数据研究：通过整合表格、图表和文本，LEDGER 为研究如何更好地融合多模态信息提供了高质量数据源，有助于开发更强大的文档智能（Document Intelligence）系统。
赋能金融学术研究：通过链接财务数据与市场反应，该基准为量化金融、行为金融学等领域的研究者提供了新的数据视角，使得大规模分析文本情绪、修辞与股价波动之间的关系成为可能。

总之，LEDGER 不仅是一个技术基准，更是一个连接自然语言处理技术与金融实际应用的桥梁，为下一代金融 AI 系统的开发、评估和研究奠定了坚实基础。

查看原文 →arxiv.org