Office Comprehension Benchmark:首个办公文档AI理解基准发布
速览
OCB是首个针对Word、Excel和PowerPoint原生文件格式的公开基准,包含文件保真Q&A和领域Q&A两个轨道。前者评估表格、图表、公式等结构与视觉理解,后者考察跨12个行业文档的多步专家推理。每个答案拆解为原子可二元判断的声明,由LLM法官独立评分。实验显示最强模型在默认模式下领域Q&A仅达59.3%,提升推理深度作用有限,转向更高产品层级略有提升。该基准将推动LLM在复杂办公文档处理能力的提升,并提供公开数据集、评估工具、判分提示词及排行榜。
AI 深度解读
## 背景
随着大语言模型(LLM)在自然语言处理领域的快速迭代,各类基准测试已成为评估模型能力的标准工具。Office Comprehension Benchmark(简称OCB)应运而生,填补了LLM在Office文档理解领域的空白。arXiv cs.CL分类下,该论文于2026年5月29日提交,标志着首个公共基准测试的发布,旨在评估LLM系统对原生Office文件格式及其变体的理解能力。
## 核心内容
We introduce Office Comprehension Bench (OCB), the first public benchmark to jointly evaluate LLM systems on Word, Excel, and PowerPoint comprehension over native file formats (.docx, .xlsx, .pptx) and their variants. OCB consists of two tracks.
Office Comprehension Benchmark(OCB)是首个公共基准测试,旨在共同评估LLM系统对Word、Excel和PowerPoint文档理解能力,覆盖原生文件格式(.docx、.xlsx、.pptx)及其变体。OCB包含两个测试轨。
File Fidelity Q&A tests structural and visual perception of office artifacts - tables, charts, embedded images, formulas, and app-specific elements such as headers, speaker notes, and named ranges.
File Fidelity Q&A轨考察Office文稿的结构与视觉感知能力,包括表格、图表、嵌入图像、公式,以及应用特定元素如页眉、演讲者备注和命名范围。
Domain Q&A tests expert-level reasoning grounded in real-world industry documents across 12 professional domains, with queries requiring multi-step analysis and synthesis across documents.
Domain Q&A轨则测试专家级推理能力,要求基于真实行业领域(12个专业领域)的文档进行多步分析与综合。
Each reference answer is decomposed into atomic, binary-gradable claims, and an ensemble of LLM judges scores responses against each claim independently.
参考答案被分解为原子级、二元可评分的主张,并由LLM评委集合独立对每个主张评分响应。
Even the strongest frontier system in its default reasoning mode reaches only about 59.3% on Domain Q&A; increasing thinking depth within a tier does not move performance materially, while moving to a higher product tier yields modest gains.
即使是表现最强的前沿系统在其默认推理模式下,Domain Q&A轨也仅达约59.3%;在同一层级内提升思考深度对性能影响不大,而切换到更高产品层级则带来有限提升。
We release the dataset, evaluation tooling, judge prompt, and a public leaderboard.
论文发布数据集、评估工具、评委提示以及公开排行榜。
## 关键要点
- OCB是首个专门针对Word、Excel和PowerPoint原生格式(.docx、.xlsx、.pptx)及其变体的联合LLM基准测试,涵盖结构感知与专家级推理两个核心轨。
- File Fidelity Q&A轨重点评估文档结构与视觉元素(如表格、图表、公式、页眉、演讲者备注、命名范围)的感知能力。
- Domain Q&A轨聚焦12个真实专业领域,测试多步分析与跨文档综合推理,要求专家级知识应用。
- 参考答案被分解为原子级、二元主张,由LLM评委独立评分,确保评估的客观性和可重复性。
- 即使最强前沿系统在默认模式下Domain Q&A轨仅达59.3%;同一层级提升思考深度效果有限,切换更高产品层级仅获微小进步。
- 论文开源数据集、评估工具、评委提示,并提供公开排行榜,助力行业与研究社区持续改进。
## 意义与影响
OCB的发布为Office文档理解提供了一个标准化、全面的评估框架,直接针对LLM在实际办公场景中的核心能力短板——即处理复杂、结构化且多模态的Office文件。相比此前依赖文本或简单表格的基准测试,OCB首次实现原生格式联合评估,突显了模型在结构感知与领域专家推理上的局限:即使前沿系统表现仅达59.3%,且提升思考深度效果不显著,这表明现有LLM在Office自动化领域的实用性仍有明显差距。
对开发者与研究者而言,OCB的开源资产(数据集、工具、提示)极大降低了测试门槛,鼓励社区构建更贴合企业需求的Office代理系统。同时,对于产品团队,基准结果为模型选择和产品迭代提供量化依据,推动Office应用从简单问答向复杂合成与分析演进。长期来看,OCB有望成为推动LLM代理在企业工作流中落地的重要里程碑,加速从“语言理解”向“文档执行”能力的跨越,并为后续多应用Office自动化基准奠定基础。
