技术博客arXiv cs.AI·3 小时前

Every Eval Ever：构建AI评估结果统一标准与社区库

原标题：Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results

速览

针对AI评估结果格式分散、框架不一致导致难以比较的问题，研究提出Every Eval Ever。该方案提供统一的JSON Schema和Hugging Face上的众包数据库，支持从多种来源自动转换数据。目前库中已收录超2.2万个模型和2000多个基准测试，旨在推动评估标准化与复用。

AI 深度解读

Every Eval Ever：构建AI评估结果的统一标准与社区仓库

背景

人工智能（AI）领域的评估（Evaluation）已成为测试模型性能、理解技术进展的核心手段。然而，随着模型数量和评估维度的爆炸式增长，当前的评估生态面临着严重的碎片化问题，这极大地阻碍了跨模型、跨基准（Benchmark）的横向对比与分析。

主要痛点体现在两个方面：

数据格式不兼容与存储分散：评估结果散落在各种非结构化或半结构化的载体中，包括各类排行榜（Leaderboards）、学术论文附录、博客文章、评估框架（Evaluation Harness）的日志文件以及自定义的代码仓库。这种分散导致数据难以被统一检索和聚合。
元数据记录不一致与评分差异：不同的评估框架在处理“名义上相同”的评估任务时，往往产生截然不同的分数。由于缺乏统一的元数据标准，不同社区之间的评估科学难以互通，重复造轮子导致成本高昂，且已有的评估数据难以被复用。

为了解决这一“巴别塔”式的问题，研究人员提出了 Every Eval Ever 项目，旨在通过建立统一的模式（Schema）和社区众包仓库，实现AI评估结果的标准化与集中化管理。

核心内容

Every Eval Ever 是首个针对AI评估结果设计的共享模式（Schema）及社区众包仓库。其核心目标是消除评估数据中的异构性，使不同来源的评估结果能够在一个统一的框架下进行比较和分析。

1. 统一的 JSON 模式设计

Every Eval Ever 定义了一种标准化的表示方法，将所有评估结果封装在一个统一的 JSON 文档中。该设计具有以下关键特性：

源无关性（Source-agnostic）：该模式在设计上不与任何特定的评估框架绑定。它既可以接收来自自动化评估框架（如 LLM-as-a-judge 工具）的输出，也可以从学术论文中提取结构化数据。
细粒度支持：除了汇总分数，该模式还可选地存储每个实例（per-instance）的输出结果。这意味着研究人员不仅可以查看模型的总体得分，还可以深入分析模型在特定样本上的具体表现，从而支持更细致的错误分析和归因研究。

2. 三大核心贡献

该项目不仅提出了理论标准，还提供了完整的工程实现和社区基础设施：

社区治理的元数据模式：这是该领域首次标准化的努力。Every Eval Ever 提供了一个由社区共同治理的元数据模式，并附带一个实例级模式（instance-level schema）。这确保了评估数据的语义一致性，使得“准确率”、“幻觉率”等指标在不同上下文中有明确的定义。
自动格式转换器：为了降低迁移成本，项目提供了自动化工具，能够将流行格式、主流评估框架的输出以及现有排行榜的数据，自动转换为 Every Eval Ever 的统一模式。这极大地简化了数据清洗和整合的工作量。
Hugging Face 上的众包数据库：项目托管在 Hugging Face 平台上，构建了一个社区驱动的数据库。截至提交之日，该仓库已收录了：
- 22,235 个模型
- 2,273 个独特的基准测试（Benchmarks）
- 31 种不同的评估格式
这一规模表明，Every Eval Ever 正在迅速成为AI评估数据的中心枢纽。

关键要点

解决碎片化：Every Eval Ever 旨在终结评估结果分散在论文、博客、日志和排行榜中的现状，提供单一的事实来源（Single Source of Truth）。
标准化元数据：通过统一的 JSON Schema，解决了不同评估框架对同一任务评分不一致、元数据记录缺失或歧义的问题。
支持细粒度分析：不仅存储最终得分，还支持存储每个实例的输出，为深入的性能诊断提供了数据基础。
工具链完善：提供了从现有流行格式到统一模式的自动转换器，降低了用户接入新标准的门槛。
社区驱动与开源：依托 Hugging Face 平台，通过众包方式积累数据，目前规模已覆盖两万余模型和两千余个基准，体现了强大的社区协作能力。
促进复用与降本：标准化的数据格式使得评估结果可以被轻松复用，减少了重复评估的成本，并促进了跨社区的评估科学研究。

意义与影响

Every Eval Ever 的提出标志着AI评估领域从“野蛮生长”向“标准化基础设施”迈出了关键一步。

首先，它极大地提升了研究的可复现性与可比性。当所有评估结果都遵循同一套 Schema 时，研究人员可以无需关心数据背后的原始框架，直接进行跨模型、跨基准的横向对比，从而更准确地判断技术的真实进展。

其次，它推动了评估科学的民主化与协作。通过社区众包和统一标准，小型团队或独立研究者也能更容易地接入大规模的评估数据，而无需自建复杂的评估流水线。这有助于降低进入门槛，促进更广泛的创新。

最后，从工程角度看，统一模式有助于优化资源利用。通过复用已有的评估结果，企业和研究机构可以减少重复计算带来的算力浪费和成本支出。随着 Hugging Face 上数据的不断积累，Every Eval Ever 有望成为AI领域类似 ImageNet 或 GLUE 那样的基础性参考标准，为未来的模型开发、评测和监管提供坚实的数据基石。

查看原文 →arxiv.org