AI 资讯TechCrunch AI·1 小时前

AI评测榜单Arena商业化，估值达1亿美元

原标题：Arena, the AI leaderboard everyone uses, is now a $100M business

速览

运营知名免费AI排行榜的初创公司Arena，于去年9月正式推出其商业服务。该榜单已成为业界广泛使用的AI评估标准。如今，这一平台已发展成为估值达1亿美元的商业实体。

AI 深度解读

Arena：从伯克利研究项目到1亿美元营收的AI评测巨头

背景

Arena 最初是加州大学伯克利分校（UC Berkeley）于 2023 年启动的一个研究项目，旨在通过众包方式评估人工智能模型的性能。经过短短八个月的商业化运营，这家以 AI 排行榜闻名的公司宣布其年化收入（Annualized Run-rate Revenue）已达到 1 亿美元。

尽管 Arena 最广为人知的是其免费的、基于超过 1,000 万次用户评估的众包 AI 模型性能排行榜，但其商业模式已迅速转向为企业提供服务。自今年 9 月推出“AI Evaluations”服务以来，Arena 开始向模型实验室和企业客户收费，提供基于社区数据的深度性能分析。这一快速的增长轨迹表明，其商业服务在客户群体中的受欢迎程度，不亚于其在评估者社区中的影响力。

核心内容

1. 商业模式与收入性质 Arena 的核心产品分为两部分：面向公众免费的众包排行榜，以及面向企业的付费分析服务。

免费部分：用户可以在 Arena 的消费者网站上输入提示词（prompt），该提示词会被发送给两个不同的 AI 模型，随后用户选择表现更好的一个。这种机制积累了超过 1,000 万次评估数据。
付费部分：名为“AI Evaluations”的服务，为模型开发者和企业提供基于社区数据的深度性能分析。
收入确认：虽然 Arena 使用“ARR”（年化经常性收入）这一术语来描述其 1 亿美元的里程碑，但联合创始人兼 CEO Anastasios Angelopoulos 澄清，公司的收入并非传统意义上的“经常性”收入，而是基于“消耗量”（consumption）计费。

2. 市场竞争格局 Arena 在众包 AI 模型选择领域几乎没有直接竞争对手——此前类似的初创公司 Yupp 已于今年 3 月关闭。然而，Angelopoulos 指出，Arena 实际上是在与 Mercor、Surge 和 Scale AI 等人工标注初创公司争夺“同一美元”。这些公司同样协助模型制造者在后训练（post-training）阶段优化 AI 模型。随着 AI 提供商致力于最大化模型性能，对后训练优化服务的需求持续激增。

3. 行业背景与融资情况 Arena 的快速增长发生在 AI 行业对数据标注和模型评估需求爆发的背景下。

融资里程碑：今年 1 月，Arena 宣布以 17 亿美元的投后估值完成 1.5 亿美元的 A 轮融资，当时其年化收入为 3,000 万美元。这意味着在两个月内，其年化收入增长了近三倍。
行业对比：据 The Information 报道，Handshake 的 AI 训练年化总收入自 1 月以来几乎翻倍，从 5.5 亿美元增至近 10 亿美元；Mercor 的年化收入也在今年早些时候突破 10 亿美元大关，较去年 9 月的 5 亿美元大幅增长。

4. 产品功能与团队构成

功能扩展：Arena 不仅在文本、编程、视觉和图像生成等任务上对模型进行排名，还通过最近推出的“Agent Mode”（智能体模式）对复杂的长流程工作流进行评估。
创始团队：Arena 由 UC Berkeley 的博士后研究员 Wei-Lin Chiang（现任 CTO）与 Anastasios Angelopoulos 共同创立。知名 UC Berkeley 教授、Databricks 联合创始人 Ion Stoica 在项目成立公司前提供了顾问支持。公司于 2025 年 4 月正式注册为公司。
投资方阵容：Arena 累计融资 2.5 亿美元，投资者包括 Felicis、Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners、Laude Ventures 和 UC Investments 等顶级机构。

关键要点

营收爆发式增长：Arena 在商业化仅 8 个月后，年化收入即达到 1 亿美元，从 1 月份融资时的 3,000 万美元迅速攀升。
非经常性收入模式：尽管使用 ARR 术语，但 Arena 的收入基于“消耗量”计费，而非传统的订阅制经常性收入。
间接竞争激烈：Arena 虽无直接竞争对手，但与 Scale AI、Mercor 等人工标注及后训练优化公司争夺企业预算。
社区驱动数据壁垒：其核心优势在于拥有超过 1,000 万次真实用户评估数据，且评估者社区常因能提前接触未发布的最新 AI 模型而被吸引。
顶级资本背书：累计 2.5 亿美元融资，汇聚了硅谷最顶尖的风险投资机构，估值已达 17 亿美元。
学术背景深厚：源自 UC Berkeley 研究项目，由 Ion Stoisa 等知名学者支持，体现了学术界向商业应用转化的典型路径。

意义与影响

Arena 的成功标志着 AI 基础设施领域的一个关键转折点：模型评估与后训练优化已成为独立且高价值的商业赛道。

首先，Arena 证明了“众包评估”不仅是一个研究工具，更是一个可扩展的 B2B 业务。它利用社区对新技术的渴望（早期访问未发布模型）来构建高质量的数据反馈循环，进而将这种数据资产变现。这种模式解决了大模型开发中“黑盒”评估的痛点，为模型性能提供了可量化的市场标准。

其次，1 亿美元的年化收入及其增长速度，反映了 AI 行业重心的转移。随着基础大模型能力的边际效应递减，竞争焦点正从“预训练”转向“后训练”阶段的精细化调优。Scale AI、Mercor 和 Arena 的崛起表明，企业愿意为提升模型质量、安全性和对齐效果支付高昂溢价。

最后，Arena 的商业模式也引发了对 AI 行业收入结构的思考。基于“消耗量”而非“订阅”的收入模式，意味着其增长高度依赖于客户模型迭代和测试的频率。这既带来了高增长潜力，也意味着收入波动性可能高于传统 SaaS 产品。对于投资者和行业观察者而言，Arena 的表现将是衡量 AI 应用层成熟度和企业 AI 支出健康度的重要风向标。

查看原文 →techcrunch.com