← 返回信息流
AI 资讯TechCrunch AI·1 小时前

AI评测榜单Arena商业化,估值达1亿美元

原标题:Arena, the AI leaderboard everyone uses, is now a $100M business

速览

运营知名免费AI排行榜的初创公司Arena,于去年9月正式推出其商业服务。该榜单已成为业界广泛使用的AI评估标准。如今,这一平台已发展成为估值达1亿美元的商业实体。

AI 深度解读

Arena:从伯克利研究项目到1亿美元营收的AI评测巨头

背景

Arena 最初是加州大学伯克利分校(UC Berkeley)于 2023 年启动的一个研究项目,旨在通过众包方式评估人工智能模型的性能。经过短短八个月的商业化运营,这家以 AI 排行榜闻名的公司宣布其年化收入(Annualized Run-rate Revenue)已达到 1 亿美元。

尽管 Arena 最广为人知的是其免费的、基于超过 1,000 万次用户评估的众包 AI 模型性能排行榜,但其商业模式已迅速转向为企业提供服务。自今年 9 月推出“AI Evaluations”服务以来,Arena 开始向模型实验室和企业客户收费,提供基于社区数据的深度性能分析。这一快速的增长轨迹表明,其商业服务在客户群体中的受欢迎程度,不亚于其在评估者社区中的影响力。

核心内容

1. 商业模式与收入性质 Arena 的核心产品分为两部分:面向公众免费的众包排行榜,以及面向企业的付费分析服务。

  • 免费部分:用户可以在 Arena 的消费者网站上输入提示词(prompt),该提示词会被发送给两个不同的 AI 模型,随后用户选择表现更好的一个。这种机制积累了超过 1,000 万次评估数据。
  • 付费部分:名为“AI Evaluations”的服务,为模型开发者和企业提供基于社区数据的深度性能分析。
  • 收入确认:虽然 Arena 使用“ARR”(年化经常性收入)这一术语来描述其 1 亿美元的里程碑,但联合创始人兼 CEO Anastasios Angelopoulos 澄清,公司的收入并非传统意义上的“经常性”收入,而是基于“消耗量”(consumption)计费。

2. 市场竞争格局 Arena 在众包 AI 模型选择领域几乎没有直接竞争对手——此前类似的初创公司 Yupp 已于今年 3 月关闭。然而,Angelopoulos 指出,Arena 实际上是在与 Mercor、Surge 和 Scale AI 等人工标注初创公司争夺“同一美元”。这些公司同样协助模型制造者在后训练(post-training)阶段优化 AI 模型。随着 AI 提供商致力于最大化模型性能,对后训练优化服务的需求持续激增。

3. 行业背景与融资情况 Arena 的快速增长发生在 AI 行业对数据标注和模型评估需求爆发的背景下。

  • 融资里程碑:今年 1 月,Arena 宣布以 17 亿美元的投后估值完成 1.5 亿美元的 A 轮融资,当时其年化收入为 3,000 万美元。这意味着在两个月内,其年化收入增长了近三倍。
  • 行业对比:据 The Information 报道,Handshake 的 AI 训练年化总收入自 1 月以来几乎翻倍,从 5.5 亿美元增至近 10 亿美元;Mercor 的年化收入也在今年早些时候突破 10 亿美元大关,较去年 9 月的 5 亿美元大幅增长。

4. 产品功能与团队构成

  • 功能扩展:Arena 不仅在文本、编程、视觉和图像生成等任务上对模型进行排名,还通过最近推出的“Agent Mode”(智能体模式)对复杂的长流程工作流进行评估。
  • 创始团队:Arena 由 UC Berkeley 的博士后研究员 Wei-Lin Chiang(现任 CTO)与 Anastasios Angelopoulos 共同创立。知名 UC Berkeley 教授、Databricks 联合创始人 Ion Stoica 在项目成立公司前提供了顾问支持。公司于 2025 年 4 月正式注册为公司。
  • 投资方阵容:Arena 累计融资 2.5 亿美元,投资者包括 Felicis、Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners、Laude Ventures 和 UC Investments 等顶级机构。

关键要点

  • 营收爆发式增长:Arena 在商业化仅 8 个月后,年化收入即达到 1 亿美元,从 1 月份融资时的 3,000 万美元迅速攀升。
  • 非经常性收入模式:尽管使用 ARR 术语,但 Arena 的收入基于“消耗量”计费,而非传统的订阅制经常性收入。
  • 间接竞争激烈:Arena 虽无直接竞争对手,但与 Scale AI、Mercor 等人工标注及后训练优化公司争夺企业预算。
  • 社区驱动数据壁垒:其核心优势在于拥有超过 1,000 万次真实用户评估数据,且评估者社区常因能提前接触未发布的最新 AI 模型而被吸引。
  • 顶级资本背书:累计 2.5 亿美元融资,汇聚了硅谷最顶尖的风险投资机构,估值已达 17 亿美元。
  • 学术背景深厚:源自 UC Berkeley 研究项目,由 Ion Stoisa 等知名学者支持,体现了学术界向商业应用转化的典型路径。

意义与影响

Arena 的成功标志着 AI 基础设施领域的一个关键转折点:模型评估与后训练优化已成为独立且高价值的商业赛道。

首先,Arena 证明了“众包评估”不仅是一个研究工具,更是一个可扩展的 B2B 业务。它利用社区对新技术的渴望(早期访问未发布模型)来构建高质量的数据反馈循环,进而将这种数据资产变现。这种模式解决了大模型开发中“黑盒”评估的痛点,为模型性能提供了可量化的市场标准。

其次,1 亿美元的年化收入及其增长速度,反映了 AI 行业重心的转移。随着基础大模型能力的边际效应递减,竞争焦点正从“预训练”转向“后训练”阶段的精细化调优。Scale AI、Mercor 和 Arena 的崛起表明,企业愿意为提升模型质量、安全性和对齐效果支付高昂溢价。

最后,Arena 的商业模式也引发了对 AI 行业收入结构的思考。基于“消耗量”而非“订阅”的收入模式,意味着其增长高度依赖于客户模型迭代和测试的频率。这既带来了高增长潜力,也意味着收入波动性可能高于传统 SaaS 产品。对于投资者和行业观察者而言,Arena 的表现将是衡量 AI 应用层成熟度和企业 AI 支出健康度的重要风向标。

查看原文 →techcrunch.com