← 返回信息流
AI 资讯雷峰网·1 天前

击败主场霸主英伟达与PI!千寻智能登上具身智能「奥林匹克」最高领奖台

AI 深度解读

背景

具身智能(Embodied AI)领域长期存在“刷榜”现象,即模型在标准化、固定场景的评测基准(Benchmark)中取得高分,但在真实世界的泛化落地中表现不佳。这种评测方式难以反映模型在未知环境、新物体和复杂任务中的实际能力,导致榜单成绩与真实商业价值之间存在巨大鸿沟。

为了解决这一痛点,由加州大学伯克利分校(UC Berkeley)、斯坦福大学(Stanford)和英伟达(NVIDIA)联合发起的全球具身智能实战评测平台 RoboArena 应运而生。该平台被誉为机器人领域的“Chatbot Arena”,旨在通过防作弊、重泛化的实战擂台赛,重新定义具身智能的评测标准。

在此背景下,中国公司千寻智能(Qianxun Intelligence)自研的具身基座模型 Spirit v1.6 在 RoboArena 最新榜单中,力压英伟达最新模型 Cosmos 3 及 Physical Intelligence (PI) 的 Pi0.5,荣登全球第一,成为前三名中唯一的中国具身模型。与此同时,千寻智能官宣完成 15 亿元人民币 A+ 轮融资,今年累计融资近 50 亿元,刷新行业融资速度记录。

核心内容

1. RoboArena 评测机制的革命性突破

RoboArena 与传统 Benchmark 的核心区别在于其评测逻辑从“标准化考试”转变为“全球实战擂台赛”。

  • 泛化能力优先: 传统榜单通常固定场景、任务和评价规则,导致模型可通过针对性训练“刷分”。RoboArena 要求模型面对完全未知的场景、物体和任务组合,切断提前适配的可能性,实打实地考验模型的泛化性与稳定性。
  • 双盲与众包机制: 评测采用“全球众包+双盲”机制。评测员分布在不同国家和地区,任务和场景由研究员自行设计,操作员在测试过程中无法获知模型身份,确保结果客观公正且完全开源。
  • ELO 动态评级算法: 引入竞技体育中的 ELO 算法,评分不看赢了多少次,而看赢了谁。击败强者获得更高积分,这大幅降低了刷榜空间,使真正具备实力的模型脱颖而出。

2. 千寻智能 Spirit v1.6 的技术实证

千寻智能不仅在 RoboArena 登顶,此前其 Spirit v1.5 也在另一套逻辑完全不同的评测体系 RoboChallenge(由 Dexmal、Hugging Face、智源研究院等发起,侧重统一条件下的综合能力)中登顶。连续在两套体系下获胜,证明其优势并非来自针对性优化,而是模型底层能力的全面提升。

在 RoboArena 的具体任务对比中,Spirit v1.6 展现了显著优势:

  • 开放环境目标识别与操作: 在“将玩具水豚放入餐盘”任务中,桌面散落笔、杯子、足球等干扰物。Spirit v1.6 准确识别语义概念“水豚”并稳定抓取放入盘中;而 PI 的 Pi0.5 识别错误,抓取了绿色杯子且定位不准,反复尝试失败。这体现了千寻模型在杂乱环境中对场景语义理解的深度。
  • 精细力控与物体操作: 在“打开笔记本”任务中,涉及受力点判断、开合角度控制和连续动作规划。Spirit v1.6 成功完成开合过程;英伟达的 Cosmos 3 虽环境干扰物较少,但多次尝试未能成功定位准确的开合位置,缺乏精细的闭环调节能力。

3. “数据金字塔”与分布式数据工厂

千寻智能将技术优势转化为资本青睐的核心,在于其构建了完整的“数据金字塔”战略,解决了具身智能 Scaling Law 中真实世界数据不足的难题。

  • 数据采集降本增效: 自研 uDAS 可穿戴数采设备,历经 7 次迭代,将采集成本降至传统遥操作方式的十分之一,数据可用性提升至 95% 以上。该设备无需搭建实验室,可直接在工业、居家、零售等真实场景作业。
  • 分布式数据超级工厂: 组建国内规模最大的真实数据采集团队,近千台设备分布在 100 多个城市同步采集,形成覆盖采集、清洗、标注和质检的闭环。分布式布局确保了数据的场景覆盖度和品类丰富度,避免单一地点数据的局限性。
  • “脏数据”训练理念: 千寻刻意保留一定比例的复杂、异常和失败数据(即“脏数据”),认为真实世界充满噪声,保留这些“不标准答案”有助于提升模型在真实社会中的泛化能力,这与 RoboArena 考察不确定因素适应能力的逻辑高度一致。

4. 商业闭环与资本顶配

千寻智能已构建起“场景沉淀数据→数据迭代模型→模型反哺产业”的完整闭环。其机器人已进入宁德时代产线、京东门店、博世全球工厂等场景,获取了美国企业难以获取的数据资源。

资本市场方面,千寻智能三个月内完成四轮融资,累计近 50 亿元。股东阵容包括顺为、云锋等顶级财务 VC,国际美元基金,以及石溪资本、兆易创新等产业资本。市场普遍认为,这是硬科技独角兽上市前的战略铺路,千寻已具备技术闭环与商业闭环的基础。

关键要点

  • 榜首易主: 千寻智能 Spirit v1.6 在由 UC Berkeley、斯坦福、英伟达联合发起的 RoboArena 榜单中排名第一,击败英伟达 Cosmos 3 和 PI Pi0.5,是前三名中唯一的中国模型。
  • 评测革新: RoboArena 采用“全球众包+双盲”机制和 ELO 动态评级算法,重点考察模型在未知场景和物体下的泛化能力,有效遏制了传统 Benchmark 的“刷榜”现象。
  • 双重验证: 千寻智能此前已在侧重标准化能力的 RoboChallenge 榜单登顶,此次在 RoboArena 再次夺冠,证明其模型在标准化环境和开放环境下的综合能力均获验证。
  • 数据战略: 千寻构建“数据金字塔”,通过自研 uDAS 设备降低采集成本,建立分布式数据超级工厂,并采用保留“脏数据”的训练理念,以提升模型泛化能力。
  • 融资纪录: 千寻智能完成 15 亿元 A+ 轮融资,今年累计融资近 50 亿元,刷新具身智能行业融资速度记录,股东涵盖财务 VC、美元基金及产业资本。
  • 落地场景: 千寻机器人已进入宁德时代、京东、博世等真实商业场景,形成“场景-数据-模型”闭环,具备从实验室走向大规模商业落地的能力。

意义与影响

1. 中国具身智能从“制造优势”向“技术话语权”延伸

长期以来,具身智能领域的话语权主要掌握在美国头部机构手中,行业普遍认知为“美国定义技术,中国负责制造”。千寻智能在由美国顶尖机构设计、长期由美国公司主导的 RoboArena 擂台上击败主场霸主,证明中国团队在具身模型层面已具备全球顶尖竞争力。这是中国具身智能产业实现从追赶到并跑,甚至局部领跑的关键一步。

2. 重塑行业评测标准与竞争格局

千寻的登顶表明,具身智能的竞争核心正在从“论文数量”和“标准化榜单高分”转向“实战能力”和“体系能力建设”。RoboArena 的成功实践推动了行业对泛化能力的重视,而千寻通过“脏数据”理念和分布式数据工厂建立的壁垒,展示了未来竞争的关键在于数据规模、场景深度和工程落地能力,而非单纯的参数规模。

3. 加速具身智能的商业化落地进程

千寻智能的大额融资与连续登顶,传递出技术优势正在转化为数据和场景优势的强烈信号。随着模型在真实场景中不断迭代,具身智能有望突破“实验室水土不服”的瓶颈,加速进入工厂、门店和家庭等真实世界。中国具身智能企业凭借场景红利和工程能力,有望在全球市场中占据更主动的位置,开启全球化领跑的新阶段。

查看原文 →leiphone.com