AI 资讯雷峰网·1 天前

击败主场霸主英伟达与PI！千寻智能登上具身智能「奥林匹克」最高领奖台

AI 深度解读

背景

具身智能（Embodied AI）领域长期存在“刷榜”现象，即模型在标准化、固定场景的评测基准（Benchmark）中取得高分，但在真实世界的泛化落地中表现不佳。这种评测方式难以反映模型在未知环境、新物体和复杂任务中的实际能力，导致榜单成绩与真实商业价值之间存在巨大鸿沟。

为了解决这一痛点，由加州大学伯克利分校（UC Berkeley）、斯坦福大学（Stanford）和英伟达（NVIDIA）联合发起的全球具身智能实战评测平台 RoboArena 应运而生。该平台被誉为机器人领域的“Chatbot Arena”，旨在通过防作弊、重泛化的实战擂台赛，重新定义具身智能的评测标准。

在此背景下，中国公司千寻智能（Qianxun Intelligence）自研的具身基座模型 Spirit v1.6 在 RoboArena 最新榜单中，力压英伟达最新模型 Cosmos 3 及 Physical Intelligence (PI) 的 Pi0.5，荣登全球第一，成为前三名中唯一的中国具身模型。与此同时，千寻智能官宣完成 15 亿元人民币 A+ 轮融资，今年累计融资近 50 亿元，刷新行业融资速度记录。

核心内容

1. RoboArena 评测机制的革命性突破

RoboArena 与传统 Benchmark 的核心区别在于其评测逻辑从“标准化考试”转变为“全球实战擂台赛”。

泛化能力优先： 传统榜单通常固定场景、任务和评价规则，导致模型可通过针对性训练“刷分”。RoboArena 要求模型面对完全未知的场景、物体和任务组合，切断提前适配的可能性，实打实地考验模型的泛化性与稳定性。
双盲与众包机制： 评测采用“全球众包+双盲”机制。评测员分布在不同国家和地区，任务和场景由研究员自行设计，操作员在测试过程中无法获知模型身份，确保结果客观公正且完全开源。
ELO 动态评级算法： 引入竞技体育中的 ELO 算法，评分不看赢了多少次，而看赢了谁。击败强者获得更高积分，这大幅降低了刷榜空间，使真正具备实力的模型脱颖而出。

2. 千寻智能 Spirit v1.6 的技术实证

千寻智能不仅在 RoboArena 登顶，此前其 Spirit v1.5 也在另一套逻辑完全不同的评测体系 RoboChallenge（由 Dexmal、Hugging Face、智源研究院等发起，侧重统一条件下的综合能力）中登顶。连续在两套体系下获胜，证明其优势并非来自针对性优化，而是模型底层能力的全面提升。

在 RoboArena 的具体任务对比中，Spirit v1.6 展现了显著优势：

开放环境目标识别与操作： 在“将玩具水豚放入餐盘”任务中，桌面散落笔、杯子、足球等干扰物。Spirit v1.6 准确识别语义概念“水豚”并稳定抓取放入盘中；而 PI 的 Pi0.5 识别错误，抓取了绿色杯子且定位不准，反复尝试失败。这体现了千寻模型在杂乱环境中对场景语义理解的深度。
精细力控与物体操作： 在“打开笔记本”任务中，涉及受力点判断、开合角度控制和连续动作规划。Spirit v1.6 成功完成开合过程；英伟达的 Cosmos 3 虽环境干扰物较少，但多次尝试未能成功定位准确的开合位置，缺乏精细的闭环调节能力。

3. “数据金字塔”与分布式数据工厂

千寻智能将技术优势转化为资本青睐的核心，在于其构建了完整的“数据金字塔”战略，解决了具身智能 Scaling Law 中真实世界数据不足的难题。

数据采集降本增效： 自研 uDAS 可穿戴数采设备，历经 7 次迭代，将采集成本降至传统遥操作方式的十分之一，数据可用性提升至 95% 以上。该设备无需搭建实验室，可直接在工业、居家、零售等真实场景作业。
分布式数据超级工厂： 组建国内规模最大的真实数据采集团队，近千台设备分布在 100 多个城市同步采集，形成覆盖采集、清洗、标注和质检的闭环。分布式布局确保了数据的场景覆盖度和品类丰富度，避免单一地点数据的局限性。
“脏数据”训练理念： 千寻刻意保留一定比例的复杂、异常和失败数据（即“脏数据”），认为真实世界充满噪声，保留这些“不标准答案”有助于提升模型在真实社会中的泛化能力，这与 RoboArena 考察不确定因素适应能力的逻辑高度一致。

4. 商业闭环与资本顶配

千寻智能已构建起“场景沉淀数据→数据迭代模型→模型反哺产业”的完整闭环。其机器人已进入宁德时代产线、京东门店、博世全球工厂等场景，获取了美国企业难以获取的数据资源。

资本市场方面，千寻智能三个月内完成四轮融资，累计近 50 亿元。股东阵容包括顺为、云锋等顶级财务 VC，国际美元基金，以及石溪资本、兆易创新等产业资本。市场普遍认为，这是硬科技独角兽上市前的战略铺路，千寻已具备技术闭环与商业闭环的基础。

关键要点

榜首易主： 千寻智能 Spirit v1.6 在由 UC Berkeley、斯坦福、英伟达联合发起的 RoboArena 榜单中排名第一，击败英伟达 Cosmos 3 和 PI Pi0.5，是前三名中唯一的中国模型。
评测革新： RoboArena 采用“全球众包+双盲”机制和 ELO 动态评级算法，重点考察模型在未知场景和物体下的泛化能力，有效遏制了传统 Benchmark 的“刷榜”现象。
双重验证： 千寻智能此前已在侧重标准化能力的 RoboChallenge 榜单登顶，此次在 RoboArena 再次夺冠，证明其模型在标准化环境和开放环境下的综合能力均获验证。
数据战略： 千寻构建“数据金字塔”，通过自研 uDAS 设备降低采集成本，建立分布式数据超级工厂，并采用保留“脏数据”的训练理念，以提升模型泛化能力。
融资纪录： 千寻智能完成 15 亿元 A+ 轮融资，今年累计融资近 50 亿元，刷新具身智能行业融资速度记录，股东涵盖财务 VC、美元基金及产业资本。
落地场景： 千寻机器人已进入宁德时代、京东、博世等真实商业场景，形成“场景-数据-模型”闭环，具备从实验室走向大规模商业落地的能力。

意义与影响

1. 中国具身智能从“制造优势”向“技术话语权”延伸

长期以来，具身智能领域的话语权主要掌握在美国头部机构手中，行业普遍认知为“美国定义技术，中国负责制造”。千寻智能在由美国顶尖机构设计、长期由美国公司主导的 RoboArena 擂台上击败主场霸主，证明中国团队在具身模型层面已具备全球顶尖竞争力。这是中国具身智能产业实现从追赶到并跑，甚至局部领跑的关键一步。

2. 重塑行业评测标准与竞争格局

千寻的登顶表明，具身智能的竞争核心正在从“论文数量”和“标准化榜单高分”转向“实战能力”和“体系能力建设”。RoboArena 的成功实践推动了行业对泛化能力的重视，而千寻通过“脏数据”理念和分布式数据工厂建立的壁垒，展示了未来竞争的关键在于数据规模、场景深度和工程落地能力，而非单纯的参数规模。

3. 加速具身智能的商业化落地进程

千寻智能的大额融资与连续登顶，传递出技术优势正在转化为数据和场景优势的强烈信号。随着模型在真实场景中不断迭代，具身智能有望突破“实验室水土不服”的瓶颈，加速进入工厂、门店和家庭等真实世界。中国具身智能企业凭借场景红利和工程能力，有望在全球市场中占据更主动的位置，开启全球化领跑的新阶段。

查看原文 →leiphone.com

击败主场霸主英伟达与PI！千寻智能登上具身智能「奥林匹克」最高领奖台

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐