AI 资讯雷峰网·3 小时前

千寻智能高阳团队FP3入围ICRA 2026最佳论文

原标题：ICRA 2026最佳论文奖，千寻智能首席科学家、清华高阳团队FP3入围

速览

千寻智能首席科学家高阳团队研发的三维基座策略模型FP3入围IEEE ICRA 2026最佳论文奖。该模型基于1.3B参数扩散Transformer架构，利用3D点云显著提升了机器人操作的泛化性与控制精度。与此同时，千寻智能自研模型Spirit v1.6登顶RoboArena榜单，并宣布完成15亿元A+轮融资，行业竞争日趋激烈。

AI 深度解读

背景

在 ICRA 2026（国际机器人与自动化国际会议）期间，具身智能（Embodied AI）领域的竞争进一步白热化。千寻智能（Qianxun Intelligence）首席科学家、清华大学高阳团队提出的 FP3 模型凭借在开放未知场景下的卓越表现，入围最佳论文奖。与此同时，千寻智能在商业融资、模型性能基准测试以及数据积累方面均取得了重大进展，标志着中国具身智能赛道在技术突破与资本热度上双双刷新纪录。

核心内容

FP3 模型的技术突破与性能表现

研究人员对 FP3 与主流基线机器人控制策略进行了对比实验，结果显示 FP3 在多项指标上具有显著优势：

域内实验（In-domain）：
- 在单场景仅使用 10 条示教样本的低数据条件下，DP 和 DP3 等基线算法仅能勉强完成简单任务，多数场景成功率不足 50%，在倒水等高难度任务中基本失效。
- OpenVLA 表现糟糕，根源在于其缺乏连续动作块预测机制。
- FP3 依托预训练与三维点云表征，所有任务成功率突破 90%。相比之下，基线算法失败多源于动作精度缺陷（如夹取定位偏差、倒水瓶口对偏），而 FP3 凭借大参数量与海量预训练，能精准拟合复杂目标动作，输出轨迹更平滑，控制精度更高。
零样本测试（Zero-shot）：
- 在将机械臂更换至全新环境、使用从未见过的物体进行测试时，不含预训练的基线策略普遍无法识别目标物体，任务成功率近乎归零。
- FP3 极少出现识别失效，全场景平均成功率超过 80%，全面碾压对照组。
指令跟随能力：
- 在初始环境完全一致的条件下，FP3 可精准依照多条不同文本指令执行对应任务，证明其并非单纯死记训练数据分布，而是具备真正的理解与泛化能力。

FP3 的性能归因与局限性

研究认为 FP3 优异性能主要源于两点：一是大规模预训练覆盖了海量场景与物件，提升了策略鲁棒性；二是点云输入能精准捕获三维几何特征，是实现跨域泛化的关键。

然而，论文也指出了 FP3 存在的三个主要短板及未来改进方向：

基座原生零样本性能偏弱： 诱因可能是预训练所用 DROID 数据集体量不及 OXE 等二维机器人数据集。未来需构建规模更大的三维机器人数据集用于预训练。
语言条件接入能力有限： 目前仅依靠 CLIP 嵌入实现语言条件接入，难以表征复杂动态语义。后续计划将扩散架构 FP3 与视觉大模型（VLM）融合，搭建类似 π0 的视觉-语言-动作（VLA）模型。
未复用成熟二维视觉编码器： 当前未复用 DINOV2、SigLIP 等成熟预训练二维视觉编码器。融合三维点云特征与二维图像特征，或将二维特征升维至三维空间，具备巨大的优化空间。

千寻智能的其他重大进展

除了 FP3 入围 ICRA 2026 最佳论文奖，千寻智能还官宣了以下两大进展：

模型登顶 RoboArena： 自研具身基座模型 Spirit v1.6 在具身基准测试平台 RoboArena 中成功登顶，性能超过英伟达 Cosmos3 与 Physical Intelligence Pi0.5，成为首个登顶该榜单的中国具身模型。
融资刷新纪录： 公司宣布新获 15 亿元 A+ 轮融资，自今年 2 月份至今累计融资近 50 亿元，再次刷新行业纪录。

行业竞争格局

在另一具身智能大规模真机评测平台 RoboChallenge 的 Table30 系列任务测试中，千寻智能此前发布的 Spirit v1.5 目前排名第四。排名第一的是星动纪元（Era0），其次是原力灵机（DM0）和极佳视界（GigaBrain-0.1）。模型排位的频繁变换见证了中国具身智能创业赛道竞争的激烈程度。

千寻智能表示，2026 年其阶段性目标是积累 100 万小时级的真实世界交互数据，涵盖丰富的长尾复杂场景与多模态操作样本，以此构筑核心护城河。

关键要点

FP3 性能优势： 相比 DP、DP3、OpenVLA 等基线，FP3 在低样本（10条示教）下成功率突破 90%，在零样本跨域测试中平均成功率超 80%。
技术核心： FP3 的成功依赖于大规模预训练带来的鲁棒性以及三维点云输入对几何特征的精准捕获。
未来优化方向：
- 扩大三维机器人数据集规模以增强基座零样本能力。
- 融合 VLM 构建类似 π0 的 VLA 模型以增强复杂语义理解。
- 融合 DINOV2/SigLIP 等二维视觉编码器以提升特征提取效率。
千寻智能市场地位： Spirit v1.6 在 RoboArena 超越英伟达 Cosmos3 和 PI Pi0.5，成为首个登顶的中国具身模型。
资本热度： 千寻智能半年内融资近 50 亿元，显示出资本对具身智能头部企业的高度认可。
行业竞争： RoboChallenge 榜单显示星动纪元、原力灵机、极佳视界等公司紧随其后，中国具身智能赛道呈现多强并立的激烈竞争态势。

意义与影响

FP3 入围 ICRA 2026 最佳论文奖，不仅是对千寻智能及清华大学高阳团队在机器人控制策略领域技术实力的国际认可，也标志着基于三维点云和大模型预训练的具身智能路径正在取得实质性突破。FP3 在零样本场景下的高成功率，解决了机器人“从实验室走向真实世界”的关键泛化难题，为后续构建通用型机器人基础模型提供了重要参考。

与此同时，千寻智能 Spirit v1.6 在 RoboArena 上超越英伟达和 Physical Intelligence 等国际巨头，打破了以往由国外模型主导的格局，证明了中国团队在具身智能核心算法上的竞争力。加上近 50 亿元的巨额融资和百万小时级真实数据的积累计划，千寻智能正试图通过“数据+算法+算力”的闭环构建深厚的技术护城河。

这一系列进展表明，中国具身智能产业已从早期的概念验证阶段进入到了技术攻坚与规模化数据积累并重的深水区。随着星动纪元、原力灵机、极佳视界等竞争对手的崛起，行业内的“军备竞赛”将进一步加速，推动具身智能从实验室走向更广泛的商业应用场景。

查看原文 →leiphone.com

千寻智能高阳团队FP3入围ICRA 2026最佳论文

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐