AI 资讯雷峰网·3 小时前

它石智航丁文超：具身智能迈向2.0时代的关键在于全栈能力

原标题：对话它石智航丁文超：具身智能，如何迈进「2.0时代」？| ICRA 2026

速览

在ICRA 2026上，它石智航首席科学家丁文超指出具身智能正从依赖遥操作的1.0时代迈向以Human-centric数据范式和世界动作模型为核心的2.0时代。他认为突破关键在于坚持第一性原理思考及极强的工程化能力，如自研SenseHub设备打通无本体数据采集。公司聚焦线束柔性装配等核心场景，通过亚毫米级精度演示展示模型泛化与商业化闭环进展。

AI 深度解读

背景

2026年6月，在维也纳举行的 ICRA 2026（国际机器人与自动化国际会议）上，具身智能（Embodied AI）行业呈现出一种“热闹下的焦虑”。尽管人形机器人已从 PPT 概念走向实体展示，但多数企业仍面临难以进入真实场景、无法形成技术与商业闭环的困境。业内普遍观点认为，当前具身智能大多仍停留在“1.0时代”。

在此背景下，刚刚完成中国具身智能领域最大单笔融资的明星企业它石智航（Itstone AI）选择在 ICRA 2026 上发布其完整技术链路，包括从真实人类数据采集、AWE 3.0 模型到首秀的DexHand 灵巧手。雷峰网·AI科技评论专访了它石智航首席科学家丁文超博士，探讨具身智能如何突破瓶颈，迈向强调全栈能力与商业闭环的“2.0时代”。

核心内容

丁文超在访谈中系统阐述了他石智航对具身智能发展阶段的划分、技术路线选择、数据策略以及硬件设计理念，核心观点如下：

1. 具身智能的“2.0时代”特征

丁文超将具身智能的发展划分为三个阶段：

萌芽期（2023-2024年初）： 行业探索落地场景，涌现大量本体制造公司及 ACT、DP 等小模型。
1.0时代（2024年）： 以 VLA（Vision-Language-Action）范式为主，依赖遥操作采集数据，以大模型为骨干。该时代催生了首批“大脑”企业，但存在两大缺陷：一是遥操作数据局限于限定场景，难以覆盖千行百业；二是 VLM 的泛化能力并未真正迁移至机器人，行业对此感到失望。
2.0时代（2025-2026年）： 核心特征是数据范式与模型范式的双重爆发。
- 数据范式： 以 Human-centric（以人为中心）/ Ego-centric（第一人称视角）为核心的无本体数据采集成为主流，2026年被称为“无本体数据采集元年”。
- 模型范式： 以 World Action Model（世界动作模型）为核心，泛化性和可扩展性显著提升。
3.0时代（未来）： 引入以世界模型驱动的后训练能力，使具身智能兼具泛化能力与场景生产力。

2. 技术路线：原生基座模型与 AWE 3.0

VLA 的局限性： VLA 本质是将大语言的 Scaling Law 迁移至具身领域，但面临机器人执行数据稀缺、与通用大模型数据不对等的问题。其泛化能力主要源于 VLM，而非真正的具身智能。
世界模型的过渡性： 视频预测模型虽能统一跨本体问题并减少对遥操作的依赖，但仍属能力迁移，并非最优解。
AWE 3.0（AI World Engine）： 它石智航致力于训练具身原生基座模型，贯穿语言、视觉、动作三种模态。AWE 3.0 不仅是预测未来，更能告知动作及其后果，具备极强的可扩展性，旨在成为具身智能的终局模型。
解决幻觉问题： 针对世界模型常见的“穿模”等幻觉问题，它石通过建立3D隐空间进行建模，强化长时记忆与空间感知，确保模型在工作空间内的一致性。

3. 数据策略：Human-centric 与高质量数据

采集方式对比：
- 遥操作： 仅适合后训练，不适合预训练和规模化。
- 仿真： 存在人工痕迹，适合评测但无法支撑模型持续自我提升。
- UMI： 多为科研态方案，非完整系统。
- Human-centric： 它石自研可穿戴数采设备 SenseHub，实现高精度时空同步，能获取高质量的人类末端动作数据。
数据配比与质量：
- 预训练主要使用 Human-centric 数据。对于线束等高精度任务，基本采用全人类数据；对于亚厘米级精度任务，可加入部分机器人数据。
- 理想状态下，通用模型需 50 万小时人类数据预训练，单任务适配仅需约 1 小时。
- 数据竞争核心在于高质量场景化数据，而非总量。低质量纯 Ego 数据仅作为打底。
数据闭环： 借鉴自动驾驶经验，建立完整的数据闭环，回收失败案例，通过快速迭代提升模型安全性和可靠性。

4. 硬件与灵巧手：DexHand 与手脑一体

DexHand 特点：
- 高自由度： 采用 21 自由度准直驱方案，平衡减速比、灵活性和负重，是硬件、软件、算法的全栈挑战。
- 手脑一体： DexHand 并非孤立执行器，而是接入 AWE 3.0 模型，在感知、理解和决策下调整动作。
- 性能优势： 相比夹爪，灵巧手完成任务速度快 3 倍，具备极强的硬件泛化性，可统一末端执行器，避免为不同任务设计专用末端。
工程化设计： 基于人类动作分布统计反向推导硬件参数（如关节减速比、电机转速），以最小化硬件与数据间的 Gap。
耐久度优化： 针对关节电机易烧毁和指尖触觉硅胶易磨损问题进行了专项优化。

5. 触觉世界模型：TacForeSight

创新点： 将模型从被动修正升级为主动预判。基于视触觉世界模型，模型能提前预判滑动、偏移等问题并主动微调动作（如抓取滑动物体时提前加力）。
应用场景： 适用于抛光打磨、洗车等需要高频触觉反馈（上百赫兹）的精细操作场景，弥补视觉（30-60赫兹）反应频率不足的缺陷。

6. 商业化落地

聚焦场景： 选择线束柔性装配场景。该场景用工需求大、技术门槛高（毫米级精度、长程连续任务）、同质化竞争少，且能反向推动基础模型迭代。
进展： 在线束长程任务中，模型可实现端到端连续操作，自主纠错，插入精度达亚毫米级。

关键要点

时代划分： 具身智能正从依赖遥操作和 VLA 的 1.0 时代，迈向以 Human-centric 数据范式和 World Action Model 为核心的 2.0 时代。
核心驱动力： 具身智能的 Scaling Law 将由原生基座模型涌现，而非简单的 VLM 迁移或视频预测模型。
数据范式： Human-centric/Ego-centric 数据采集是 2.0 时代的关键，2026 年是无本体数据采集元年。高质量、场景化的数据比数据总量更重要。
技术闭环： 它石智航通过自研 SenseHub 数采设备和 AWE 3.0 模型，打通了从数据采集、模型训练到部署的全链路。
硬件协同： DexHand 高自由度灵巧手采用准直驱方案，强调“手脑一体”，通过 21 自由度设计最大化操作泛化能力，并针对耐久度进行了工程化优化。
触觉赋能： TacForeSight 触觉世界模型实现了从被动修正到主动预判的跨越，解决了精细操作中视觉频率不足的问题。
商业化策略： 聚焦线束柔性装配等高价值、高门槛场景，通过单点突破形成商业闭环，并反向促进通用模型迭代。
安全机制： 通过训练模型自主恢复能力及建立完整的数据闭环体系，保障模型在真实环境中的安全性与可靠性。

意义与影响

丁文超的访谈揭示了中国具身智能头部企业对于行业底层逻辑的

查看原文 →leiphone.com