← 返回信息流
AI 资讯雷峰网·3 小时前

它石智航丁文超:具身智能迈向2.0时代的关键在于全栈能力

原标题:对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

速览

在ICRA 2026上,它石智航首席科学家丁文超指出具身智能正从依赖遥操作的1.0时代迈向以Human-centric数据范式和世界动作模型为核心的2.0时代。他认为突破关键在于坚持第一性原理思考及极强的工程化能力,如自研SenseHub设备打通无本体数据采集。公司聚焦线束柔性装配等核心场景,通过亚毫米级精度演示展示模型泛化与商业化闭环进展。

AI 深度解读

背景

2026年6月,在维也纳举行的 ICRA 2026(国际机器人与自动化国际会议)上,具身智能(Embodied AI)行业呈现出一种“热闹下的焦虑”。尽管人形机器人已从 PPT 概念走向实体展示,但多数企业仍面临难以进入真实场景、无法形成技术与商业闭环的困境。业内普遍观点认为,当前具身智能大多仍停留在“1.0时代”。

在此背景下,刚刚完成中国具身智能领域最大单笔融资的明星企业它石智航(Itstone AI)选择在 ICRA 2026 上发布其完整技术链路,包括从真实人类数据采集、AWE 3.0 模型到首秀的DexHand 灵巧手。雷峰网·AI科技评论专访了它石智航首席科学家丁文超博士,探讨具身智能如何突破瓶颈,迈向强调全栈能力与商业闭环的“2.0时代”。

核心内容

丁文超在访谈中系统阐述了他石智航对具身智能发展阶段的划分、技术路线选择、数据策略以及硬件设计理念,核心观点如下:

1. 具身智能的“2.0时代”特征

丁文超将具身智能的发展划分为三个阶段:

  • 萌芽期(2023-2024年初): 行业探索落地场景,涌现大量本体制造公司及 ACT、DP 等小模型。
  • 1.0时代(2024年):VLA(Vision-Language-Action)范式为主,依赖遥操作采集数据,以大模型为骨干。该时代催生了首批“大脑”企业,但存在两大缺陷:一是遥操作数据局限于限定场景,难以覆盖千行百业;二是 VLM 的泛化能力并未真正迁移至机器人,行业对此感到失望。
  • 2.0时代(2025-2026年): 核心特征是数据范式模型范式的双重爆发。
    • 数据范式: 以 Human-centric(以人为中心)/ Ego-centric(第一人称视角)为核心的无本体数据采集成为主流,2026年被称为“无本体数据采集元年”。
    • 模型范式:World Action Model(世界动作模型)为核心,泛化性和可扩展性显著提升。
  • 3.0时代(未来): 引入以世界模型驱动的后训练能力,使具身智能兼具泛化能力与场景生产力。

2. 技术路线:原生基座模型与 AWE 3.0

  • VLA 的局限性: VLA 本质是将大语言的 Scaling Law 迁移至具身领域,但面临机器人执行数据稀缺、与通用大模型数据不对等的问题。其泛化能力主要源于 VLM,而非真正的具身智能。
  • 世界模型的过渡性: 视频预测模型虽能统一跨本体问题并减少对遥操作的依赖,但仍属能力迁移,并非最优解。
  • AWE 3.0(AI World Engine): 它石智航致力于训练具身原生基座模型,贯穿语言、视觉、动作三种模态。AWE 3.0 不仅是预测未来,更能告知动作及其后果,具备极强的可扩展性,旨在成为具身智能的终局模型。
  • 解决幻觉问题: 针对世界模型常见的“穿模”等幻觉问题,它石通过建立3D隐空间进行建模,强化长时记忆与空间感知,确保模型在工作空间内的一致性。

3. 数据策略:Human-centric 与高质量数据

  • 采集方式对比:
    • 遥操作: 仅适合后训练,不适合预训练和规模化。
    • 仿真: 存在人工痕迹,适合评测但无法支撑模型持续自我提升。
    • UMI: 多为科研态方案,非完整系统。
    • Human-centric: 它石自研可穿戴数采设备 SenseHub,实现高精度时空同步,能获取高质量的人类末端动作数据。
  • 数据配比与质量:
    • 预训练主要使用 Human-centric 数据。对于线束等高精度任务,基本采用全人类数据;对于亚厘米级精度任务,可加入部分机器人数据。
    • 理想状态下,通用模型需 50 万小时人类数据预训练,单任务适配仅需约 1 小时。
    • 数据竞争核心在于高质量场景化数据,而非总量。低质量纯 Ego 数据仅作为打底。
  • 数据闭环: 借鉴自动驾驶经验,建立完整的数据闭环,回收失败案例,通过快速迭代提升模型安全性和可靠性。

4. 硬件与灵巧手:DexHand 与手脑一体

  • DexHand 特点:
    • 高自由度: 采用 21 自由度准直驱方案,平衡减速比、灵活性和负重,是硬件、软件、算法的全栈挑战。
    • 手脑一体: DexHand 并非孤立执行器,而是接入 AWE 3.0 模型,在感知、理解和决策下调整动作。
    • 性能优势: 相比夹爪,灵巧手完成任务速度快 3 倍,具备极强的硬件泛化性,可统一末端执行器,避免为不同任务设计专用末端。
  • 工程化设计: 基于人类动作分布统计反向推导硬件参数(如关节减速比、电机转速),以最小化硬件与数据间的 Gap。
  • 耐久度优化: 针对关节电机易烧毁和指尖触觉硅胶易磨损问题进行了专项优化。

5. 触觉世界模型:TacForeSight

  • 创新点: 将模型从被动修正升级为主动预判。基于视触觉世界模型,模型能提前预判滑动、偏移等问题并主动微调动作(如抓取滑动物体时提前加力)。
  • 应用场景: 适用于抛光打磨、洗车等需要高频触觉反馈(上百赫兹)的精细操作场景,弥补视觉(30-60赫兹)反应频率不足的缺陷。

6. 商业化落地

  • 聚焦场景: 选择线束柔性装配场景。该场景用工需求大、技术门槛高(毫米级精度、长程连续任务)、同质化竞争少,且能反向推动基础模型迭代。
  • 进展: 在线束长程任务中,模型可实现端到端连续操作,自主纠错,插入精度达亚毫米级。

关键要点

  • 时代划分: 具身智能正从依赖遥操作和 VLA 的 1.0 时代,迈向以 Human-centric 数据范式和 World Action Model 为核心的 2.0 时代。
  • 核心驱动力: 具身智能的 Scaling Law 将由原生基座模型涌现,而非简单的 VLM 迁移或视频预测模型。
  • 数据范式: Human-centric/Ego-centric 数据采集是 2.0 时代的关键,2026 年是无本体数据采集元年。高质量、场景化的数据比数据总量更重要。
  • 技术闭环: 它石智航通过自研 SenseHub 数采设备和 AWE 3.0 模型,打通了从数据采集、模型训练到部署的全链路。
  • 硬件协同: DexHand 高自由度灵巧手采用准直驱方案,强调“手脑一体”,通过 21 自由度设计最大化操作泛化能力,并针对耐久度进行了工程化优化。
  • 触觉赋能: TacForeSight 触觉世界模型实现了从被动修正到主动预判的跨越,解决了精细操作中视觉频率不足的问题。
  • 商业化策略: 聚焦线束柔性装配等高价值、高门槛场景,通过单点突破形成商业闭环,并反向促进通用模型迭代。
  • 安全机制: 通过训练模型自主恢复能力及建立完整的数据闭环体系,保障模型在真实环境中的安全性与可靠性。

意义与影响

丁文超的访谈揭示了中国具身智能头部企业对于行业底层逻辑的

查看原文 →leiphone.com