AI 资讯雷峰网·2 天前

灵初智能王启斌：操作是皇冠明珠，移动只是入场券

原标题：对话灵初智能王启斌：「操作才是皇冠上的明珠，移动只是入场券」

速览

灵初智能CEO王启斌指出，具身智能中灵巧操作比移动能力更具核心价值，公司坚持轮式加双臂路线。通过自研多模态数据手套采集亚毫米级人类数据，灵初构建了基于世界模型的底层技术壁垒。公司采用“小全栈”模式，因物理动态鸿沟认为纯算法授权模式难以在短期内成功。

AI 深度解读

背景

2026年的具身智能赛道正处于剧烈分化期。大量创业公司在技术路线（人形 vs 轮式）和应用场景（家庭 vs 工业/物流）上反复横跳，试图通过“换帆”来寻找生存空间。在此背景下，灵初智能（Lingchu Intelligence）因其笃定的战略选择进入公众视野。

灵初智能由王启斌于2024年9月创立。王启斌拥有从黑莓（BlackBerry）、Sonos到云迹科技（Jellybot）及京东L4无人车的丰富硬件与机器人行业经验。灵初智能在过去一年半内累计融资超20亿元，估值一年上涨六七倍，并被摩根士丹利（Morgan Stanley）在《Humanoid Horizons: Money Meets Machines》报告中列为“中国-人形机器人价值链”中“Brain（大脑）”板块的关键成员。

与行业追逐人形机器人的热潮不同，灵初智能从成立之初就锚定“轮式底盘+双臂通用灵巧操作”这一特定形态，坚持认为“操作才是皇冠上的明珠，移动只是入场券”。

核心内容

战略定力：为何选择“轮式+双臂”而非人形？

王启斌指出，2024年行业普遍关注人形机器人，但灵初智能在融资BP中通过矩阵分析发现，存量市场中已有云迹、高仙等主打移动能力的公司，以及特斯拉、宇树等主打“移动+人形”的公司。灵初智能定位在“移动+双手操作”。

核心逻辑在于闭环任务能力：如果机器人不能完成最后的物理操作，任务就始终停留在“运到”而非“做到”。王启斌在云迹和京东的教训表明，移动能力只是基础，灵巧操作才是解决客户核心需求的关键。因此，他预判主流解决方案形态将是轮式加双臂，且操作价值远高于移动。

技术演进：从VLA到世界模型（World Model）

灵初智能的技术路线发生了显著转变：

过去：依赖视觉-语言-动作模型（VLA），主要依靠语言模态在语义层面进行理解和规划。
现在：转向世界模型。2024年4月发布的Psi-R2是策略模型，学习“该怎么做”；Psi-W0是动作条件型世界模型（AC-WM），推演“换种做法会怎样”。
数据创新：Psi-W0在训练中引入了约30%的失败样本，使模型不仅学习成功轨迹，也能理解失败机制。
架构融合：新的架构基于10万小时人类数据预训练的World Action Model（WAM），这在行业内正成为共识。虽然替代了旧的VLA架构，但在输入（视频、语言、状态）和输出（动作、状态预测）上保持了交互性。

数据壁垒：自研手套与亚毫米级精度

为获取高质量人类数据，灵初智能自研穿戴式多模态数据手套，并在北京建立数据工厂。

数据采集：捕捉视觉、触觉和关节角，3D轨迹精度达到亚毫米级。
必要性：纯视频数据在高频动态操作（如折叠纸盒、处理铰链）中精度不足，且易受遮挡。加入关节角和触觉反馈后，模型涌现出更强的基础能力。
成本优势：手套采集的综合成本降至真机遥操作方案的十分之一，并计划推出便携式众包版本进一步降低成本。

商业模式：“小全栈”与整机耦合

灵初智能定位为“通用灵巧操作的模型公司”，但坚持做整机PsiBot V1，采取“小全栈”策略：

不做：不涉足移动底盘核心零部件，不做通用移动平台。
做：整机设计、全栈软件、数据采集与模型训练。
原因：具身模型与语言模型不同，存在巨大的“物理动态鸿沟”（dynamics gap）。不同机器人的关节结构、传感器分布和质量惯性各异，导致纯算法授权模式在短期内难以实现系统最优。灵初通过深度耦合软硬件，确保模型与硬件的最佳匹配。

场景选择与行业洞察

场景定位：避开泛化性要求极高但节拍慢的家庭场景，以及节拍极快但泛化性弱的纯工业流水线。选择物流、零售、服务等中间态场景，泛化性与节拍适中。
对智驾背景公司的建议：
1. 低估鸿沟：从“移动智能”到“操作智能”的跨越巨大，物理交互复杂度（如软体变形、接触力控）远超自动驾驶。
2. 时间窗口：具身智能窗口期比智驾更短，大模型迭代极快，需避免长周期的硬件打磨导致算法范式过时。
3. 垂直深耕：不要试图一开始就做通用平台（如“安卓系统”），而应先在窄切口（特定硬件形态+特定操作任务）上实现闭环。

未来规划

灵初智能计划在今年六七月份发布基于更大规模（几十万小时）数据的模型，实现更长程、更泛化的任务处理。年底目标是达到类似π0.7的语言操控能力，即通过粗放的自然语言指令完成长程任务，并在未见场景中涌现技能组合。长期目标是将人类数据积累至百万小时级，以涌现通用操作能力。

关键要点

战略差异化：灵初智能放弃人形机器人热潮，坚定选择“轮式底盘+双臂”形态，认为操作价值高于移动价值。
技术路线升级：从VLA转向世界模型（World Model），引入失败样本训练，提升时空关系推理能力。
数据护城河：通过自研多模态手套实现亚毫米级数据采集，解决纯视觉数据在动态操作中的精度瓶颈，并将成本降至遥操作的1/10。
小全栈模式：因具身智能存在巨大的物理动态鸿沟，纯算法授权难以优化，灵初选择“模型+整机设计+全栈软件”的小全栈模式，确保软硬耦合最优。
行业预判：未来两年行业将维持“全栈竞争”状态，之后才会出现生态位分层（代工、运控、模型分离）。
场景务实：聚焦物流、零售、服务等中间态场景，避开家庭场景的高泛化挑战和纯流水线的极高节拍要求。
数据规模目标：短期目标为几十万小时数据，长期终极目标为亿小时级人类数据，以支撑通用操作能力的涌现。

意义与影响

灵初智能的案例揭示了具身智能行业从“概念炒作”向“工程落地”深化的趋势。其核心价值在于指出了具身智能的核心难点不在于移动，而在于灵巧操作及其背后的高质量数据获取与软硬耦合。

重新定义竞争壁垒：灵初智能证明了在具身智能领域，数据质量（亚毫米级、多模态）和物理交互理解比单纯的算力或算法架构更为关键。其自研数据手套和失败样本训练方法为行业提供了新的数据工程范式。
挑战“通用平台”幻想：通过“小全栈”策略，灵初智能质疑了短期内存在“具身智能安卓系统”的可能性，强调在物理动态鸿沟面前，垂直整合与深度耦合是更务实的路径。这对其他试图通过纯软件授权快速扩张的公司具有警示意义。
加速行业分化：灵初智能的笃定与融资成功，可能加剧具身智能赛道的马太效应。行业将从早期的路线争论转向对数据规模、操作成功率及系统稳定性的硬实力比拼。
为智驾公司转型提供镜鉴：王启斌对智驾背景公司的建议，指出了跨领域转型中容易忽视的物理交互复杂性，提醒行业避免用自动驾驶的线性思维来衡量具身智能的非线性挑战。

总体而言，灵初智能的实践表明，具身智能的下半场竞争将是数据、算法与硬件深度绑定的系统工程竞争，而非单一维度的技术突破。

查看原文 →leiphone.com