RoboScience发布通用具身大模型Visics,首秀VLOA架构
速览
RoboScience机器科学发布通用具身大模型Visics,首次完整披露自研VLOA架构,通过Object Trajectory接口实现认知与执行解耦。该模型融合具身世界模型与通用操作模型,依托“仿真+视频”数据飞轮突破数据瓶颈。Visics成功完成家具拼装等高精度复杂任务,并展示跨本体灵巧抓取能力,计划推动标准化本体量产。
AI 深度解读
背景
具身智能(Embodied AI)被视为人工智能的下一个前沿阵地,但当前行业普遍面临三大核心瓶颈:机器人操作的泛化能力差、精细操作难度大、以及在长程任务中误差容易累积。传统的数据获取路线也遭遇天花板,真机采集产能低、标注成本高,且仿真数据与真实场景存在分布差异,导致模型难以在实际落地中稳定泛化。
在此背景下,通用具身智能企业 RoboScience 机器科学于 6 月 24 日在深圳举办发布会,正式推出其自研的通用具身大模型 Visics。该公司旨在通过技术创新和数据体系重构,解决上述痛点,开启具身智能的新篇章。
核心内容
1. Visics 大模型与 VLOA 架构 RoboScience 机器科学首次完整披露了 Visics 大模型的底层技术架构——VLOA(Vision-Language-Object-Action)。该架构的核心创新在于引入 Object Trajectory(物体3D点云轨迹) 作为中间接口,实现了“认知”与“执行”的彻底解耦。
- 架构逻辑:上层“具身世界模型”负责认知和预演物理轨迹;下层“通用操作模型”负责将轨迹转化为不同机器人的物理控制信号。
- 泛化能力:VLOA 架构实现了三大维度的泛化:指导任意机器人、操作任意物体、完成任意任务。相比基于特定物体和机械臂的传统方法,其在成功率、姿态多样性及计算速度上均有显著提升。
2. “仿真+视频”双数据飞轮 针对数据规模与成本的双重瓶颈,RoboScience 构建了以自研高精度仿真引擎 RoboMirage 为核心的数据体系:
- 具身世界模型预训练:基于海量互联网视频数据,通过全自动标注与清洗管线,积累以物体为中心的高维多模态操作数据集。目标是在 2026 年构建上千万小时的全球领先数据集。
- 通用操作模型预训练:基于 RoboMirage 仿真引擎,积累高质量操作轨迹数据集。目标是在 2026 年构建超过 1T(万亿次)的高质量 manipulation 操作轨迹数据。
- 成本优势:该体系将单条数据获取成本降至传统方案的 1/20~1/200,并以每周数十万小时的增速扩展,为模型实现 LLM 级别的万亿级数据 Scale-up 奠定基础。
3. 复杂场景应用演示 Visics 大模型展示了在多项真实场景中的应用能力,其中最引人注目的是家具拼装任务。
- 家具拼装:被视为具身智能领域的“登月级”挑战,涉及手内操作、双臂协同、毫米级插接、精细力控等难点。机器人能读取说明书,自主分解任务,完成多关节双臂协同运动。具备抗干扰能力,若人为拆解已装部件,机器人可自动恢复状态并接续完成。
- 其他演示:包括跨本体灵巧手抓取(青椒包覆、西瓜瓣捏取)、精细力控操作(开信封、立硬币、针管注射)以及动态传送带抓取,全面验证了其在任意物体抓取、精细操作和长程任务上的通用性。
4. 团队背景与商业化战略
- 团队构成:公司由“学术+产业”双轮驱动。首席科学家邵林团队获 ICRA 最佳论文奖;CEO 田野曾任苹果 AI Platform 技术负责人;联合创始人刘朋海拥有科沃斯量产经验;汪涛具备产业投资背景。团队汇聚了来自斯坦福、中科大及苹果、字节、腾讯等头部企业的人才。
- 商业化路径:
- 当前阶段:聚焦物体维度泛化,在商超、电商物流等高频多品类场景完成 POC 验证,利用真实数据迭代模型。
- 中短期:扩展至任务维度与机器人维度,推动自研硬件本体量产,拓展至酒店、工厂等 B 端领域。
- 长期:实现 B 端与 C 端规模化落地,打造具身智能时代的“App Store”,布局全球业务。
- 商业模式:不绑定自有硬件销售,提供纯软件授权或控制器方案,赋能其他机器人公司。
关键要点
- 技术突破:Visics 大模型通过 VLOA 架构和 Object Trajectory 中间接口,实现了高层语义与底层物理规律的解耦,解决了泛化难、精细操作难的问题。
- 数据壁垒:通过“仿真+视频”双数据飞轮,大幅降低数据获取成本(1/20~1/200),并实现数据规模的指数级增长,突破了传统真机采集的产能限制。
- 能力验证:成功完成家具拼装这一“登月级”任务,展示了机器人在复杂逻辑理解、多部件协同及抗干扰恢复方面的强大能力。
- 落地策略:避开直接竞争工业自动化,选择从商超、电商物流等 SKU 海量场景切入,以物体维度泛化为起点,逐步向任务、本体及家庭场景延伸。
- 开放生态:采用跨本体技术原理,不绑定特定硬件,通过软件授权或控制器方案赋能行业,旨在构建通用的具身智能生态。
意义与影响
RoboScience 机器科学发布 Visics 大模型及其 VLOA 架构,标志着具身智能从“特定场景专用”向“通用基础模型”演进的关键一步。其意义主要体现在以下方面:
- 重新定义具身智能技术范式:通过解耦认知与执行,并引入物体轨迹作为通用接口,Visics 为机器人提供了类似 LLM 的通用底层能力,使得机器人能够适应未见过的新物体和新任务,大幅降低了开发门槛。
- 破解数据规模化难题:提出的“仿真+视频”双数据飞轮方案,为行业提供了一条可复制的数据构建路径,证明了在不依赖海量昂贵真机数据的情况下,依然可以训练出具备高精度复杂操作能力的模型。
- 加速具身智能商业化进程:公司清晰的“物体->任务->本体->生态”三步走战略,以及不绑定硬件的开放商业模式,有助于快速在零售、物流等高频场景落地,并通过数据反哺加速技术迭代,为最终进入家庭场景(C 端)积累技术和成本优势。
- 推动行业生态构建:RoboScience 旨在打造具身智能时代的“App Store”,通过赋能其他机器人本体厂商,有望形成一个软硬一体、多层级协同的全球化机器人应用生态,真正让机器人成为人类生活的“增幅器”。
