AI 资讯雷峰网·4 小时前

RoboScience发布通用具身大模型Visics，首秀VLOA架构

原标题：RoboScience机器科学发布通用具身大模型Visics，首次完整展示VLOA双引擎架构

速览

RoboScience机器科学发布通用具身大模型Visics，首次完整披露自研VLOA架构，通过Object Trajectory接口实现认知与执行解耦。该模型融合具身世界模型与通用操作模型，依托“仿真+视频”数据飞轮突破数据瓶颈。Visics成功完成家具拼装等高精度复杂任务，并展示跨本体灵巧抓取能力，计划推动标准化本体量产。

AI 深度解读

背景

具身智能（Embodied AI）被视为人工智能的下一个前沿阵地，但当前行业普遍面临三大核心瓶颈：机器人操作的泛化能力差、精细操作难度大、以及在长程任务中误差容易累积。传统的数据获取路线也遭遇天花板，真机采集产能低、标注成本高，且仿真数据与真实场景存在分布差异，导致模型难以在实际落地中稳定泛化。

在此背景下，通用具身智能企业 RoboScience 机器科学于 6 月 24 日在深圳举办发布会，正式推出其自研的通用具身大模型 Visics。该公司旨在通过技术创新和数据体系重构，解决上述痛点，开启具身智能的新篇章。

核心内容

1. Visics 大模型与 VLOA 架构 RoboScience 机器科学首次完整披露了 Visics 大模型的底层技术架构——VLOA（Vision-Language-Object-Action）。该架构的核心创新在于引入 Object Trajectory（物体3D点云轨迹） 作为中间接口，实现了“认知”与“执行”的彻底解耦。

架构逻辑：上层“具身世界模型”负责认知和预演物理轨迹；下层“通用操作模型”负责将轨迹转化为不同机器人的物理控制信号。
泛化能力：VLOA 架构实现了三大维度的泛化：指导任意机器人、操作任意物体、完成任意任务。相比基于特定物体和机械臂的传统方法，其在成功率、姿态多样性及计算速度上均有显著提升。

2. “仿真+视频”双数据飞轮 针对数据规模与成本的双重瓶颈，RoboScience 构建了以自研高精度仿真引擎 RoboMirage 为核心的数据体系：

具身世界模型预训练：基于海量互联网视频数据，通过全自动标注与清洗管线，积累以物体为中心的高维多模态操作数据集。目标是在 2026 年构建上千万小时的全球领先数据集。
通用操作模型预训练：基于 RoboMirage 仿真引擎，积累高质量操作轨迹数据集。目标是在 2026 年构建超过 1T（万亿次）的高质量 manipulation 操作轨迹数据。
成本优势：该体系将单条数据获取成本降至传统方案的 1/20~1/200，并以每周数十万小时的增速扩展，为模型实现 LLM 级别的万亿级数据 Scale-up 奠定基础。

3. 复杂场景应用演示 Visics 大模型展示了在多项真实场景中的应用能力，其中最引人注目的是家具拼装任务。

家具拼装：被视为具身智能领域的“登月级”挑战，涉及手内操作、双臂协同、毫米级插接、精细力控等难点。机器人能读取说明书，自主分解任务，完成多关节双臂协同运动。具备抗干扰能力，若人为拆解已装部件，机器人可自动恢复状态并接续完成。
其他演示：包括跨本体灵巧手抓取（青椒包覆、西瓜瓣捏取）、精细力控操作（开信封、立硬币、针管注射）以及动态传送带抓取，全面验证了其在任意物体抓取、精细操作和长程任务上的通用性。

4. 团队背景与商业化战略

团队构成：公司由“学术+产业”双轮驱动。首席科学家邵林团队获 ICRA 最佳论文奖；CEO 田野曾任苹果 AI Platform 技术负责人；联合创始人刘朋海拥有科沃斯量产经验；汪涛具备产业投资背景。团队汇聚了来自斯坦福、中科大及苹果、字节、腾讯等头部企业的人才。
商业化路径：
- 当前阶段：聚焦物体维度泛化，在商超、电商物流等高频多品类场景完成 POC 验证，利用真实数据迭代模型。
- 中短期：扩展至任务维度与机器人维度，推动自研硬件本体量产，拓展至酒店、工厂等 B 端领域。
- 长期：实现 B 端与 C 端规模化落地，打造具身智能时代的“App Store”，布局全球业务。
商业模式：不绑定自有硬件销售，提供纯软件授权或控制器方案，赋能其他机器人公司。

关键要点

技术突破：Visics 大模型通过 VLOA 架构和 Object Trajectory 中间接口，实现了高层语义与底层物理规律的解耦，解决了泛化难、精细操作难的问题。
数据壁垒：通过“仿真+视频”双数据飞轮，大幅降低数据获取成本（1/20~1/200），并实现数据规模的指数级增长，突破了传统真机采集的产能限制。
能力验证：成功完成家具拼装这一“登月级”任务，展示了机器人在复杂逻辑理解、多部件协同及抗干扰恢复方面的强大能力。
落地策略：避开直接竞争工业自动化，选择从商超、电商物流等 SKU 海量场景切入，以物体维度泛化为起点，逐步向任务、本体及家庭场景延伸。
开放生态：采用跨本体技术原理，不绑定特定硬件，通过软件授权或控制器方案赋能行业，旨在构建通用的具身智能生态。

意义与影响

RoboScience 机器科学发布 Visics 大模型及其 VLOA 架构，标志着具身智能从“特定场景专用”向“通用基础模型”演进的关键一步。其意义主要体现在以下方面：

重新定义具身智能技术范式：通过解耦认知与执行，并引入物体轨迹作为通用接口，Visics 为机器人提供了类似 LLM 的通用底层能力，使得机器人能够适应未见过的新物体和新任务，大幅降低了开发门槛。
破解数据规模化难题：提出的“仿真+视频”双数据飞轮方案，为行业提供了一条可复制的数据构建路径，证明了在不依赖海量昂贵真机数据的情况下，依然可以训练出具备高精度复杂操作能力的模型。
加速具身智能商业化进程：公司清晰的“物体->任务->本体->生态”三步走战略，以及不绑定硬件的开放商业模式，有助于快速在零售、物流等高频场景落地，并通过数据反哺加速技术迭代，为最终进入家庭场景（C 端）积累技术和成本优势。
推动行业生态构建：RoboScience 旨在打造具身智能时代的“App Store”，通过赋能其他机器人本体厂商，有望形成一个软硬一体、多层级协同的全球化机器人应用生态，真正让机器人成为人类生活的“增幅器”。

查看原文 →leiphone.com

RoboScience发布通用具身大模型Visics，首秀VLOA架构

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐