← 返回信息流
AI 资讯量子位·2 小时前

全球首个机器人训练楼盘开盘,30万套中国住宅供机器人拎包入住

原标题:全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住

速览

具身智能领域迎来新突破,全球首个面向机器人的房地产开发项目正式开盘。该项目提供30万套中国住宅,旨在为机器人提供标准化的训练与居住空间。此举标志着具身智能从实验室走向规模化应用的重要一步,为机器人产业的基础设施建设开辟了新赛道。

AI 深度解读

背景

具身智能(Embodied AI)的发展正面临数据与环境的双重瓶颈。虽然大语言模型(LLM)的训练数据主要来源于互联网,但机器人的训练数据却深藏于物理世界中。机器人需要海量的真实交互数据来学习开门、拉抽屉、整理物品等日常家务能力,然而,在真实世界中收集这些数据成本高昂且效率低下。

此前,北美机器人公司 Figure AI 曾尝试通过与房地产巨头 Brookfield 合作,利用其管理的10万套真实住宅训练机器人。这种思路虽然直接,但受限于真实房源总量,且面临家具维修、场景维护等高昂的运营成本。此外,现有的开源室内场景数据集多基于欧美家庭构建(如开放式厨房、无阳台、无玄关),导致机器人在进入中国家庭时容易出现“水土不服”。

在此背景下,大晓机器人(Kairos Robotics)联合香港中文大学多媒体实验室(MMLab),发布了全球首个实现全屋三维生成与物体级全交互的统一框架——Kairos-Homeworld,并同步开源了4B参数世界模型 Kairos 3.0-4B。这两项工作分别解决了具身智能最核心的两块拼图:环境(训练场)和模型(大脑)。

核心内容

Kairos-Homeworld:构建30万套中国住宅数字训练场

Kairos-Homeworld 并非传统的“找房APP”,而是一个专为具身智能机器人设计的仿真环境生成器。它首次将30万套中国真实住宅户型搬进数字世界,并具备自动生成完整家庭环境的能力。

1. 数据规模与本土化优势

  • 海量数据: 开源了30万套中国真实住宅户型数据集,规模相当于学术界常用 RPLAN 数据集的近4倍,是 ResPlan 的17倍。
  • 本土适配: 针对中国家庭特有的空间结构(如南北通透、封闭式厨房、干湿分离卫生间、独立生活阳台等)进行建模,解决了欧美数据集在中国场景下的适配问题。
  • 可交互场景: 除了静态户型图,还开源了5000个完整可交互的3D家庭场景,支持机器人进行导航、多房间整理及各类家务任务训练。

2. 分层生成框架 为了解决静态数据集扩展性差的问题,Kairos-Homeworld 设计了一套分层生成框架,通过自然语言指令即可自动生成仿真环境:

  • 第一步:生成户型图。 将传统住宅结构转化为层级化表示,利用大语言模型规划房间布局、门窗位置及连通关系,从源头避免房间重叠和拓扑断裂。
  • 第二步:布置家具。 先以俯视视角放置床、沙发等大型家具,再以第一人称视角补充厨房、浴室等空间细节。
  • 第三步:自动纠错。 利用视觉语言模型进行闭环检查,自动修正“沙发挡门”、“柜子穿墙”等逻辑错误,将场景碰撞率从0.20降低至0.05。
  • 第四步:补充可交互物体。 生成桌面摆件、厨房用品等细粒度元素,并赋予材质、密度、摩擦系数等物理属性,支持机器人抓取、移动和操作。

3. 性能表现 在30人参与的用户评测中,Kairos-Homeworld 在合理性、美观度和复杂度三个维度均优于 Holodeck、LayoutGPT 和 LayoutVLM,综合偏好率达到81.1%。生成的场景支持机器人跨房间连续行动,并能与十余种不同类别的物品进行自然交互。

Kairos 3.0-4B:赋予机器人理解物理规律的大脑

Kairos 3.0-4B 是一个4B参数的世界模型,旨在让机器人具备对物理世界的理解和预测能力。

1. 核心能力:物理一致性预测

  • 实时生成: 在 THOR 平台上实现1:1.5的实时生成速度,推理速度比 NVIDIA Cosmos 2.5 快72倍。即机器人每1秒可生成未来1.5秒的动作视频。
  • 物理规律遵循: 模型不仅生成视频,更理解物理法则。例如,倒水时符合流体运动规律,叠石头时遵循重力与摩擦法则,处理柔性物体(如衣物)时能自然变形。
  • 长程任务演示: 在一段7分钟的一镜到底Demo中,机器人自主完成整理茶几、洗衣房收拾衣物、厨房准备早餐等连续家务,无需人工干预。

2. 技术突破

  • 架构创新: 采用「理解-生成-预测」一体化设计。传统世界模型需先生成视频再反推动作,而 Kairos 直接将视觉表征映射为动作输出,缩短了推理链路。
  • 数据融合: 融合了物理规律(CoT文本)、人类行为数据及真机交互数据。物理规律解释“为什么”,人类行为提供“做什么”的范例,真机数据补充“怎么做”的细节,从而学习动作背后的因果逻辑。
  • 效率优化: 引入首个专为世界模型设计的混合线性注意力算子,将时间复杂度从 $O(n^2)$ 降至 $O(n)$。生成10秒任务仅需9.5秒,显存占用23.5GB,远低于14B参数的 Cosmos 2.5(70.2GB)。

3. 部署能力 Kairos 3.0-4B 具备端侧实时运行能力,不仅兼容英伟达平台,也支持沐曦、海光、壁仞等国产GPU,并适配单臂、双臂及灵巧手等多种机器人形态。

关键要点

  • 全球首创: Kairos-Homeworld 是全球首个实现全屋三维生成与物体级全交互的统一框架,首次系统性地将30万套中国家庭空间结构纳入具身智能训练体系。
  • 数据底座稀缺性: 30万套中国户型数据填补了具身智能领域缺乏本土化大规模训练数据的空白,解决了欧美数据集在中国场景下的“水土不服”问题。
  • 自动化生成能力: 通过分层生成框架,系统能自动纠错并生成带有物理属性的可交互物体,场景碰撞率降至0.05,大幅降低了仿真环境构建成本。
  • 世界模型效率突破: Kairos 3.0-4B 通过混合线性注意力算子,将推理速度提升72倍,显存占用降低至23.5GB,实现了4B参数模型下的实时物理预测。
  • 一体化架构: Kairos 3.0-4B 将世界模拟器和动作执行器合二为一,直接输出动作指令,而非先视频后动作,显著提升了推理效率。
  • 基础设施闭环: 大晓机器人同时提供了“环境”(Kairos-Homeworld)和“模型”(Kairos 3.0-4B),对应英伟达具身负责人 Jim Fan 提出的规模化发展路线图中的关键拼图。
  • 团队背景: 大晓机器人由商汤科技联合创始人王晓刚担任董事长,陶大程出任首席科学家,团队源自南洋理工、港大、港中文,近期完成蚂蚁集团领投的天使轮融资。

意义与影响

1. 降低具身智能研发门槛与成本 传统机器人训练依赖真实世界交互,成本极高且场景有限。Kairos-Homeworld 通过数字化手段,将新增场景的边际成本趋近于零,使机器人训练不再受限于物理房源总量。同时,Kairos 3.0-4B 的低显存需求使得世界模型有望部署到机器人端侧,推动了具身智能从实验室演示向实际应用的转变。

2. 推动具身智能的本土化与规模化 现有开源数据集多基于欧美家庭,导致机器人进入中国市场时适应性差。Kairos-Homeworld 提供了符合中国家庭生活习惯和空间结构的数据底座,有助于训练出更懂中国家庭的机器人。此外,30万套户型和无限生成的能力,为机器人提供了近乎无限的试错空间,加速了泛化能力的提升。

3. 完善具身智能基础设施生态 正如 Jim Fan 所指出的,具身智能的规模化需要世界模型、数据和环境三者协同。大晓机器人通过 Kairos 3.0-4B(世界模型)和 Kairos-Homeworld(数据

查看原文 →qbitai.com