← 返回信息流
AI 资讯量子位·2 小时前

阿里发布首个具身大模型Qwen-Robot系列

原标题:三连发!阿里发布首个具身大模型Qwen-Robot系列

速览

阿里巴巴正式发布首个具身大模型Qwen-Robot系列。该模型具备边走、边看、边思考的能力,标志着具身智能领域的重要突破。此举旨在推动机器人技术在复杂环境中的感知与决策能力。

AI 深度解读

背景

随着人工智能从数字世界向物理世界延伸,具身智能(Embodied Intelligence)正成为科技行业的关键赛道。当前,全球具身智能行业正处于从“实验室研发”向“真实场景商业化”跨越的临界点。大语言模型(LLM)擅长在数字世界中对话和生成内容,而具身智能则要求模型具备在现实物理世界中听懂指令、感知环境并稳定执行任务的能力。

6月16日,阿里巴巴发布了千问具身智能大模型 Qwen-Robot 系列。这是千问大模型家族首个完整的具身智能模型系列,旨在解决机器人在陌生环境中自主执行复杂操作和精准移动的难题,为不同形态的机器人提供可靠的“通用底座”。

核心内容

Qwen-Robot 系列包含三大核心模型,分别对应机器人的“手”、“脚”和“大脑”,既可单独部署,也能协同运转:

  1. Qwen-RobotManip(VLA 操作模型):赋予机器人灵巧的手

    • 定位:视觉-语言-动作(Vision-Language-Action, VLA)模型,融合视觉感知、语言理解和动作决策。
    • 痛点解决:传统 VLA 模型存在迁移能力不足的问题,换机器人或换场景性能易下降。Qwen-RobotManip 通过解决“动作统一”和“空间统一”两大核心问题,让不同形态的机器人能听懂同一套指令。
    • 技术突破
      • 采用一套 80 维的统一动作表征,为不同硬件定义通用的“肢体语言”,使机器人习得基础物理规律与动作逻辑,而非生硬模仿。
      • 摒弃繁琐的绝对坐标计算,直接基于摄像头画面中的相对位置进行操作,提升对环境变化的适应能力。
    • 训练数据:基于超过 38,000 小时 的开源语料完成预训练,全程未依赖私有自采数据。
    • 性能表现:在 RoboChallenge Table30 v1 三方真机测评中,代号“Lira”和“Atlas”的两个版本位列前两名。该榜单横跨 30 项真实世界任务(如拧水龙头、插网线、双臂倒薯条等)及 4 个机器人平台,官方评价其“基础任务稳定、高难任务可突破”。
  2. Qwen-RobotNav(VLN 移动模型):赋予机器人认路的脚

    • 定位:视觉语言导航(Vision-Language Navigation, VLN)模型,基于 Qwen-VL 构建。
    • 功能统一:将语言指令导航、目标搜索、自动驾驶等五大任务族统一到同一框架,无需人工切换模型。
    • 技术突破
      • 创新推出任务自适应观察机制,根据任务灵活切换记忆策略,解决传统 VLN 模型“记少迷路、记多混乱”的困境。
      • 设计为通用接口,原生支持多种智能体框架,可被上层模型调用。
    • 应用场景:实现“边走、边看、边思考”最佳路线。例如,搭载该系统的宇树 Go2 四足机器人可自主巡逻并进行视觉推理,完成“寻找不记得放在哪的行李箱”等寻物导航任务。
  3. Qwen-RobotWorld(世界模型):赋予机器人会思考的大脑

    • 定位:基于对物理规律的理解,推理和模拟下一个时间点机器人的合理动作和状态。
    • 核心能力:让机器人在现实世界中可按图索骥般地行动,具备预见后果的能力。
    • 应用价值
      • 数据生成:生成视频数据以训练模型,缓解训练数据不足的问题。
      • 动作推演:在执行动作前推演未来轨迹,提升操作的精准度和到位率。

关键要点

  • 首个完整系列:Qwen-Robot 是千问大模型家族首个完整的具身智能模型系列,涵盖操作、导航和世界模型。
  • 开源数据训练:Qwen-RobotManip 全程仅基于开源数据训练,打破了行业高度依赖私有自采数据的常规路径,并取得了优异效果。
  • 通用性与兼容性
    • Qwen-RobotManip 通过 80 维统一动作表征和相对位置操作,实现了跨硬件、跨场景的快速适配(“像老司机坐进陌生车辆”)。
    • Qwen-RobotNav 作为通用接口,支持多种智能体框架,提升了系统的集成效率。
  • 协同与独立部署:三大模型既可在统一自然语言指令下协同运转,也可单独部署,展现一致的高性能。
  • 评测成绩优异:在 RoboChallenge 真机多任务全球榜单及多项具身智能评测中夺得 SOTA(State of the Art,当前最佳水平)。

意义与影响

Qwen-Robot 系列的发布标志着千问大模型家族从数字智能体迈向物理智能体的重要一步。通过提供“通用底座”,该系列让机器人具备了在复杂现实中高度自主的感知、决策与长程执行能力。

  • 推动商业化落地:解决了机器人在陌生环境中“听懂指令、稳定执行”的关键门槛,加速具身智能从实验室走向真实场景的商业化进程。
  • 降低部署门槛:通过统一动作表征和通用接口设计,降低了不同形态机器人适配大模型的难度,促进了具身智能技术的普及。
  • 构建物理智能体生态:未来,这套“通用大脑”将搭载于更多形态的机器人,使其能够去很多地方、做很多事情,并预见其后果,为构建完整的具身智能体系统提供了关键支撑。
查看原文 →qbitai.com