北大董豪:仅数据Scaling Law教不出通用机器人
速览
北大副教授董豪指出,传统模仿学习与强化学习存在硬伤,仅靠数据量增长的一维Scaling Law无法实现通用具身智能。他主张引入任务数量维度的二维Scaling Law,结合世界模型与生成式数据增强,实现“越学越省”。这一路径被视为家用及通用人形机器人规模化落地的关键。
AI 深度解读
独家解读:北大董豪提出「二维 Scaling Law」,重构具身智能数据增长逻辑
背景
近期,具身智能(Embodied AI)领域的模型技术迭代节奏明显放缓,行业内部在技术路线上出现了显著的分歧。尽管大语言模型(LLM)领域遵循着成熟的数据规模与性能正相关的 Scaling Law,但在具身智能领域,传统的训练范式正面临瓶颈。
在此背景下,北京大学副教授、上纬启元首席科学家董豪在百度智能云具身智能论坛上提出了新观点。他认为,当前主流的模仿学习、强化学习以及仿真数据技术各自存在硬伤,仅停留在数据量一维层面的 Scaling Law 无法支撑通用机器人的大规模落地。董豪主张引入「二维横向 Scaling Law」,将世界模型、生成式数据、人类示教等热门技术串联,旨在解决机器人任务学习效率与数据成本之间的矛盾,实现「越学越省」的技术路径。
核心内容
董豪将当前具身模型训练划分为两大阶段,并深入剖析了各阶段的技术现状、短板及演进方向,最终提出了二维 Scaling Law 的核心框架。
1. 预训练阶段:模仿学习的优势与致命短板 模仿学习依托标准化的人工示范数据,能够快速赋予机器人基础操作能力,其逻辑与大语言模型的预训练相通,优势在于快速冷启动。然而,其致命缺陷在于训练样本全部为“正确轨迹”,完全缺失故障、失误样本的分布。即便积累上万条标准数据,机器人在真实场景中执行出错后,也不具备自主调整和纠错的能力。
- 行业标杆案例:北京智源研究院基于 15 款异构双臂机器人搭建大规模多模态数据集,训练出可跨硬件通用的 VLA(Vision-Language-Action)视觉语言动作模型,成为模仿学习路线的标杆工程。
2. 仿真赛道的阶段性成果 仿真技术同样取得了进展。上海人工智能实验室推出了 InternData-A1 纯仿真合成数据集。该数据集无需真机采集,在多项实操任务中,其训练完成的成功率甚至超过了真机实拍数据,证明了仿真数据在特定场景下的高价值。
3. 后置迭代阶段:强化学习补齐容错短板 仅靠模仿学习不足以支撑通用机器人落地,强化学习是行业确定的演进方向。董豪重点解读了经典的 Dagger 数据聚合框架,该框架早年已在自动驾驶领域得到验证:纯正常行驶数据会导致模型容错能力缺失,必须补充故障场景样本。
- 机制原理:当机器人执行失误后,接入人工干预,将纠错轨迹纳入训练集,从而持续提升真机环境下的任务稳定性。
- 落地成果:董豪团队已实现机器人全自主洗衣流程。设备不仅能自主规划移动路径、开合洗衣机门,在抓取衣物失败后,还能像人类一样主动重试,整套流程无需人工介入。这证明了“模仿学习打底 + 强化学习持续迭代”的组合方案,能够支撑机器人在固定空间完成高强度连续作业。
4. 核心创新:从一维到二维 Scaling Law 即便实现了“模仿 + 强化”的闭环,传统的一维 Scaling Law(仅关注数据量)依旧无法描绘通用具身智能的长期增长天花板。董豪提出核心创新观点:横向二维 Scaling Law。
- 维度定义:在原有“数据量”维度之外,新增“任务数量”坐标轴。
- 增长逻辑:随着数据集持续扩充,机器人掌握全新任务的初始完成率同步上涨,达成高成功率所需的样本量持续下降。
- 规避低效曲线:行业需避免“数据增长与可掌握任务仅呈线性关系、边际收益持续递减”的低效增长。
- 理想曲线(高效红线):伴随模型迭代和数据规模扩张,机器人可掌握的任务数量高速提升,实现“越学越省”。这是物理世界 AGI 的必经之路。
5. 技术落地:生成式数据增强与仿真互补 为了支撑二维 Scaling Law 的落地,董豪披露了团队在数据生成和仿真应用上的最新研究成果:
- 生成式数据增强:依托世界模型与生成 AI,单条真机采集轨迹可生成 50 条物体摆放、空间位置差异化的高逼真等效训练数据。这极大缓解了真机数据采集成本高、样本稀缺的痛点,大幅提升了真实数据的利用效率。
- 仿真突破非标家电瓶颈:家用设备型号繁杂,若模型具备读取说明书、理解操作逻辑的能力,将大幅拓宽落地边界。室内导航、多物体空间关系推演等任务可通过仿真批量生成海量素材。仿真数据与真机数据双向互补,持续拓宽能力边界。
- 低成本人类示教:团队探索了普惠化低成本方案,通过穿戴式手持相机记录人类操作视频,直接转化为机器人可训练轨迹。同等预算下可获取海量示范数据,持续优化二维缩放增长曲线,长期压低数据采集边际成本。
关键要点
- 传统路径局限:模仿学习缺乏纠错样本,强化学习需解决容错问题,单一维度的数据堆砌无法突破通用具身智能的性能天花板。
- 二维 Scaling Law 定义:横轴为数据量,纵轴为任务数量。目标是实现数据规模扩张与任务覆盖广度同步高速提升,打破边际收益递减规律。
- 技术组合拳:
- 模仿学习:负责快速冷启动,建立基础操作能力。
- 强化学习:负责后置迭代,通过 Dagger 等框架引入纠错轨迹,提升真实环境稳定性。
- 世界模型与生成 AI:用于数据增强,1 条真机数据生成 50 条等效样本,解决数据稀缺问题。
- 仿真技术:用于处理非标家电操作、室内导航等复杂场景,与真机数据互补。
- 低成本数据采集:通过穿戴式设备记录人类视频并转化为训练轨迹,是降低规模化数据采集边际成本的关键手段。
- 统一的技术目标:无论是世界模型、Umi 还是人类视频预训练,看似分散的技术路线,底层目标均指向加速“二维高效增长曲线”的成型。
意义与影响
董豪提出的「二维 Scaling Law」为具身智能行业提供了一套新的理论框架和实践指引,其意义在于:
- 重新定义数据价值:从单纯追求数据量的“堆料”模式,转向追求数据对任务覆盖率的“效率”模式。这要求行业在数据采集和处理上更加注重多样性和生成能力,而非仅仅增加采集数量。
- 指明商业化落地路径:通用具身智能和家用服务机器人的大规模商业化,核心痛点在于数据成本高和泛化能力弱。二维 Scaling Law 提出的“越学越省”逻辑,直接回应了这一痛点,表明只有走完这条技术路径,才能实现低成本、高泛化的规模化落地。
- 整合碎片化技术路线:该框架将世界模型、生成式 AI、仿真、人类示教等技术串联起来,解释了它们为何同时成为行业热点——因为它们共同服务于提升“单位数据带来的任务增益”这一核心目标。这有助于行业减少内耗,形成技术合力。
- 推动具身智能从实验室走向家庭:通过仿真解决非标家电操作、通过生成数据降低采集成本,这些具体技术手段的突破,使得机器人进入复杂、非结构化的家庭环境成为可能,加速了具身智能从工业场景向消费级场景的渗透。
