ICRA 2026:深度强化学习团队自动驾驶四项重磅工作速览
速览
本文介绍了ICRA 2026上CASIA深度强化学习团队的四项自动驾驶研究成果。首先揭示了端到端自动驾驶中的数据Scaling Law,指出数据分布质量与闭环评测的重要性。其次提出ConsistencyPlanner框架,利用一致性模型实现实时、多模态的闭环规划。第三项工作TakeAD利用专家接管数据进行偏好优化,解决开环训练与闭环部署的不一致问题。这些工作为构建更安全、泛化能力更强的自动驾驶系统提供了重要参考。
AI 深度解读
ICRA 2026 深度解读:端到端自动驾驶与具身智能的前沿突破
背景
随着人工智能技术的快速演进,自动驾驶与具身智能(Embodied AI)正从理论探索迈向大规模落地应用的关键阶段。在自动驾驶领域,端到端(End-to-End)架构因其强大的可扩展性和数据驱动能力,逐渐取代传统的模块化方案,成为行业发展的主流方向。然而,这一范式也面临着数据规模规律不明、闭环决策稳定性不足、以及仿真到现实(Sim2Real)迁移困难等核心挑战。
与此同时,具身智能作为连接数字智能与物理世界的桥梁,其核心瓶颈在于机器人对三维空间结构的感知能力不足,以及多模态大模型在复杂双臂操作任务中缺乏对“身体本体感知”的理解。
在此背景下,ICRA 2026(2026年国际机器人学与自动化会议)展示了来自中国科学院自动化研究所(CASIA)深度强化学习团队及其他合作者的多项最新研究成果。这些工作涵盖了从自动驾驶的数据规模定律、实时规划框架、偏好优化策略,到机器人3D视觉重建、Sim2Real抓取以及双臂人形机器人规划等多个维度,旨在解决当前技术落地中的痛点,推动系统向更安全、更鲁棒、更高效的方向发展。
核心内容
本次展示的研究主要围绕两大主线展开:一是深化对端到端自动驾驶中数据与算法机制的理解,二是提升具身智能在复杂物理交互中的感知与规划能力。
1. 自动驾驶中的数据规模定律与规划优化
数据规模规律(Scaling Laws)的实证研究 针对端到端自动驾驶中“数据越多越好”的假设,研究团队构建了包含23类驾驶场景、约400万条演示数据(总时长超3万小时)的大规模数据集。通过系统研究,发现模型性能与数据量在开放环(open-loop)评测中呈现明显的幂律关系,但在更贴近真实的闭环(closed-loop)评测中这一规律失效。这表明,单纯扩大数据规模不足以解决自动驾驶问题,数据分布质量、场景覆盖度以及长尾场景数据的引入对于提升模型在复杂场景中的表现至关重要。研究首次揭示了端到端自动驾驶中的数据 Scaling Law,指出核心竞争力正从“模型设计”转向“高质量数据与场景覆盖能力”。
实时规划框架 ConsistencyPlanner 为解决传统生成式规划方法推理速度慢、多模态行为建模难的问题,团队提出了 ConsistencyPlanner。该框架基于 Consistency Model,引入了基于快速采样的一致性模型多模态轨迹生成机制,能够在极短时间内高效生成多种合理未来轨迹。同时,设计了注意力增强的异构特征融合解码器,动态融合场景特征与动作 token。在 Waymax 仿真平台上的实验显示,该方法在安全性指标上显著优于现有方法,实现了多样化驾驶行为建模与实时规划效率的平衡。
偏好驱动的后优化框架 TakeAD 针对模仿学习(IL)在训练(开放环)与部署(闭环)之间的不一致性,团队提出了 TakeAD 框架。该框架利用自动驾驶系统中真实的人工接管(takeover)数据,对已有策略进行后训练优化。通过结合迭代式 Dataset Aggregation(DAgger)和直接偏好优化(DPO),TakeAD 使模型不仅能模仿专家行为,还能学习符合专家偏好的决策方式,特别是在系统失效状态下的恢复能力。在 Bench2Drive 基准测试中,该方法显著提升了系统在复杂场景中的稳定性与安全性。
分层目标驱动扩散模型 Mimir 针对高层语义引导可能带来的误差及计算开销问题,团队提出了 Mimir 框架。Mimir 首次通过拉普拉斯分布对目标点不确定性进行建模,使系统能显式感知高层引导中的不确定信息,从而生成更稳定的轨迹。此外,通过多速率引导机制(Multi-rate Guidance Mechanism),提前预测长时间范围内的目标点,降低了高层模块的调用频率。在 Navhard 与 Navtest 基准测试中,Mimir 实现了20%的 EPDMS 驾驶评分提升,且高层模块推理速度提升1.6倍。
2. 具身智能中的3D感知与Sim2Real迁移
3D视觉预训练框架 CL3R 为解决预训练2D视觉模型在机器人操作中缺乏3D空间感知及视角泛化能力有限的问题,团队提出了 CL3R 框架。该框架首次将3D空间感知与语义理解有效结合:通过基于点云的 Masked Autoencoder 学习丰富的3D空间表示,并利用对比学习从预训练2D基础模型中迁移语义知识。通过统一坐标系的3D视觉预训练方案及多视角点云随机融合机制,CL3R 有效缓解了相机视角歧义,显著提升了机器人在新视角下的泛化能力及复杂操作任务中的鲁棒性。
基于扩散模型的Sim2Real抓取 DiffuDepGrasp 针对仿真与真实世界深度图之间的巨大差异(Sim2Real Gap),团队提出了 DiffuDepGrasp 框架。该框架仅通过仿真数据训练,即可实现真实机器人上的零样本抓取迁移。其核心创新在于 Diffusion Depth Generator,包含 Diffusion Depth Module(利用时间几何先验学习真实传感器噪声分布)和 Noise Grafting Module(在注入噪声的同时保持几何与尺度准确性)。该方法在部署时无需额外计算开销,在12类物体抓取任务中实现了95.7%的平均成功率,并展现出优异的泛化能力。
3. 双臂人形机器人的具身规划
Proprio-MLLM 与 DualTHOR 平台 针对多模态大语言模型(MLLM)在双臂人形机器人长时程任务中缺乏身体本体感知的问题,团队提出了 Proprio-MLLM 模型及 DualTHOR 仿真平台。Proprio-MLLM 将机器人本体感知信息(proprioception)引入多模态大模型,通过运动驱动的位置编码与跨空间编码器,增强模型对机器人身体结构、动作状态及空间关系的理解。DualTHOR 平台支持连续动作切换与任务应急机制,为复杂长时程任务提供了更真实的交互环境。实验表明,引入本体感知后,MLLM 在双臂人形机器人任务中的规划与决策能力得到显著提升。
关键要点
- 数据质量优于单纯数量:在端到端自动驾驶中,闭环性能并不遵循简单的数据幂律增长,数据分布质量、场景覆盖度及长尾数据对模型泛化能力至关重要。
- 实时性与多模态的平衡:ConsistencyPlanner 利用快速采样一致性模型,突破了传统生成式规划推理慢的瓶颈,实现了实时且多样化的轨迹生成。
- 利用“失败”数据优化策略:TakeAD 框架证明,真实接管数据蕴含巨大价值,通过 DPO 和 DAgger 进行偏好对齐和后训练,可有效缓解开放环与闭环之间的性能差距。
- 不确定性建模提升鲁棒性:Mimir 框架通过拉普拉斯分布建模目标点不确定性,并结合多速率引导机制,在提升规划精度的同时显著提高了推理效率。
- 3D感知与语义对齐:CL3R 框架通过结合3D点云自编码与2D语义迁移,解决了机器人视觉在视角变化下的泛化难题。
- 高效的Sim2Real迁移:DiffuDepGrasp 通过扩散模型模拟真实传感器噪声,实现了仅用仿真数据即可在真实世界进行高精度零样本抓取,且部署成本低。
- 本体感知增强大模型规划:Proprio-MLLM 通过引入机器人本体感知信息,弥补了传统 MLLM 对机器人“身体”理解不足的缺陷,提升了双臂人形机器人的复杂任务执行能力。
意义与影响
这一系列工作对自动驾驶与具身智能领域具有深远的理论与实践意义:
- 重塑自动驾驶研发范式:通过揭示数据 Scaling Law 和提出 TakeAD 等后优化框架,研究指出自动驾驶的未来竞争力将高度依赖于高质量数据的构建与利用,以及从“模仿”到“偏好对齐”的算法演进。这为行业从单纯追求模型复杂度转向数据工程与策略优化提供了理论依据。
- 加速自动驾驶商业化落地:ConsistencyPlanner 和 Mimir 等框架在保持高安全性的同时,显著提升了系统的实时性与推理效率,解决了生成式模型在车端部署时的算力瓶颈,为下一代具备实时决策能力的自动驾驶系统提供了可行的技术路径。
