技术博客arXiv cs.AI·1 小时前

FlowR2A：通过奖励分布学习实现多模态驾驶规划

原标题：FlowR2A: Learning Reward-to-Action Distribution for Multimodal Driving Planning

速览

FlowR2A提出将仿真奖励从判别目标重构为生成条件，解决了多模态驾驶规划中长期存在的评分法与锚点法之间的张力。该方法通过流匹配解码器学习奖励条件动作分布，统一了密集监督与动态提案生成，使模型内化动作与安全、进度等结果的关联。实验表明，FlowR2A在NAVSIM基准上达到最先进水平，生成的多模态提案质量显著优于现有方法。

AI 深度解读

FlowR2A：通过奖励到动作分布学习实现多模态驾驶规划

背景

在多模态驾驶规划（Multimodal Driving Planning）领域，长期以来存在两种主要范式之间的张力，二者各有优劣且难以兼得：

基于评分的方法（Scoring-based methods）：
- 优势：能够从密集的奖励监督（dense reward supervision）中受益，学习更加精细的策略。
- 局限：通常局限于固定的动作词汇表（fixed action vocabulary），缺乏生成多样化、动态提案的能力。
基于锚点的方法（Anchor-based methods）：
- 优势：能够动态生成提案（proposals），灵活性更高。
- 局限：受到稀疏监督（sparse supervision）的限制，通常仅约束于单一的真实轨迹（ground-truth trajectory），难以充分利用丰富的奖励信号。

这种二元对立使得现有的驾驶规划模型要么在动作多样性上受限，要么在训练信号的丰富度上不足。如何统一这两种范式，既利用密集的奖励信号，又保持动态生成高质量多模态提案的能力，是该领域亟待解决的核心问题。

核心内容

为了解决上述张力，研究团队提出了 FlowR2A 模型。该模型的核心思想是将基于仿真的奖励（simulation-based rewards）从判别性目标（discriminative targets）重构为生成性条件（generative conditions）。

1. 统一框架：奖励条件化的动作分布

FlowR2A 通过一个基于流匹配（flow-matching）的解码器，从密集的轨迹-奖励对中学习奖励条件化的动作分布。这一设计实现了以下统一：

融合监督信号：将基于评分方法的密集监督与基于锚点方法的提案生成能力整合到单一的生成模型中。
内化因果关系：迫使模型内部化动作与其结果之间的相关性，这些结果涵盖安全性（safety）、进展度（progress）、舒适性（comfort）和规则合规性（rule compliance）等多个维度。

2. 细粒度奖励条件与噪声增强

为了在硬性安全约束与软性进展目标之间取得平衡，FlowR2A 引入了两项关键技术：

细粒度每时间步奖励条件化（Fine-grained per-timestep reward conditioning）：允许模型在每个时间步根据具体的奖励信号调整生成策略，而非仅依赖全局奖励。
奖励噪声增强（Reward noise augmentation）：通过引入噪声增强训练的鲁棒性，防止模型过拟合特定的奖励信号，提高泛化能力。

3. 可控的测试时采样

FlowR2A 的生成式公式天然支持通过奖励引导（reward guidance）和锚点采样（anchored sampling）进行可控的测试时采样。这种方法能够产生高质量的多模态提案，显著提升了规划结果的质量和多样性。

4. 性能表现

在 NAVSIM v1 和 v2 基准测试中，FlowR2A 取得了最先进（state-of-the-art）的结果。其生成的多模态提案质量显著优于先前的方法，证明了该框架在解决多模态驾驶规划难题上的有效性。

关键要点

范式统一：FlowR2A 解决了基于评分方法（密集监督但动作受限）与基于锚点方法（动态生成但监督稀疏）之间的长期矛盾。
生成式重构：将奖励从判别性标签转变为生成性条件，利用流匹配解码器学习奖励条件化的动作分布。
多维目标内化：模型不仅关注安全性，还同时优化进展、舒适性和规则合规性，通过密集轨迹-奖励对实现多目标平衡。
细粒度控制：引入每时间步的奖励条件化和奖励噪声增强，以平衡硬性安全约束与软性进展目标。
高质量提案生成：通过奖励引导和锚点采样，FlowR2A 能够生成高质量、多样化的多模态驾驶提案。
SOTA 性能：在 NAVSIM v1 和 v2 基准上达到当前最佳性能，验证了其在自动驾驶规划领域的实用价值。

意义与影响

FlowR2A 的提出标志着自动驾驶规划领域的一个重要进展。它不再将奖励信号仅作为事后评估的标尺，而是将其作为生成规划轨迹的核心驱动力。这种从“判别”到“生成”的转变，使得模型能够更灵活地应对复杂的交通场景，生成既安全又高效且符合人类驾驶习惯的多模态方案。

对于行业而言，FlowR2A 提供的框架为后续研究提供了新的思路：即如何利用密集的仿真奖励信号来指导生成式模型的学习，从而突破传统动作词汇表的限制。随着 NAVSIM 等基准测试的普及，FlowR2A 的高性能表现有望推动多模态驾驶规划技术向更实用、更安全的方向演进，为 L4/L5 级自动驾驶的落地提供关键技术支撑。

查看原文 →arxiv.org