技术博客arXiv cs.AI·3 天前

强化学习自动驾驶引入不确定性感知专家指导

原标题：Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

速览

针对强化学习在自动驾驶探索中固有的安全风险，研究提出一种不确定性感知框架，利用专家建议引导智能体探索并避免长期依赖。该框架通过动态阈值触发建议，并结合承诺-冷却策略调节指导频率，确保智能体在安全范围内学习连贯操作。实验表明，该方法在CARLA仿真中显著提高了成功率并减少了失败，证明了风险敏感的不确定性管理能有效促进基于传感器的强化学习策略学习。

AI 深度解读

自动驾驶强化学习中的不确定性感知与时间调控专家建议

背景

在基于传感器的强化学习（RL）策略学习中，探索（Exploration）是一个核心且极具挑战性的环节。特别是在自动驾驶这一高风险场景中，智能体（Agent）必须通过尝试新的行为来学习最优策略，但探索过程本身往往伴随着巨大的安全风险。传统的探索机制容易导致智能体做出碰撞或驶离道路等危险行为。

此外，现有的专家辅助方法通常存在“长期依赖”问题，即智能体过度依赖专家指令，导致其自身决策能力退化，或者专家建议的频率和持续时间缺乏动态调控，难以在“安全引导”与“自主探索”之间取得平衡。特别是在无信号灯交叉路口（unsignalized intersection）等复杂场景下，如何确保探索的安全性同时提高学习效率，是当前自动驾驶研究亟待解决的难题。

核心内容

本文提出了一种不确定性感知且时间调控的专家建议框架，旨在解决自动驾驶强化学习中的探索安全问题。该框架通过动态评估智能体的不确定性状态来触发专家建议，并结合特定的时间调控策略，确保智能体在安全的前提下进行高效探索。

1. 基于不确定性的动态触发机制

该方法区分了两种不确定性：

认知不确定性（Epistemic Uncertainty）：源于模型知识的不足。
偶然不确定性（Aleatoric Uncertainty）：源于环境数据的固有噪声。

专家建议并非固定频率触发，而是当上述两种不确定性超过基于滚动缓冲区（rolling buffers）计算得出的自适应阈值时才会激活。这种机制确保了专家建议会随着智能体自信心的变化而动态演进：当智能体对当前状态或动作缺乏把握时，专家介入；当智能体信心充足时，则减少干预。

2. 承诺-冷却策略与随机早停启发式

为了调节专家建议的持续时间和频率，避免智能体过度依赖或耗尽建议预算，文章引入了一种承诺-冷却策略（commitment-cooldown strategy）：

承诺机制：一旦专家建议被触发，将在一定时间内保持连贯，确保智能体执行完整的机动动作，而非碎片化的指令。
冷却机制：在建议结束后，设置冷却期，防止建议过于频繁。
随机早停启发式（Stochastic Early-Stop Heuristic）：作为一种调节手段，允许在特定条件下提前终止建议，从而在暴露智能体于连贯机动动作的同时，有效控制建议预算的使用。

3. 共享经验回放与 IQN 骨干网络

在算法架构上，该方法采用了**离策略隐式分位数网络（Off-policy Implicit Quantile Network, IQN）**作为骨干网络。

共享经验回放缓冲区（Shared Replay Buffer）：专家的经验数据与智能体自身的交互经验被混合存储在同一个回放缓冲区中。
高效复用：这种设计使得智能体能够高效地复用专家轨迹，加速收敛过程，同时保持离策略学习的稳定性。

4. 实验验证

在 CARLA 自动驾驶仿真平台进行的实验表明，该方法在无信号灯交叉路口导航任务中表现优异。与标准的 IQN 基线相比，该方法将成功率提高了 5-7%，并显著减少了失败案例。这证明了将风险敏感的不确定性分析与受控的专家集成相结合，能够显著提升基于传感器的强化学习策略学习的安全性和效率。

关键要点

双重不确定性监控：同时监控认知不确定性和偶然不确定性，作为触发专家建议的依据，而非仅依赖单一指标。
自适应阈值：利用滚动缓冲区动态计算不确定性阈值，使专家介入时机与智能体的实时信心水平相匹配。
时间调控策略：通过“承诺-冷却”机制和随机早停启发式，精确控制专家建议的持续时间和频率，防止过度依赖并保证动作的连贯性。
离策略学习优化：基于 IQN 骨干网络，构建共享经验回放缓冲区，实现专家轨迹与智能体经验的高效混合与复用。
显著提升安全性与效率：在 CARLA 仿真中，相比基线方法，成功率提升 5-7%，有效降低了碰撞和驶离道路等高风险行为。

意义与影响

这项研究为自动驾驶领域的强化学习探索问题提供了一个切实可行的解决方案。其核心价值在于打破了“安全”与“探索效率”之间的传统权衡：

安全性提升：通过不确定性感知机制，确保智能体在“不确定”或“高风险”时刻获得专家保护，从根本上降低了探索阶段的安全事故率。
学习效率优化：受控的专家建议避免了无效或冗余的干预，使智能体能更专注于学习有价值的机动策略，加速了收敛过程。
通用性潜力：虽然实验集中在无信号灯交叉路口，但其提出的不确定性评估与时间调控框架具有通用性，可推广至其他复杂的自动驾驶场景。
技术融合示范：展示了如何将理论上的不确定性量化（Epistemic/Aleatoric）与实际工程中的控制策略（Commitment/Cooldown）相结合，为后续基于 RL 的自动驾驶系统开发提供了重要的参考范式。

总之，该方法证明了在强化学习中引入“风险敏感”的不确定性分析和精细化的专家干预调控，是实现更安全、更高效自动驾驶决策的关键路径。

查看原文 →arxiv.org