← 返回信息流
技术博客arXiv cs.AI·2 小时前

神经符号驱动:基于规则推理的自动驾驶VLA模型

原标题:Neuro-Symbolic Drive: Rule-Grounded Faithful Reasoning for Driving VLAs

速览

该研究提出神经符号驾驶(Neuro-Symbolic Drive)框架,通过从经典规则规划器提取结构化的规则推理轨迹,对Qwen3.5-4B进行微调以构建自动驾驶VLA模型。其核心在于利用规则规划器作为可执行的推理引擎,确保推理过程与运动生成在结构上紧密耦合,而非事后对齐。实验表明,该方法显著降低了平均位移误差和未命中率,有效提升了自动驾驶决策的准确性与可解释性。

AI 深度解读

Neuro-Symbolic Drive:基于规则锚定的自动驾驶 VLA 可信推理

背景

自动驾驶视觉-语言-动作(Vision-Language-Action, VLA)模型近年来备受关注,特别是那些结合了思维链(Chain-of-Thought, CoT)推理能力的模型。这类模型的优势在于它们能够利用预训练视觉语言模型(VLM)的表征能力,并通过自然语言暴露中间决策过程,从而提升模型的可解释性。

然而,当前的 VLA 模型在生成推理过程时存在一个核心缺陷:其生成的“理由”(rationales)往往缺乏必要的逐步决策语义。这意味着模型生成的自然语言推理步骤与最终规划的运动轨迹之间,缺乏因果上的紧密连接。换句话说,模型可能“说”了一套逻辑,但实际执行的驾驶动作并不完全由这套逻辑决定,导致推理过程沦为一种事后的、形式化的对齐,而非真正的因果驱动。

核心内容

为了解决上述问题,研究团队提出了 Neuro-Symbolic Drive(神经符号驾驶框架)。该框架的核心思想是将经典基于规则的规划器(rule-based planners)作为监督信号,对驾驶 VLA 模型进行训练,使其推理过程受到规则的严格锚定。

1. 基于规则规划器的可执行推理引擎

研究者的关键观察在于:传统的基于规则的规划器本质上是一种符号人工智能(Symbolic AI)系统,它们本身就是可执行的推理引擎。这些规划器能够:

  • 对活跃的安全约束进行推理;
  • 在候选操作(maneuvers)空间中进行搜索;
  • 最终选择一个确定的轨迹。

2. 仿真环境中的轨迹与决策捕获

为了利用这一特性,研究者在仿真环境中对基于规则的规划器进行了“仪器化”(instrumented)处理。这意味着系统不仅记录了规划器最终执行的轨迹,还捕获了在每个规则评估步骤中的内部决策轨迹。

3. 结构化规则锚定推理的构建

捕获到的每一步决策轨迹被序列化为结构化的“规则锚定推理”(rule-grounded reasoning)。这些结构化数据与对应的执行轨迹配对,用于微调 Qwen3.5-4B 模型,将其转化为一个具备驾驶能力的 VLA 模型。

4. 结构耦合而非事后对齐

Neuro-Symbolic Drive 的核心创新在于其推理与运动的耦合方式。由于这些推理轨迹直接源自决定动作的规划器状态,因此推理过程在结构上就与运动生成紧密耦合(structurally coupled)。这与当前许多 VLA 模型采用的“事后对齐”(post-hoc alignment)方法截然不同,后者往往导致推理与动作脱节。

5. 性能评估

在仿真器生成的基准测试中,引入详细的规则锚定推理显著提升了驾驶性能:

  • 三摄像头感知场景下:平均位移误差(ADE@3s)从 0.47 降低至 0.26,未命中率(miss rate)从 8.30% 降低至 6.40%。
  • 八摄像头感知场景下:平均位移误差(ADE@3s)从 0.54 降低至 0.26,未命中率从 10.13% 降低至 5.99%。

关键要点

  • 问题定义:现有驾驶 VLA 模型的思维链推理缺乏与动作的因果联系,导致“说”与“做”不一致。
  • 解决方案:提出 Neuro-Symbolic Drive 框架,利用经典基于规则规划器的内部决策过程作为监督信号。
  • 方法论
    • 将基于规则的规划器视为可执行的符号推理引擎。
    • 在仿真中捕获规划器的内部状态和最终轨迹。
    • 将决策轨迹序列化为结构化规则推理,用于微调 Qwen3.5-4B 模型。
  • 核心优势:实现了推理与运动生成的“结构耦合”,确保推理逻辑直接决定动作,而非事后强行对齐。
  • 实验结果:在仿真基准测试中,规则锚定推理显著降低了平均位移误差(ADE)和未命中率,尤其在多摄像头感知场景下提升明显。

意义与影响

Neuro-Symbolic Drive 的工作为自动驾驶领域的 VLA 模型提供了一种新的训练范式。它证明了将符号 AI 的可解释性、逻辑严谨性与神经网络的感知能力相结合,可以有效解决当前大模型在自动驾驶应用中“幻觉”或推理与动作脱节的问题。

通过将从经典规划器中提取的结构化推理作为监督信号,该方法不仅提升了模型的性能指标(如 ADE 和 miss rate),更重要的是增强了驾驶决策的可信度和可解释性。这对于需要高安全标准的自动驾驶系统至关重要,因为它确保了模型的每一个决策步骤都有明确的逻辑依据,且这些逻辑直接映射到物理世界的运动控制中。

此外,该研究展示了如何利用传统 AI 技术(基于规则的规划)来增强现代深度学习模型(VLA),为神经符号人工智能(Neuro-Symbolic AI)在复杂动态系统中的实际应用提供了有力的实证支持。

查看原文 →arxiv.org