技术博客arXiv cs.AI·2 小时前

神经符号驱动：基于规则推理的自动驾驶VLA模型

原标题：Neuro-Symbolic Drive: Rule-Grounded Faithful Reasoning for Driving VLAs

速览

该研究提出神经符号驾驶（Neuro-Symbolic Drive）框架，通过从经典规则规划器提取结构化的规则推理轨迹，对Qwen3.5-4B进行微调以构建自动驾驶VLA模型。其核心在于利用规则规划器作为可执行的推理引擎，确保推理过程与运动生成在结构上紧密耦合，而非事后对齐。实验表明，该方法显著降低了平均位移误差和未命中率，有效提升了自动驾驶决策的准确性与可解释性。

AI 深度解读

Neuro-Symbolic Drive：基于规则锚定的自动驾驶 VLA 可信推理

背景

自动驾驶视觉-语言-动作（Vision-Language-Action, VLA）模型近年来备受关注，特别是那些结合了思维链（Chain-of-Thought, CoT）推理能力的模型。这类模型的优势在于它们能够利用预训练视觉语言模型（VLM）的表征能力，并通过自然语言暴露中间决策过程，从而提升模型的可解释性。

然而，当前的 VLA 模型在生成推理过程时存在一个核心缺陷：其生成的“理由”（rationales）往往缺乏必要的逐步决策语义。这意味着模型生成的自然语言推理步骤与最终规划的运动轨迹之间，缺乏因果上的紧密连接。换句话说，模型可能“说”了一套逻辑，但实际执行的驾驶动作并不完全由这套逻辑决定，导致推理过程沦为一种事后的、形式化的对齐，而非真正的因果驱动。

核心内容

为了解决上述问题，研究团队提出了 Neuro-Symbolic Drive（神经符号驾驶框架）。该框架的核心思想是将经典基于规则的规划器（rule-based planners）作为监督信号，对驾驶 VLA 模型进行训练，使其推理过程受到规则的严格锚定。

1. 基于规则规划器的可执行推理引擎

研究者的关键观察在于：传统的基于规则的规划器本质上是一种符号人工智能（Symbolic AI）系统，它们本身就是可执行的推理引擎。这些规划器能够：

对活跃的安全约束进行推理；
在候选操作（maneuvers）空间中进行搜索；
最终选择一个确定的轨迹。

2. 仿真环境中的轨迹与决策捕获

为了利用这一特性，研究者在仿真环境中对基于规则的规划器进行了“仪器化”（instrumented）处理。这意味着系统不仅记录了规划器最终执行的轨迹，还捕获了在每个规则评估步骤中的内部决策轨迹。

3. 结构化规则锚定推理的构建

捕获到的每一步决策轨迹被序列化为结构化的“规则锚定推理”（rule-grounded reasoning）。这些结构化数据与对应的执行轨迹配对，用于微调 Qwen3.5-4B 模型，将其转化为一个具备驾驶能力的 VLA 模型。

4. 结构耦合而非事后对齐

Neuro-Symbolic Drive 的核心创新在于其推理与运动的耦合方式。由于这些推理轨迹直接源自决定动作的规划器状态，因此推理过程在结构上就与运动生成紧密耦合（structurally coupled）。这与当前许多 VLA 模型采用的“事后对齐”（post-hoc alignment）方法截然不同，后者往往导致推理与动作脱节。

5. 性能评估

在仿真器生成的基准测试中，引入详细的规则锚定推理显著提升了驾驶性能：

三摄像头感知场景下：平均位移误差（ADE@3s）从 0.47 降低至 0.26，未命中率（miss rate）从 8.30% 降低至 6.40%。
八摄像头感知场景下：平均位移误差（ADE@3s）从 0.54 降低至 0.26，未命中率从 10.13% 降低至 5.99%。

关键要点

问题定义：现有驾驶 VLA 模型的思维链推理缺乏与动作的因果联系，导致“说”与“做”不一致。
解决方案：提出 Neuro-Symbolic Drive 框架，利用经典基于规则规划器的内部决策过程作为监督信号。
方法论：
- 将基于规则的规划器视为可执行的符号推理引擎。
- 在仿真中捕获规划器的内部状态和最终轨迹。
- 将决策轨迹序列化为结构化规则推理，用于微调 Qwen3.5-4B 模型。
核心优势：实现了推理与运动生成的“结构耦合”，确保推理逻辑直接决定动作，而非事后强行对齐。
实验结果：在仿真基准测试中，规则锚定推理显著降低了平均位移误差（ADE）和未命中率，尤其在多摄像头感知场景下提升明显。

意义与影响

Neuro-Symbolic Drive 的工作为自动驾驶领域的 VLA 模型提供了一种新的训练范式。它证明了将符号 AI 的可解释性、逻辑严谨性与神经网络的感知能力相结合，可以有效解决当前大模型在自动驾驶应用中“幻觉”或推理与动作脱节的问题。

通过将从经典规划器中提取的结构化推理作为监督信号，该方法不仅提升了模型的性能指标（如 ADE 和 miss rate），更重要的是增强了驾驶决策的可信度和可解释性。这对于需要高安全标准的自动驾驶系统至关重要，因为它确保了模型的每一个决策步骤都有明确的逻辑依据，且这些逻辑直接映射到物理世界的运动控制中。

此外，该研究展示了如何利用传统 AI 技术（基于规则的规划）来增强现代深度学习模型（VLA），为神经符号人工智能（Neuro-Symbolic AI）在复杂动态系统中的实际应用提供了有力的实证支持。

查看原文 →arxiv.org