AI 资讯雷峰网·2 天前

ICRA 2026收录AFSP框架：打通大模型推理与实时控制

原标题：ICRA 2026 收录成果：Agentic Fast-Slow Planning打通大模型推理与实时控制，让具身智能更稳、更快

速览

ICRA 2026收录了Agentic Fast-Slow Planning（AFSP）框架，旨在解决大模型推理与实时控制间的时延与稳定性矛盾。该框架将大模型用于慢速高层语义决策，结合A*规划与MPC控制器实现快速闭环执行。实验显示，该方法在CARLA仿真中显著降低横向偏差并缩短任务时间，提升了具身智能系统的鲁棒性与工程可部署性。

AI 深度解读

ICRA 2026 收录成果：Agentic Fast-Slow Planning 打通大模型推理与实时控制

背景

随着大语言模型（LLM）与视觉语言模型（VLM）在理解、推理及任务规划方面展现出强大能力，具身智能（Embodied AI）系统面临着一个核心挑战：如何在保证实时性、可验证性与工程可部署性的前提下，将高层语义决策稳定地传递到规划与控制层。

在自动驾驶等场景中，大模型有望承担复杂场景理解、风险判断与任务决策等高层认知工作。然而，将其能力向下延伸至轨迹规划和底层控制时，存在显著的“时延矛盾”：大模型推理速度慢、输出形式偏语言，而控制与优化模块则需要低延迟、可验证且可部署。

现有研究主要沿两条路线推进，但均存在局限：

端到端输出：让大模型直接输出轨迹或控制参数，虽然形式简洁，但往往脆弱、难验证，难以满足实时闭环的工程约束。
在线参数调整：让大模型在线调整 MPC（模型预测控制）的目标或参数，虽缓解了部分运行问题，但未真正解决“高层语义如何稳定影响中层规划”的问题，且将慢速推理与快速控制混在一起，缺乏清晰的跨层桥接逻辑。

针对这一痛点，深圳市大数据研究院、香港中文大学（深圳）、中国科学院深圳先进技术研究院及澳门大学的研究团队提出了 Agentic Fast-Slow Planning (AFSP) 分层框架。该框架被 ICRA 2026 收录，旨在通过“快慢结合”的思路，建立一套跨层桥接逻辑，让慢速的大模型负责理解和决策，让快速的经典模块负责执行。

核心内容

AFSP 框架的核心思路是将感知、推理、规划与控制按时间尺度解耦。系统架构主要包含三个关键模块，分别对应“感知到决策”、“决策到轨迹”以及“智能优化”三个环节。

1. Perception2Decision：拓扑感知的轻量化输入

为解决直接输入原始图像导致的计算开销高、带宽大及冗余信息干扰问题，AFSP 采用了一种任务导向（task-oriented）的表示方式：

端侧处理：使用轻量化的 VLM 从图像中提取交通场景的拓扑图，仅保留车辆、障碍物、距离、方位、相对关系等与决策最相关的结构信息。
云端推理：将紧凑的拓扑表示送往云端，由 LLM 输出符号化的驾驶决策（如 LEFT、RIGHT、KEEP）及相应的驾驶风格。
优势：这不仅压缩了数据，更将视觉输入转换为贴近交通决策逻辑的中间表示，使大模型聚焦于结构关系，减少冗余细节干扰，并为下游规划层提供清晰、可解释的语义接口。

2. Decision2Trajectory：语义引导的经典规划

大模型擅长语言输出但不擅长直接生成长程、可执行的轨迹。AFSP 不要求 LLM 直接生成完整轨迹，而是将其输出的“交通决策逻辑”翻译为对经典规划算法有意义的启发式代价：

语义注入：将 LLM 输出的语义决策以软约束（soft semantic cost）的方式注入 A* 规划器，影响搜索过程。
平衡机制：这种方式既能让生成轨迹朝着符合语义意图的方向偏置，又避免将语言决策作为硬约束，从而保留经典搜索在几何可行性与鲁棒性上的优势。
效果：系统不是让大模型“替代”传统规划，而是以可落地、可解释的方式“指导”传统规划，确保长程意图的一致性。

3. Agentic Refinement：自动化智能调参

经典规划算法在实际使用中往往依赖大量经验性超参数，人工调参限制了系统的可迁移性。AFSP 引入了 Agentic Refinement Module：

闭环优化：借助大模型的推理能力，自动化执行“观察反馈—分析问题—调整参数—再次尝试”的流程。
记忆检索：系统从云端记忆中检索相似场景的初始参数配置，并根据当前轨迹反馈迭代优化超参数（如调整 C_DELAY 以对齐语义动作与障碍物边界），直到获得更合适的规划结果。

关键要点

架构解耦：AFSP 将系统分为三层：大模型负责慢速、高层的语义理解与决策；A* 规划器负责可解释的长程轨迹生成；MPC 控制器负责快速闭环跟踪与安全执行。
感知效率提升：在 Perception2Decision 实验中，基于拓扑图输入的 LLM 决策匹配得分平均达到 0.73，与 VLM 直接决策相近，但平均推理时延从 10.24 秒显著降低至 4.13 秒。
语义引导增强鲁棒性：在地图偏移与障碍物扰动条件下，引入语义引导的 A* 规划器能更好地保持 left/keep/right 等高层交通意图，相比普通 A* 展现出更强的长程一致性与鲁棒性。
闭环性能优越：在 CARLA 仿真场景中，AFSP 相比纯 MPC 和 A* 引导的 MPC 基线表现更优：
- 速度：任务完成时间相比纯 MPC 缩短约 12%，相比 A* 缩短约 11%。
- 稳定性：最大横向偏差相比纯 MPC 下降约 45%，相比 A* 下降约 35%。
工程可落地性：AFSP 证明了在不牺牲传统优化方法稳定性与可部署性的前提下，可以将大模型的认知与推理能力系统性地融入自主系统决策闭环。

意义与影响

AFSP 的提出标志着具身智能系统从“概念验证”向“工程落地”迈出了关键一步。其意义主要体现在以下三个方面：

确立了“快慢思考”的设计范式：AFSP 并未试图让大模型接管所有底层控制，而是选择了一条更稳健的技术路线——将大模型置于其擅长的认知与推理层，将经典算法置于其擅长的规划与控制层，并通过清晰的接口完成跨层桥接。
解决了语义到控制的“最后一公里”问题：通过 Perception2Decision 和 Decision2Trajectory 两座“桥”，AFSP 成功将高层语义决策转化为中层规划中的代价偏置，解决了大模型输出形式与控制模块输入需求不匹配的核心矛盾。
推动了自主系统的可解释性与自适应能力：Agentic Refinement 模块将人工调参转化为智能自适应优化，结合清晰的语义接口，使得系统不仅“能跑”，而且“可解释、可验证、可部署”。

该研究成果由陈嘉易（第一作者）、王帅、朱光旭、须成忠共同完成，论文已被机器人领域顶级会议 ICRA 2026 接收。这一方向有望进一步推动大模型从“会说、会看”走向“能落地、可部署”的真实自主系统应用。

查看原文 →leiphone.com