技术博客arXiv cs.AI·2 天前

利用修改版开放封闭列表搜索实现生成式规划模型高效推理

原标题：Efficient Test-time Inference for Generative Planning Models

速览

针对生成式AI规划模型受限于训练数据分布的问题，本文提出一种基于修改版开放封闭列表（OCL）搜索的高效推理方法。该算法协同利用生成模型进行快速状态推演，以及启发式模型优先筛选推理路径。实验表明，该方法在多种组合规划领域中，在计算效率和解决方案质量上均优于神经符号搜索基线及经典求解器。

随着大语言模型（LLMs）及生成式 AI 的崛起，生成式模型已成为人工智能规划（AI Planning）领域的一种强大范式。传统上，AI 规划依赖于符号逻辑和经典的搜索算法（如 A* 或 Dijkstra 算法），而生成式模型则通过概率分布直接生成解决方案序列。

然而，尽管生成式模型在生成能力上表现优异，其性能仍然受到训练数据分布的严格限制。当面对训练集中未见过的复杂规划任务时，模型容易产生幻觉或生成无效路径。为了解决这一问题，业界通常采用两种策略：

扩展测试时算力（Scaling Test-time Compute）：在推理阶段通过多次采样、自洽性检查（Self-Consistency）或树搜索来优化生成的解。这种方法虽然有效，但计算成本极高，难以满足实时性或大规模应用的需求。
优化推理过程本身：不单纯依赖增加采样次数，而是设计更高效的算法框架，将生成式模型与经典搜索机制相结合，从而在保持生成灵活性的同时提升搜索效率。

本文正是在这一背景下，提出了一种基于改进型开放-封闭列表（Open-Closed List, OCL）搜索的高效推理过程，旨在解决生成式规划模型在推理阶段的效率与质量平衡问题。

本文提出了一种将生成式模型与传统搜索算法相结合的混合推理框架。该框架的核心思想是利用经典搜索算法的结构化优势，引导生成式模型的随机性，从而在组合规划领域实现更优的计算效率和解决方案质量。

传统的 OCL 搜索（如 A* 算法）维护两个列表：

本文提出的算法对经典 OCL 进行了修改，使其能够容纳“生成式”的推理路径，而非仅仅是离散的符号状态。

该算法巧妙地融合了两个经过训练的机器学习组件，分别承担不同的角色：

生成式模型（Generative Model）：
- 功能：负责从中间状态执行快速的前向模拟（Fast Rollouts）。
- 作用：它不直接输出最终答案，而是根据当前状态生成可能的后续动作序列或状态转移，类似于经典搜索中的“扩展节点”操作，但由神经网络并行或快速生成多个候选分支。
启发式模型（Heuristic Model）：
- 功能：负责在候选推理路径中进行优先级排序。
- 作用：它评估由生成式模型产生的各个分支的潜力，决定哪些路径值得继续探索，哪些路径应该被剪枝。这取代了传统 A* 算法中需要人工设计或计算昂贵的启发式函数。

为了平衡“探索”（尝试新路径）与“利用”（深化已有好路径），本文引入了新颖的探索控制机制。这些机制动态调整搜索过程中的随机性和确定性，防止搜索陷入局部最优或无效的死胡同。通过将生成式模型的输出纳入 OCL 框架，算法能够更智能地分配计算资源，优先处理高潜力的推理路径。

作者在多个组合规划领域（Combinatorial Planning Domains）对该方法进行了评估。实验结果表明，该方法在以下两个方面均优于基线模型：

神经符号搜索基线（Neurosymbolic Search Baselines）：相比其他结合神经网络与符号搜索的方法，本文提出的方法在保持高质量解的同时，计算开销更低。
经典求解器（Classical Solvers）：在复杂规划任务中，该方法不仅找到了质量更高的解，而且在计算效率上展现出显著优势。

范式转变：从单纯依赖训练数据分布的生成式规划，转向通过优化推理过程（Inference Process）来提升性能，而非仅仅增加测试时算力。
混合架构：核心创新在于将“生成式模型”（用于快速状态转移/前向模拟）与“启发式模型”（用于路径优先级排序）集成到经典的“开放-封闭列表（OCL）”搜索框架中。
效率与质量双赢：该方法在多个组合规划基准测试中，同时在计算效率和解决方案质量上超越了神经符号搜索基线和传统经典求解器。
动态探索控制：引入了新的探索控制机制，使搜索过程能够更智能地平衡广度与深度，避免无效计算。
去人工启发式依赖：通过训练启发式模型来替代传统搜索中需要人工设计的启发式函数，提高了算法在复杂环境下的泛化能力。

这项研究对人工智能规划领域具有重要的理论和实践意义：

打破生成式模型的局限性：证明了通过改进推理算法，可以弥补生成式模型在训练数据分布上的不足。这为利用 LLMs 解决复杂的逻辑和规划问题提供了新的技术路径，即“生成+搜索”的混合模式。
提升 AI 系统的可靠性：传统的纯生成式方法容易产生不可靠的输出，而纯经典搜索方法在面对高维状态空间时容易遭遇“组合爆炸”。本文提出的方法结合了前者的灵活性和后者的结构性，有望提高 AI 系统在关键任务（如机器人导航、自动代码生成、资源调度）中的可靠性。
降低推理成本：通过优化推理过程而非无限增加算力，该方法为部署大规模 AI 规划系统提供了更经济可行的方案。这对于需要实时响应的应用场景至关重要。
推动神经符号 AI 的发展：本文工作是神经符号人工智能（Neurosymbolic AI）的一次成功实践，展示了如何将深度学习的数据驱动优势与符号 AI 的逻辑推理优势有机结合，为未来更通用、更高效的 AI 架构设计提供了参考范例。

总之，这篇论文不仅提出了一种具体的算法优化，更指明了一个方向：在生成式 AI 时代，高效的推理机制设计与模型架构本身同样重要。