技术博客arXiv cs.AI·14 小时前

PlanGPT补充研究：表现不及传统贪心算法

原标题：A complementary study on PlanGPT: Evaluation with defined Performance Metrics and comparison with a planner

速览

本文对最新大模型PlanGPT进行了补充研究，旨在验证基于大语言模型的自动化规划是否切实有效。研究通过计划成本和生成时间两个指标，将PlanGPT与传统规划器进行了对比。结果显示，PlanGPT在规划能力上并无优势，其表现甚至不如简单的贪心搜索策略。

AI 深度解读

PlanGPT 补充研究：基于定义性能指标的评估与传统规划器的对比

背景

自动规划（Automated Planning）是人工智能（AI）的一个重要子领域，其主要目标是生成一系列动作（称为“规划”或“Plan”），从而帮助智能体从初始状态到达目标状态。一个典型的规划问题由一组对象、一个初始状态和一个期望的目标状态定义。规划的核心任务在于计算出一条能够引导系统从初始状态顺利过渡到目标状态的动作序列。能够生成此类规划的程序被称为规划器（Planners）。

近年来，随着大型语言模型（LLM）的兴起，研究者开始探索利用 LLM 进行自动规划的可能性。去年发布的 PlanGPT 便是这一方向上的前沿模型之一。然而，关于 LLM 在规划任务中的实际效能、可靠性以及与传统算法相比的优势，仍存在诸多争议和未解之处。

核心内容

本文是对 PlanGPT 的一项补充性研究（Complementary Study）。研究团队旨在重新验证利用 LLM 进行规划是否具备相关性（Pertinent）和价值（Worthwhile）。具体而言，本研究主要完成了以下三个核心工作：

复现与验证官方结果：研究团队重新执行了部分实验，以核实 PlanGPT 官方论文中关于“规划覆盖率（Plan Coverage）”的结果是否准确。这一步骤旨在确保基准数据的可靠性，为后续对比提供可信的基础。
引入更全面的性能评估指标：不同于以往可能仅关注规划是否成功的单一维度，本研究对 PlanGPT 的性能进行了更全面的评估。除了规划覆盖率外，还引入了两个关键的性能指标：
- 规划成本（Plan Cost）：衡量生成规划的质量或效率。
- 规划生成时间（Plan Generation Time）：衡量模型生成规划的速度。
与传统规划器的对比分析：研究将 PlanGPT 在上述指标上的表现，与一个传统规划器（Traditional Planner）在相同规划任务、相同指标下的表现进行了直接对比。

研究结论：通过对比分析，研究发现 PlanGPT 的表现并不优于一种简单的贪婪搜索策略（Greedy search strategy）。这意味着，尽管 PlanGPT 代表了当前最先进的 LLM 规划能力，但在处理此类自动规划问题时，其实际效能并未体现出相对于传统启发式算法的显著优势，甚至可能仅等同于基础的搜索策略水平。

关键要点

研究目的：验证 LLM 在自动规划任务中的实际价值和相关性，并复现 PlanGPT 的官方结果。
评估维度扩展：不仅关注规划能否生成（覆盖率），还引入了规划成本和生成时间作为核心性能指标，以更全面地评估效率和质量。
对比基准：将 PlanGPT 与传统规划器及贪婪搜索策略进行横向对比。
核心发现：PlanGPT 的性能表现并未超越简单的贪婪搜索策略。
结果质疑：研究对 PlanGPT 官方论文中关于规划覆盖率的准确性提出了验证需求，暗示其官方结果可能存在需要重新审视的地方。

意义与影响

这项研究对当前 LLM 在逻辑推理和规划领域的应用提出了重要的反思：

去魅 LLM 的规划能力：尽管 PlanGPT 等模型展示了 LLM 在自然语言理解和生成方面的强大能力，但本研究揭示出，在结构化的自动规划任务中，复杂的 LLM 可能并未比简单的传统算法（如贪婪搜索）更有效。这提示业界，LLM 并非在所有 AI 子领域都能自动带来性能突破。
重新评估评估标准：仅依靠“规划覆盖率”可能不足以全面衡量规划模型的性能。本研究强调引入成本和时间等量化指标的重要性，为未来 LLM 规划能力的评估提供了更严谨的方法论参考。
传统算法的价值回归：在特定领域（如自动规划），经过充分优化的传统算法（如贪婪搜索、A*等）依然具有极高的实用价值。在考虑采用 LLM 之前，研究者应充分评估传统基线模型的性能，避免盲目追求新技术而忽视更简单、更高效的解决方案。
对 PlanGPT 的修正与补充：作为对官方论文的补充，本研究有助于学术界更客观地看待 PlanGPT 的实际能力，防止因官方宣传中的过度乐观估计而导致的资源误配。

查看原文 →arxiv.org