技术博客arXiv cs.CL·3 小时前

SIMMER基准测试揭示大模型规划中潜伏失败风险

原标题：SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

速览

针对大语言模型在自主代理规划中忽视的潜伏失败问题，研究团队推出了SIMMER基准测试。该测试基于厨房领域的符号世界模型，能检测即时失败、潜伏危害及不可逆后果。实验显示，即使是最先进的大模型，其规划中潜伏失败比例也高达56%，且多数导致不可逆后果。通过反事实前瞻模拟进行显式状态推理，可将潜伏失败减少72%，为提升大模型规划鲁棒性提供了新方向。

AI 深度解读

SIMMER：基于世界模型评估大语言模型可执行规划中的隐性故障

背景

随着大语言模型（LLMs）在自主智能体（Autonomous Agents）领域的广泛应用，特别是在家庭环境（如智能家居、厨房机器人等场景）中承担规划任务，其可靠性成为了关键考量。现有的基准测试（Benchmarks）主要关注计划是否能在执行层面“成功”运行，即检查生成的指令序列是否能被物理或虚拟环境接受。

然而，这种评估方式存在一个严重的盲区：隐性故障（Latent Failures）。

传统的评估往往只能捕捉到“即时故障”（Immediate Failures），即那些在代码或指令执行瞬间因语法错误、参数缺失或前置条件不满足而立即报错的情况。这类故障会触发即时反馈，允许智能体进行及时修正。但隐性故障不同，它们不会立即阻止计划的执行，而是像“慢性毒药”一样，在计划执行过程中悄无声息地破坏目标的达成。在极端情况下，这些未被察觉的错误会导致不可逆的伤害（例如：将清洁剂倒入热锅导致有毒气体释放，或错误地切断电源导致设备损坏）。

为了填补这一评估空白，研究人员提出了 SIMMER 基准测试。该基准旨在通过一个基于厨房领域的人类策展符号世界模型（Symbolic World Model），专门评估 LLM 在规划过程中产生的隐性故障。

核心内容

SIMMER 基准测试架构

SIMMER 的核心在于构建了一个高保真度的符号世界模型，该模型并非简单的规则集合，而是基于真实世界的烹饪脚本（Cooking Scripts）提炼而来，具有高度的语义现实性。

世界模型构成：
- 动作（Actions）：定义了 77 种具体的操作动作。
- 对象（Objects）：包含 262 个独特的物体。
- 交互（Interactions）：涵盖了约 46,800 种可能的语义交互组合。
- 这些元素共同构成了一个复杂的交互空间，模拟了真实厨房环境中物体与动作之间的复杂关系。
执行与检测机制： SIMMER 利用一个**状态机执行器（State Machine Executor）**来验证 LLM 生成的计划。该执行器不仅检查计划是否符合语法，更深入地检测以下三类问题：
- 即时前置条件违规（Immediate Precondition Violations）：执行前必须满足的条件未满足。
- 隐性危害（Latent Hazards）：当前执行看似正常，但会导致后续状态进入危险或无效区域。
- 不可逆故障（Irreversible Failures）：一旦执行，无法通过后续操作恢复原状或达成目标的错误。

实验结果与分析

研究团队在六个不同的大语言模型上进行了实验，结果揭示了当前 LLM 在规划能力上的显著缺陷：

错误率极高：即使是目前最前沿（Frontier）的 LLM 模型，生成的计划中无错误的比例最高仅为 17%。这意味着超过 80% 的计划存在某种形式的故障。
隐性故障占比巨大：在生成的计划中，高达 56% 的计划包含隐性故障。
后果严重性：在这些包含隐性故障的计划中，大多数会导致不可逆的后果。这表明 LLM 缺乏对长期因果关系的深刻理解，往往只关注单步指令的正确性，而忽视了全局状态的变化。

改进方向：反事实前瞻模拟

为了缓解这一问题，研究团队提出了一种改进策略：显式状态推理（Explicit State Reasoning），具体通过**反事实前瞻模拟（Counterfactual Foresight Simulation）**来实现。

原理：让模型在执行计划前，先在内部模拟“如果执行这一步，世界状态会变成什么样”，并推演后续步骤可能带来的后果。
效果：实验数据显示，引入这种机制后，隐性故障的数量减少了高达 72%，不可逆故障的情况减少了高达 75%。

这一结果证明，通过增强模型的“前瞻性”思维能力，可以显著提升其在复杂动态环境中的规划鲁棒性。

关键要点

隐性故障的定义：指那些不立即阻止执行、但会 silently compromise（暗中破坏）目标达成，甚至导致不可逆伤害的计划错误。
SIMMER 的独特性：它是首个基于厨房领域、由人类策展的符号世界模型基准，专门用于检测 LLM 规划中的隐性故障，而非仅仅检查语法或即时执行错误。
世界模型的规模：包含 77 个动作、262 个对象和约 46,800 种交互，基于真实烹饪脚本构建，确保语义现实性。
当前 LLM 的性能瓶颈：前沿模型仅能有约 17% 的计划完全无错误；56% 的计划包含隐性故障，且多数导致不可逆后果。
有效改进策略：通过“反事实前瞻模拟”进行显式状态推理，可将隐性故障减少 72%，不可逆故障减少 75%。
评估方法的转变：从关注“计划是否执行成功”转向关注“计划是否导致不良的长期后果”。

意义与影响

SIMMER 基准测试的提出，标志着 LLM 评估体系从“语法正确性”向“语义安全性”和“长期因果性”的重要转变。

提升自主智能体的安全性：在家庭、医疗、工业等高风险场景中，智能体不仅需要“能做”，更需要“做对且安全”。SIMMER 揭示了当前模型在长期规划中的盲点，为开发更安全的自主系统提供了关键的评估工具。
推动推理能力的深化：实验结果证明，简单的指令生成不足以应对复杂环境。引入“反事实前瞻模拟”等显式推理机制，是提升 LLM 规划鲁棒性的有效路径。这提示未来的模型架构可能需要更强的内部状态模拟和因果推理模块。
填补评估空白：现有的基准测试（如 WebShop、ALFWorld 等）多侧重于任务完成率，往往忽略了执行过程中的潜在风险。SIMMER 补充了这一关键维度，为学术界和工业界提供了一个更全面的 LLM 规划能力评估标准。
对通用人工智能（AGI）的启示：真正的智能不仅在于即时反应，更在于对行为后果的长远预见。SIMMER 的研究表明，当前 LLM 在“世界模型”的内化和长期后果预测上仍有巨大差距，这是通往更高级别自主智能的关键障碍。

总之，SIMMER 不仅是一个基准测试，更是一个警示：在将 LLM 部署到物理世界之前，我们必须解决其规划中的“隐性”风险，否则“成功执行”可能意味着“灾难性后果”。

查看原文 →arxiv.org