技术博客arXiv cs.AI·1 小时前

世界模型子图放大修复：修复放大器而非症状

原标题：Repair the Amplifier, Not the Symptom: Stable World-Model Correction for Agent Rollouts

速览

随着智能体规划从短工具链转向持久化上千步工作流，失败易出现在大型规划图中。传统方法扫描节点后局部修复或全图重播，不仅消耗大量上下文，还可能导致LLM上下文检索退化。论文提出WM-SAR世界模型子图放大修复，通过反向从子图放大出发，精准定位持续放大错误的因果子图，仅将该子图送入LLM进行修复。在图模拟和LLM实验中，WM-SAR在真实token预算下显著优于工程方法，近乎完全稳定规划图且仅需紧凑区域，显著提升大模型在复杂持久化任务中的可靠性。

AI 深度解读

背景

随着代理规划从短工具链向具有数千或数万步的持久工作流发展，故障将出现在大型规划图的内部，而非孤立的预测中。在这种场景下，全图重规划既不现实也不可取：完整图的重放会消耗大量上下文预算，将LLM暴露于大量无关症状，并可能降低长上下文检索性能。本文探讨此类系统中缺失的核心组件——一个能在原地修复失败规划图的世界模型校正器。

核心内容

代理规划正从短工具链向持久工作流发展，这些工作流包含数千或数万步。在这种转变过程中，故障将不再局限于孤立的预测，而是频繁出现在大型规划图的内部。

如果每次出错就对整个规划图进行重规划，既不具备计算可行性，也不符合实际需求。完整图的重放会占用大量上下文预算，同时让LLM接触到许多无关症状，这种情况还会进一步损害长上下文检索能力。

本文聚焦于这类系统中缺失的关键组件：一个能够在原地修复失败规划图的世界模型校正器。

本文对比了两大类校正器。

第一类是常见的工程实践方法：扫描节点与边，选中可疑的局部区域，然后让LLM对其进行修复。研究人员实现了强大的工程LLM校正器，并在实验中测试了其性能。结果表明，这些校正器能够在获得非常大上下文的情况下有效发挥作用。

第二类是作者提出的WM-SAR（World-Model Subgraph Amplification Repair）方法。该方法的核心思路并非扫描可见症状，而是从子图放大反向工作，识别持续放大错误的节点与边，仅将这些因果子图发送给LLM。

在图模拟和LLM修复实验中，WM-SAR在实际的token预算约束下，显著优于工程校正器。实验还证明，该方法能够实现近乎整个图的稳定，并且仅通过一个紧凑区域即可完成修复，同时为LLM提供更清晰的修复目标。

关键要点

代理规划从短工具链向持久工作流（数千或数万步）发展后，故障多发生在大型规划图内部；
全图重规划消耗大量上下文、暴露LLM于无关症状，并损害长上下文检索，不现实且不 desirable；
缺失关键组件：原地世界模型校正器（world-model corrector），而非每次出错就重规划整个图；
两大校正器家族对比：
- 工程方法：扫描节点与边，选中局部可疑区域让LLM修复；
- WM-SAR：反向工作从子图放大出发，识别持续放大错误的节点与边，仅发送因果子图给LLM；
实验结果：WM-SAR在真实token预算下大幅优于工程校正器，近乎整个图稳定，仅需紧凑区域，LLM获得更清晰修复目标。

意义与影响

本文提出的WM-SAR方法填补了代理规划中大型持久工作流场景的校正空白，使世界模型能够以更高效的方式修复规划图，而不是依赖代价高昂的全图重规划。这一突破有助于降低计算资源消耗和上下文压力，同时提升LLM在长序列任务中的表现。

在实际应用中，WM-SAR能够实现近乎整个图的稳定，仅用紧凑的子图作为修复输入，这为构建更可靠、可扩展的智能代理系统提供了切实可行的路径。研究为代理规划的下一阶段发展奠定了技术基础，推动了从工具链规划向复杂持久工作流的演进，同时为AI系统在现实任务中的长期稳定性提供了优化方向。

查看原文 →arxiv.org

世界模型子图放大修复：修复放大器而非症状

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐