← 返回信息流
技术博客arXiv cs.AI·1 小时前

世界模型子图放大修复:修复放大器而非症状

原标题:Repair the Amplifier, Not the Symptom: Stable World-Model Correction for Agent Rollouts

速览

随着智能体规划从短工具链转向持久化上千步工作流,失败易出现在大型规划图中。传统方法扫描节点后局部修复或全图重播,不仅消耗大量上下文,还可能导致LLM上下文检索退化。论文提出WM-SAR世界模型子图放大修复,通过反向从子图放大出发,精准定位持续放大错误的因果子图,仅将该子图送入LLM进行修复。在图模拟和LLM实验中,WM-SAR在真实token预算下显著优于工程方法,近乎完全稳定规划图且仅需紧凑区域,显著提升大模型在复杂持久化任务中的可靠性。

AI 深度解读

背景

随着代理规划从短工具链向具有数千或数万步的持久工作流发展,故障将出现在大型规划图的内部,而非孤立的预测中。在这种场景下,全图重规划既不现实也不可取:完整图的重放会消耗大量上下文预算,将LLM暴露于大量无关症状,并可能降低长上下文检索性能。本文探讨此类系统中缺失的核心组件——一个能在原地修复失败规划图的世界模型校正器。

核心内容

代理规划正从短工具链向持久工作流发展,这些工作流包含数千或数万步。在这种转变过程中,故障将不再局限于孤立的预测,而是频繁出现在大型规划图的内部。

如果每次出错就对整个规划图进行重规划,既不具备计算可行性,也不符合实际需求。完整图的重放会占用大量上下文预算,同时让LLM接触到许多无关症状,这种情况还会进一步损害长上下文检索能力。

本文聚焦于这类系统中缺失的关键组件:一个能够在原地修复失败规划图的世界模型校正器。

本文对比了两大类校正器。

第一类是常见的工程实践方法:扫描节点与边,选中可疑的局部区域,然后让LLM对其进行修复。研究人员实现了强大的工程LLM校正器,并在实验中测试了其性能。结果表明,这些校正器能够在获得非常大上下文的情况下有效发挥作用。

第二类是作者提出的WM-SAR(World-Model Subgraph Amplification Repair)方法。该方法的核心思路并非扫描可见症状,而是从子图放大反向工作,识别持续放大错误的节点与边,仅将这些因果子图发送给LLM。

在图模拟和LLM修复实验中,WM-SAR在实际的token预算约束下,显著优于工程校正器。实验还证明,该方法能够实现近乎整个图的稳定,并且仅通过一个紧凑区域即可完成修复,同时为LLM提供更清晰的修复目标。

关键要点

  • 代理规划从短工具链向持久工作流(数千或数万步)发展后,故障多发生在大型规划图内部;
  • 全图重规划消耗大量上下文、暴露LLM于无关症状,并损害长上下文检索,不现实且不 desirable;
  • 缺失关键组件:原地世界模型校正器(world-model corrector),而非每次出错就重规划整个图;
  • 两大校正器家族对比:
    • 工程方法:扫描节点与边,选中局部可疑区域让LLM修复;
    • WM-SAR:反向工作从子图放大出发,识别持续放大错误的节点与边,仅发送因果子图给LLM;
  • 实验结果:WM-SAR在真实token预算下大幅优于工程校正器,近乎整个图稳定,仅需紧凑区域,LLM获得更清晰修复目标。

意义与影响

本文提出的WM-SAR方法填补了代理规划中大型持久工作流场景的校正空白,使世界模型能够以更高效的方式修复规划图,而不是依赖代价高昂的全图重规划。这一突破有助于降低计算资源消耗和上下文压力,同时提升LLM在长序列任务中的表现。

在实际应用中,WM-SAR能够实现近乎整个图的稳定,仅用紧凑的子图作为修复输入,这为构建更可靠、可扩展的智能代理系统提供了切实可行的路径。研究为代理规划的下一阶段发展奠定了技术基础,推动了从工具链规划向复杂持久工作流的演进,同时为AI系统在现实任务中的长期稳定性提供了优化方向。

查看原文 →arxiv.org