技术博客arXiv cs.AI·4 小时前

WISE：基于因果推理的Minecraft长程智能体框架

原标题：WISE: A Long-Horizon Agent in Minecraft with Why-Which Reasoning

速览

针对Minecraft等环境中LLM增强型智能体因底层控制器失败导致的性能瓶颈，研究者提出WISE框架。该框架引入因果事件图，将观察与任务相关性显式关联，克服了传统基于特征相似性检索的局限。结合机会主义任务调度器和多尺度渐进探索策略，WISE能动态调整子任务优先级并提供全面空间观测。实验表明，该框架显著提升了长程稀疏任务的成功率和效率，尤其在需要自适应决策的场景中表现优异。

AI 深度解读

WISE：基于“为何-何种”推理的《我的世界》长程智能体

背景

随着大语言模型（LLM）在人工智能领域的飞速发展，基于 LLM 增强的分层方法在《我的世界》（Minecraft）等具身智能环境中开发通用智能体方面取得了显著进展。这类方法通常将复杂的任务分解为高层规划与底层执行，旨在让智能体在开放、动态的虚拟世界中自主完成目标。

然而，尽管前景广阔，现有的智能体框架仍面临严峻的性能瓶颈。主要问题在于底层控制器（Low-level Controllers）经常因重复执行失败而效率低下。深入分析发现，这一局限性的根源不仅在于智能体缺乏情景记忆（Episodic Memory），更在于现有的记忆机制与推理过程存在脱节：即“何时、何地、何物”（what-where-when）的记忆存储，与“何种、为何”（which-why）的逻辑推理之间缺乏有效的因果关联。这种脱节导致智能体在面对视角变化或任务动态调整时，难以进行鲁棒的回忆和自适应决策。

核心内容

为了解决上述问题，研究团队提出了 WISE（Which-Why Informed Semantic Explorer，基于“何种-为何”推理的语义探索者）。这是一个专为长程任务设计的智能体框架，其核心创新在于引入了增强型底层控制器，并构建了一个因果事件图（Causal Event Graph），将情景记忆与任务相关性通过显式的因果结构联系起来。

1. 因果事件图与增强型记忆检索

WISE 的核心组件是一个因果事件图，它超越了传统基于特征相似性的检索方式。以往的工作如 MrSteve 主要依赖特征相似度来召回记忆，这在视角变化或环境扰动下表现不佳。WISE 通过建立观察结果与任务目标之间的因果链接，实现了更鲁棒的记忆召回。这意味着，即使智能体的视角发生变化，它也能通过因果逻辑准确识别出与当前任务相关的历史经验，从而支持基于因果推理的机会主义任务重排序。

2. 机会主义任务调度器

基于增强的因果记忆，WISE 进一步提出了一种机会主义任务调度器（Opportunistic Task Scheduler）。该调度器能够动态地重新优先排序子任务。当智能体检测到与当前任务因果相关的机会时（例如，意外发现了制作关键工具所需的资源），它会利用因果推理能力即时调整计划，而不是僵化地遵循预设路径。这种机制显著提升了智能体在稀疏奖励环境下的适应性和效率。

3. 多尺度渐进式探索策略

为了为下游推理提供空间上全面的观察数据，WISE 配备了一种多尺度渐进式探索策略。该策略允许智能体在不同尺度上感知环境，从局部细节到全局地图，确保智能体在长程任务中不会因视野局限而迷失方向，从而为高层决策提供充分的空间上下文信息。

关键要点

解决核心痛点：针对现有 LLM 增强型智能体在底层执行中因重复失败导致的性能瓶颈，WISE 从记忆结构与推理机制的耦合角度入手，而非仅仅增加记忆容量。
因果驱动的记忆：引入因果事件图，将“what-where-when”的记忆存储与“which-why”的推理逻辑显式连接，解决了传统方法在视角变化下召回率低的问题。
动态任务重排：通过机会主义任务调度器，智能体能够根据因果相关的机会动态调整子任务优先级，实现了从“线性执行”到“自适应决策”的转变。
全面的空间感知：采用多尺度渐进式探索策略，确保智能体在长程任务中获得空间上完整的观察信息，支持更准确的后端推理。
性能显著提升：实验表明，WISE 在长程稀疏任务（Long-horizon sparse tasks）上的任务成功率和效率均有大幅提升，特别是在需要自适应决策的场景中表现优异。

意义与影响

WISE 框架的提出标志着具身智能在长期任务规划与执行方面的重要进步。它揭示了单纯依赖特征匹配或简单记忆存储的局限性，强调了因果推理在连接感知记忆与行动决策中的关键作用。

对于《我的世界》等复杂模拟环境而言，WISE 提供了一种可复现的范式，即通过显式建模观察与任务之间的因果关系，可以显著提升智能体的鲁棒性和效率。这一思路不仅适用于游戏环境，也为其他需要长程规划、动态适应和复杂记忆管理的具身智能场景（如机器人导航、自动化操作等）提供了重要的理论参考和技术路径。它证明了将因果结构融入情景记忆，是突破当前 LLM 增强型智能体性能瓶颈的有效方向。

查看原文 →arxiv.org