技术博客arXiv cs.AI·1 小时前

AGI Maze：世界建模智能体基准框架

原标题：AGI Maze as a Benchmark Framework for World-Modeling Agents

速览

AGI Maze 是一个轻量级网格迷宫基准框架，为构建世界建模 AI 代理提供环境测试。它提供一系列难度可调的迷宫任务，帮助代理学习和使用世界状态表示，而非仅推理本地规则。研究评估显示，纯大型语言模型在推理时无法内部表征迷宫，基础代理虽使用历史消息辅助描述，但仍不足以可靠解决小迷宫。这为 AGI 研究提供了一个清晰的评估工具，强调世界建模在复杂任务中的关键意义。

AI 深度解读

AGI Maze 作为世界建模代理的基准框架

标题：AGI Maze as a Benchmark Framework for World-Modeling Agents
来源：arXiv cs.AI
提交日期：2026年7月1日

背景

当前大型语言模型（LLMs）在模式完成方面表现出色，但其默认工作模式——从静态上下文中预测下一个 token——无法可靠地生成持久、可操纵的外部世界表征。在许多看起来像“推理”的文本任务中，一旦环境变为部分可观测、具有状态依赖性，且需要记忆和关于隐藏状态的结构化假设，任务难度会显著增加。

AGI Maze 框架旨在解决这一问题。它是一个轻量级的构建环境工具，无需高维感官输入，为构建此类环境提供了一个干净的 API 和多种难度等级。目标是创建基准任务，让代理必须学习和使用世界状态表征，而不仅仅是推断在易于提供的观测上的局部规则。

核心内容

AGI Maze 提供了一族基于网格的迷宫任务，支持多种难度级别。代理必须在部分可观测、状态ful 的环境中进行交互，构建对隐藏状态的结构化假设，而非依赖于预先提供的完整观测序列。

文章展示了多个通用 LLMs 在简单迷宫上的初步评估结果：这些模型在推理时未能内部表征迷宫结构。这表明当前 LLMs 难以在推理过程中维持持久的世界模型。

为了建立基线，文章引入了一个代理，它允许使用消息历史作为工作记忆，在代理运行时动态构建观测描述。尽管这一基线能提升性能，但在超过人类所需的步数预算内，仍不足以让 LLM 代理可靠地解决小型迷宫。

关键要点

LLMs 的 token 预测模式不适合生成持久、可操纵的世界表征，文本“推理”任务在部分可观测、状态ful 环境中难度大幅上升。
AGI Maze 框架专为需要内部世界模型的代理设计，采用轻量级网格迷宫环境，无需高维感官输入。
框架提供干净的 API，支持多种难度等级，重点在于代理必须学习使用世界状态表征，而非仅推断局部规则。
多个 vanilla LLMs 在简单迷宫上的评估显示：推理时未能内部表征迷宫结构。
引入的基线代理利用消息历史作为工作记忆，在运行时构建观测描述，可改善性能，但仍无法在足够大的步数预算内可靠解决小型迷宫（超过人类水平）。
基准的核心是评估代理是否具备持久、世界建模能力，而非依赖静态上下文完成模式预测。

意义与影响

AGI Maze 填补了当前 LLM 基准在世界建模方面的空白，强调代理必须具备持久、操纵性的内部世界表征，而非仅依赖预提供观测的局部模式匹配。该框架的轻量级设计和干净 API 使其易于扩展到更复杂环境，为开发真正具备长时记忆和结构化假设能力的代理提供标准化测试平台。

通过展示 vanilla LLMs 在迷宫表征上的失败，以及基线代理的局限性，该工作为理解代理在部分可观测状态下的推理能力设置了清晰的下限。未来研究可基于此框架探索改进世界建模的技术，推动从模式完成向代理性世界模拟的范式转变，从而更好地应对现实世界中需要持久记忆和结构化假设的任务。

查看原文 →arxiv.org

AGI Maze：世界建模智能体基准框架

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐