← 返回信息流
技术博客arXiv cs.AI·2 小时前

OPINE-World:LLM驱动的互动式编程世界建模

原标题:OPINE-World: Programmatic World Modeling with Ontology-error-Prioritized Interactive Exploration

速览

OPINE-World是用于构建适应环境行为的智能代理的新方法。它通过LLM生成的程序化世界模型实现数据高效学习,并通过与环境的互动循环进行优化。实验证明其在无预训练的情况下能解决多种游戏问题。

AI 深度解读

## 背景

世界建模是构建能在未知任务中适应代理的核心能力。深度神经网络学习的环境行为模型灵活但数据饥渴、超出训练分布后迁移性差。相反,程序合成世界模型(由大型语言模型编写源代码,并通过反例引导归纳合成(CEGIS)方法优化)数据高效且可复用,但在结构化状态世界、给定对象词汇表及单一程序搜索场景中表现突出,对像素渲染环境(对象结构需灵活假设)则扩展性不足。

本文作者提出OPINE-World,一种大型语言模型代理,能在线从交互中学习对象中心程序化世界模型。该方法通过两个协同代理的循环(一个在环境中执行,另一个在代码中合成模型,包括重放验证和基于模型的规划)实现,并利用贝叶斯测度“本体错误”(ontology error)引导探索。评估在ARC-AGI-3基准上,该基准要求代理在对象词汇表、目标和动作语义均未透露的情况下,高效获取技能。OPINE-World无需针对特定游戏进行训练,就解决其中25个游戏中的20个,达到与人类基线相比的动作效率分数78.4。

核心内容

完整翻译与解读

计算机科学 > 人工智能
[提交于 2026年7月1日]
标题:OPINE-World:本体错误优先的交互式探索程序化世界建模

摘要:从交互中学习环境行为,是构建能在未知任务中适应代理的关键。深度网络学习的世界上模型灵活但数据饥渴且在训练分布之外迁移性差。程序合成世界模型(由大型语言模型编写源代码并通过反例引导归纳合成(CEGIS)方法精炼)数据高效且可复用,但在结构化状态世界、给定对象词汇表及单一程序搜索中已主要展示,对像素渲染环境的灵活假设对象结构则扩展性不足。

我们引入OPINE-World,一种大型语言模型代理,能在线从交互中学习对象中心程序化世界模型。OPINE-World将两个协同代理耦合在一个假设-测试循环中:一个在环境中执行,另一个在代码中合成模型并进行重放验证和基于模型的规划,并通过我们称之为“本体错误”的贝叶斯对象类型充分性度量引导探索。我们在ARC-AGI-3基准上评估该方法,ARC-AGI-3是一个技能获取效率基准,其中对象词汇表、目标和动作语义均未透露。OPINE-World无需针对特定游戏进行训练,就解决其中25个游戏中的20个,达到与人类基线相比的动作效率分数78.4。

详细解读
本文针对程序化世界建模在复杂像素环境中的扩展挑战,提出创新的在线学习框架。核心创新在于将大型语言模型代理与反例引导合成技术结合,解决传统模型在未知对象结构下的数据需求和迁移问题。通过交互循环,系统能动态调整假设并验证,显著提升了在高度抽象、开放性环境(如ARC-AGI-3)中的适应性。这为代理在无预训练数据支持的复杂世界中实现高效技能获取提供了可扩展路径。

关键要点

  • 核心架构:OPINE-World通过两个大型语言模型代理协作,一代理在环境中交互,另一代理合成并优化程序化世界模型,循环包含假设生成、测试、验证(重放)和规划。
  • 探索机制:引入贝叶斯“本体错误”度量,优先引导探索那些对象类型不足的区域,从而有效处理未知对象词汇表的场景。
  • 数据效率优势:相比深度神经网络模型,程序化模型数据需求极低,且通过CEGIS精炼实现高复用性,适用于从未见过的数据上快速学习。
  • 基准表现:在ARC-AGI-3上,OPINE-World在25个未训练游戏中解决20个,动作效率达78.4,远超多数现有AI系统(当前AI通常低于1%),接近人类100%水平。
  • 局限与潜力:仍限于结构化抽象环境,但为像素渲染世界的程序化建模打开新路径,未来可扩展至更复杂物理或真实世界交互。

意义与影响

OPINE-World代表了世界建模从数据驱动到程序驱动的范式转变,在提升代理对未知环境的快速适应能力方面具有里程碑意义。它证明了大型语言模型与符号程序合成结合的可行性,能在资源受限(无预训练数据)且高度开放的基准上实现人类级技能获取效率。这一进展将加速通用人工智能的落地,推动代理在教育、机器人和科学研究中的实际应用,并为下一代自主系统提供可验证、可解释的建模基础。未来研究可进一步探索其在真实物理世界中的部署,以及与其他符号方法的融合。

查看原文 →arxiv.org