AI 资讯Hacker News·3 小时前

Qwen-AgentWorld：面向通用智能体的语言世界模型

原标题：Qwen-AgentWorld: Language World Models for General Agents

速览

该研究提出了Qwen-AgentWorld，旨在为通用智能体提供语言世界模型支持。这一模型能够增强智能体对环境的理解与预测能力，推动通用人工智能的发展。

AI 深度解读

Qwen-AgentWorld：面向通用智能体的语言世界模型深度解读

背景

在人工智能领域，**世界模型（World Models）**被视为智能体进行推理和规划的核心认知机制。传统的世界模型通常基于视觉或传感器数据来预测环境动态，即根据当前的观察结果和采取的动作来预测下一时刻的环境状态。然而，随着大语言模型（LLM）在通用智能体（General Agents）领域的崛起，如何利用语言模型构建世界模型，以进一步突破智能体的能力边界，成为了一个极具挑战性和前瞻性的研究方向。

当前，构建能够模拟复杂、多领域智能体环境的“基础模型”仍面临巨大困难。现有的模拟方法往往难以兼顾长链条推理能力、多领域覆盖范围以及高保真的环境交互模拟。此外，如何有效利用海量真实世界交互数据来训练这类模型，并评估其在实际智能体任务中的表现，也是业界亟待解决的难题。

在此背景下，Qwen团队提出了 Qwen-AgentWorld，旨在通过语言模型构建通用的世界模型，不仅用于环境模拟，还作为智能体的基础模型，从而提升通用智能体的推理、规划和执行能力。

核心内容

Qwen-AgentWorld 是一项开创性工作，主要围绕两个核心方面展开：一是构建用于智能体环境模拟的基础模型；二是探索世界模型增强通用智能体的两种互补范式。

1. 构建智能体环境模拟的基础模型

研究团队推出了 Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B 两个版本，这是首批能够覆盖 7个领域 并通过长链思维链（Chain-of-Thought, CoT）推理来模拟智能体环境的语言世界模型。

为了训练这些模型，团队利用了来自真实环境、涵盖7个领域的超过 1000万条 环境交互轨迹数据。训练过程采用了一个精心设计的三阶段流水线：

继续预训练（CPT）：通过状态转移动态数据和增强后的专业语料库，注入通用的世界建模能力。这一阶段旨在让模型理解环境的基本物理和逻辑规律。
监督微调（SFT）：激活模型的“下一步状态预测”推理能力。通过监督学习，模型学会根据当前状态和动作，准确预测环境的下一步变化。
强化学习（RL）：通过一个定制的框架，结合混合的“评分标准奖励（rubric-based rewards）”和“规则奖励（rule-based rewards）”，进一步打磨模拟的保真度。这一阶段确保模型生成的模拟结果不仅逻辑正确，而且符合真实环境的复杂约束。

2. 世界模型增强通用智能体的两种范式

除了基础模型本身，研究还深入探讨了世界模型如何具体提升通用智能体的性能，提出了两种互补的应用范式：

作为解耦的环境模拟器： Qwen-AgentWorld 可以作为一个独立的环境模拟器，支持对成千上万个真实世界环境进行可扩展且可控的模拟。这种能力特别适用于智能体强化学习（Agentic RL）。实验表明，利用 Qwen-AgentWorld 进行模拟训练，其性能增益超过了仅在真实环境中进行训练的效果。这解决了真实环境数据采集成本高、风险大、效率低的问题。
作为统一的智能体基础模型：世界模型的训练过程本身可以作为一种高效的**预热（Warm-up）**机制。经过世界模型预训练的模型，在下游的7个智能体基准测试中均表现出显著的性能提升。这表明，学习如何预测环境动态有助于模型更好地理解任务结构和因果关系，从而提升其通用智能表现。

3. 评估基准：AgentWorldBench

为了全面评估语言世界模型的性能，研究团队构建了 AgentWorldBench。这是一个综合性的基准测试，其数据来源于5个前沿模型在9个既定基准测试中的真实世界交互数据。这一基准为量化语言世界模型在模拟真实环境动态方面的能力提供了标准化的评估工具。

关键要点

首创性：Qwen-AgentWorld 是首批能够覆盖7个领域并通过长链CoT推理模拟智能体环境的语言世界模型。
数据规模：训练数据包含超过1000万条来自真实环境的交互轨迹，涵盖7个不同领域。
三阶段训练：
- CPT：注入通用世界建模能力（基于状态转移动态和专业语料）。
- SFT：激活下一步状态预测推理。
- RL：通过混合奖励机制（评分标准+规则）提升模拟保真度。
双范式应用：
1. 解耦模拟器：用于智能体强化学习，支持大规模、可控的环境模拟，效果优于纯真实环境训练。
2. 基础模型预热：世界模型训练作为下游任务的预热步骤，显著提升7个智能体基准测试的性能。
新基准：提出 AgentWorldBench，基于5个前沿模型在9个基准上的真实交互数据，用于评估语言世界模型。
性能优势：实证结果显示，Qwen-AgentWorld 显著优于现有的前沿模型。

意义与影响

Qwen-AgentWorld 的提出标志着通用智能体研究的一个重要转折点。它将世界模型从传统的感知-动作循环扩展到了更高层级的语言推理和规划层面。

首先，解决了智能体训练中的数据瓶颈。通过提供高保真的语言世界模型作为模拟器，研究人员可以在虚拟环境中大规模、低成本地训练和测试智能体，特别是对于强化学习而言，这极大地加速了迭代周期并降低了风险。

其次，提升了智能体的通用推理能力。研究表明，学习预测环境动态（即构建世界模型）能够作为一种有效的正则化或预热手段，帮助智能体更好地理解任务逻辑和因果关系，从而在广泛的下游任务中表现更佳。

最后，推动了多领域通用智能体的发展。通过覆盖7个不同领域并支持长链推理，Qwen-AgentWorld 展示了语言世界模型在处理复杂、多样化现实世界问题时的潜力。这为构建真正能够适应开放环境、具备通用能力的智能体奠定了坚实的基础。

随着 AgentWorldBench 的发布，业界也将拥有一个更科学、更贴近真实交互的评估标准，有助于更准确地衡量和比较不同世界模型和智能体架构的性能。这一工作不仅丰富了 Qwen 系列模型的能力版图，也为整个 AI 社区探索“具身智能”与“通用人工智能”的结合路径提供了重要的参考和工具。

查看原文 →arxiv.org