← 返回信息流
技术博客arXiv cs.AI·3 小时前

统一智能体训练范式:让大模型内化世界模型以规划未来

原标题:Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning

速览

针对大语言模型智能体在长程任务中缺乏内部世界模型进行未来模拟的问题,研究者提出了一种统一的智能体训练范式。该范式通过三阶段流程,包括注入潜在预测能力、结构化格式以及强化学习校准,使模型能够生成前瞻状态 rollout 和成功估计。实验表明,该方法在搜索和数学推理任务中均优于基线,证明了能力优先的训练管线对实现接地且校准的前瞻性至关重要。

AI 深度解读

Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning

背景

大型语言模型(LLM)智能体在序列决策任务中展现出了强大的能力,但在处理长视界(long-horizon)任务时,它们本质上仍然是反应式的(reactive)。这意味着它们通常基于当前状态做出即时响应,缺乏对未来的前瞻性模拟能力。

相比之下,人类在做出承诺之前,会运用“如果……会怎样”(what-if)的推理能力来评估潜在的计划及其后果。这种能力依赖于内部的世界模型(internal world model),用于模拟未来的结果。然而,标准的 LLM 智能体缺乏这种内在的世界模型来预判行动带来的未来状态,导致其在复杂、长期的规划任务中表现受限。

核心内容

为了解决上述问题,研究人员提出了一种将“未来意识”内化到智能体中的方法。其核心思想是训练一个单一的自回归模型(autoregressive model),使其能够同时输出两部分内容:

  1. 前瞻性的状态展开(prospective state rollout):即对未来的模拟轨迹。
  2. 计划条件化的成功估计(plan-conditioned success estimate):这作为 Q-value 的文本类比,用于评估特定计划的成功概率。

然而,研究团队发现了一个关键的“格式-能力差距”(format-capability gap)。仅仅在训练后阶段(post-training)通过监督微调(SFT)让智能体模仿“向前看”的轨迹数据,只能导致智能体表面地模仿预见性,而缺乏真正的预测 grounding(即缺乏真实的预测能力支撑)。

为了弥合这一差距,作者提出了一种三阶段的统一训练范式:

  1. 世界模型智能体中期训练(World Model Agentic Mid-Training, WM-AMT): 这一阶段旨在将隐式的预测能力注入到策略模型(policy)中。它不是在最后阶段进行简单的格式模仿,而是在模型训练的早期或中期,通过特定的数据分布和训练目标,让模型学会“思考”未来状态。

  2. 格式诱发监督微调(Format-Eliciting SFT, FE-SFT): 在模型具备了潜在的预测能力后,此阶段通过结构化数据来“诱发”和整理这种能力。它确保模型能够以一致的、可解析的格式输出状态展开和成功估计,从而将隐式能力转化为显式的推理步骤。

  3. 预见性条件强化学习(Foresight-Conditioned Reinforcement Learning, FC-RL): 最后,利用强化学习来精炼生成的模拟结果的校准度(calibration)和实用性(utility)。这一阶段通过奖励机制,确保模型输出的未来预测不仅格式正确,而且在数值和逻辑上与真实世界的动态相符,从而提高决策的准确性。

该范式在搜索和数学推理任务上进行了评估,结果显示其 consistently(一致地)优于其他训练基线。研究结果表明,要在 LLM 智能体中实现有效的内部世界建模,必须采用“能力优先”的训练流水线,才能实现 grounded(有根基的)和 calibrated(校准良好的)预见性。

关键要点

  • 核心痛点:现有 LLM 智能体在长视界任务中缺乏内在的世界模型,导致其无法像人类一样进行“如果……会怎样”的前瞻性推理,仅具备反应式决策能力。
  • 解决方案:提出一种统一的训练范式,训练单个自回归模型同时生成“未来状态轨迹”和“成功概率估计”(作为 Q-value 的文本替代)。
  • 关键发现:格式-能力差距:仅仅在训练后期通过模仿“向前看”的数据进行微调,只能产生表面的模仿,无法赋予模型真正的预测 grounding。
  • 三阶段训练流程
    • WM-AMT:在中期训练中注入隐式预测能力。
    • FE-SFT:通过结构化微调诱发并整理这种能力。
    • FC-RL:通过强化学习优化预测的校准度和实用性。
  • 实验结果:在搜索和数学推理任务中,该方法显著优于现有的训练基线,证明了“能力优先”训练管线对于实现有效内部世界建模的重要性。

意义与影响

这项研究对 LLM 智能体的发展具有重要的理论和实践意义:

  1. 从反应式到预演式智能:它突破了传统 LLM 智能体仅依赖当前上下文进行下一步预测的局限,引入了类似人类“心理模拟”的能力。这使得智能体能够在行动前评估多种可能性的后果,从而在复杂环境中做出更优的长期决策。
  2. 重新定义训练范式:研究指出的“格式-能力差距”纠正了当前许多研究仅关注输出格式(如 Chain-of-Thought)而忽视底层预测能力培养的误区。它强调了在训练早期注入预测能力的重要性,为后续的智能体训练提供了新的方法论指导。
  3. 统一架构的可能性:通过单一模型同时处理状态预测和价值估计,简化了传统强化学习中需要单独训练价值网络(Value Network)和策略网络(Policy Network)的复杂架构,提高了系统的效率和一致性。
  4. 提升可靠性:通过 FC-RL 阶段对预测结果进行校准,减少了模型“幻觉”或过度自信的风险,使得智能体在高风险或高精度要求的任务(如数学证明、复杂搜索)中更加可靠。

总之,Internalizing the Future 提供了一种将世界模型能力深度整合进 LLM 智能体的系统性方法,为构建具备真正规划能力和长远视野的下一代 AI 智能体奠定了重要基础。

查看原文 →arxiv.org