技术博客arXiv cs.CL·4 小时前

LLM是世界模型的退化特例，二者存在连续演进谱系

原标题：From Tokens to States: LLMs as a Special Case of World Models and the Continuous Path Beyond

速览

该研究反驳了LLM与世界模型二元对立的观点，论证LLM仅是状态空间受限的世界模型特例。文章指出从自回归预测到潜在空间预测存在连续谱系，逐步放宽LLM约束。同时，论文将数据获取与架构泛化能力列为迈向通用智能的关键开放研究问题。

AI 深度解读

从 Token 到状态：LLM 作为世界模型的退化特例及超越的连续路径

背景

人工智能社区长期以来在大型语言模型（LLMs）与世界模型（World Models）的关系上构建了一种二元对立的叙事框架：LLMs 负责预测下一个 Token，而世界模型则致力于模拟物理现实。这种二分法在 2022 年 Yann LeCun 的论述中达到了顶峰，他主张为了达成通用人工智能（AGI），必须放弃自回归 Token 预测，转而采用潜在空间（latent-space）架构。

然而，这种框架被认为是不必要的二元对立。最新的 arXiv 论文（提交于 2026 年 6 月 26 日）指出，LLMs 并非世界模型的对立面，而是其一种特殊的退化形式。文章旨在打破这种僵化的分类，提出从自回归 Token 预测（NTP）到联合嵌入预测架构（JEPA）之间存在一条自然的连续谱系，并探讨了在这一路径上移动所带来的架构与数据挑战。

核心内容

本文的核心论点建立在两个主要声明之上，旨在重新定义 LLMs 在更广泛的 AI 架构中的位置，并描绘通往更高级世界模型的演进路径。

1. LLMs 是世界模型的退化特例

文章首先反驳了 LLMs 与世界模型互斥的观点，提出 LLMs 实际上是世界模型的一种“退化特例”（degenerate special case）。这一观点通过定义世界模型的状态空间和行为空间来论证：

状态空间：在 LLMs 中，状态空间被严格定义为所有可能的 Token 序列的集合。
行为空间：唯一的动作是“追加一个 Token”。
结论：世界模型是 LLMs 的严格泛化（strict generalization），而非替代品。世界模型的概念涵盖了更广泛的状态表示和动作空间，而 LLMs 只是在这个广义框架下，将状态限制为离散文本序列、将动作限制为单一 Token 生成的极端简化版本。

2. 从 NTP 到 JEPA 的连续谱系

文章指出，从传统的下一个 Token 预测（Next Token Prediction, NTP）到 Yann LeCun 倡导的联合嵌入预测架构（JEPA），并非一步到位的跳跃，而是一条自然的连续谱系。这条谱系上已经存在由当前研究占据的中间站点：

多 Token 预测（Multi-token prediction）：同时预测多个未来的 Token，而非仅预测下一个。
未来摘要预测（Future-summary prediction）：预测未来状态的高层摘要或压缩表示，而非具体的细节。
下一个潜在状态预测（Next-latent prediction）：直接预测潜在空间中的下一个状态向量，而非离散 Token。

沿着这条谱系移动，意味着逐步放宽 LLMs 所受到的约束。例如，从预测离散符号转向预测连续向量，从局部上下文转向全局状态模拟。

3. 两大实际优势的丧失与开放研究问题

随着模型沿着这条谱系从 LLMs 向更通用的世界模型演进，它们将逐渐丧失使 LLMs 能够在大规模上训练的两个关键实际优势。文章将这两个问题定义为当前的开放研究课题：

数据问题（The Data Question）： LLMs 受益于互联网规模的自监督数据（即海量的无标签文本）。然而，当转向模拟现实世界或具身智能时，数据将从“自监督文本”悬崖式地转变为“带有仪器标注动作的环境数据”（instrumented action-labelled environments）。如何获取、生成或利用此类数据，是一个巨大的挑战。
架构问题（The Architecture Question）： Transformer 架构是与离散 Token 预测共同设计的。当状态变为连续向量或高维潜在空间时，Transformer 是否仍然适用？还是需要一种全新的基础架构原语（new primitive）来支持连续状态预测？目前尚无定论。

关键要点

非二元对立：LLMs 与世界模型不是非此即彼的关系，LLMs 是世界模型在特定约束（离散 Token 状态、单一追加动作）下的特例。
演进谱系：AI 架构的发展是从 NTP 到 JEPA 的连续过程，中间包含多 Token 预测、未来摘要预测等过渡形态。
约束逐步解除：沿着谱系移动，模型逐渐摆脱 LLMs 的离散性和局部性限制，更接近对物理世界的完整模拟。
优势代价：通用世界模型的构建需要牺牲 LLMs 的两个核心优势：互联网规模的自监督数据可用性，以及专为离散预测优化的 Transformer 架构。
两大挑战：
1. 数据鸿沟：从海量文本数据到需要精确标注的动作-环境数据的转变。
2. 架构适配：Transformer 是否足以处理连续状态预测，或需引入新架构。

意义与影响

这篇文章对当前 AI 研究的范式转移具有深刻的指导意义。

首先，它消解了 LLMs 与具身智能/世界模型研究之间的对立情绪。通过证明 LLMs 是世界模型的子集，研究者可以更自然地探索如何将 LLMs 的能力扩展至连续状态空间，而不是试图完全抛弃 LLMs 的基础设施。

其次，它明确了下一代 AI 架构的研究方向。文章指出的“数据问题”和“架构问题”为社区提供了清晰的研究议程。特别是在数据方面，随着自回归文本预训练的红利逐渐见顶，如何构建类似“仪器标注动作”的高质量模拟或现实世界数据集，将成为决定 AGI 进度的关键瓶颈。

最后，它挑战了 Transformer 的统治地位。虽然 Transformer 在离散 Token 预测上取得了巨大成功，但文章暗示在连续状态预测领域，可能需要新的架构原语。这为神经架构搜索（NAS）和新模型设计（如基于状态空间的模型、扩散模型或其他连续动力学模型）提供了理论依据和动力。

总之，这篇文章呼吁社区从“Token 预测”的思维定势中解放出来，转向更广阔的“状态模拟”视野，并正视这一转型过程中不可避免的数据与架构挑战。

查看原文 →arxiv.org