清华开源空间模型入选ECCV 2026,性能超越Gemini
速览
清华大学开源的空间智能模型成功入选ECCV 2026会议。该模型在120分钟长视频理解等复杂任务中展现出超越Google Gemini的性能。研究指出,真正的空间智能应是在世界变化中具备持续学习的能力。这一成果标志着国产AI在空间智能领域取得重要突破。
AI 深度解读
背景
在机器人、自动驾驶、增强现实(AR)等真实物理场景中,空间理解远非“看一眼图像”那么简单。相机持续移动、视角不断变化、目标时隐时现,导致空间信息分散在长时间的视频流中。模型不仅需要“看得见”,更要“记得住、连得起来、还能持续更新”。
传统的多模态大模型往往受限于上下文窗口长度,难以处理动辄几十分钟甚至几小时的长时程流式视频。现有方法虽尝试引入深度信息或多视角输入,但大多局限于单张图像或短视频片段,缺乏在推理过程中不断将新观察吸收进内部状态并转化为可调用空间记忆的机制。
在此背景下,清华大学博士生刘芳甫等人提出的 Spatial-TTT 模型,旨在解决多模态模型从“看懂画面”迈向“理解真实空间”的核心难题:如何在视频不断延长的过程中,不依赖无限膨胀的上下文,而是通过持续学习形成并更新空间记忆。该成果已被计算机视觉顶级会议 ECCV 2026 正式接收。
核心内容
Spatial-TTT 的核心思想是将模型参数本身作为动态记忆载体,通过 Test-Time Training (TTT) 机制,让模型在观看视频流的过程中“边看、边更新、边长出”一份空间记忆。其技术架构包含以下三个关键设计:
-
混合式 TTT 架构: 为避免直接替换所有注意力层导致预训练语义能力丢失,研究团队设计了混合架构。在解码器中,按照 3:1 的比例交错插入 TTT 层与标准 self-attention anchor layers。其中 75% 的层采用 TTT,负责将长程信息写入快速权重(fast weights);25% 的层保留标准全注意力,作为锚定层以维持语义理解和跨模态推理能力。此外,引入 large-chunk 更新搭配并行滑动窗口注意力,既提升了 GPU 利用率,又保证了 chunk 内部因果局部交互的完整性。
-
空间预测机制(Spatial-predictive mechanism): 针对传统 TTT 中 Q/K/V 通过逐点线性投影生成、忽略视觉 token 间局部几何结构的问题,Spatial-TTT 在 TTT 分支中引入了轻量级 3D 时空卷积。这使得 fast weights 学到的不再是孤立 token 间的映射,而是时空上下文到时空上下文的预测关系,从而更好地捕捉几何对应、视角变化与时间连续性,增强在线更新的稳定性。
-
稠密场景描述监督: 为解决现有空间智能数据稀疏、局部的问题,团队构建了稠密的 3D 场景描述数据,要求模型生成覆盖全局语境、物体类别、数量及空间关系的 scene walkthrough。训练采用两阶段 spatial-aware progressive training:第一阶段学习如何“记住整个空间”形成全局 3D 意识;第二阶段使用数百万条 spatial VQA 数据强化方向判断、距离估计等流式空间推理能力。
关键要点
- 性能超越闭源巨头:仅有 2B 参数的 Spatial-TTT-2B 在多个专项空间智能基准上超越了 GPT-5、Gemini-3-pro 等闭源模型。
- 长视频处理能力:能够处理最长 120 分钟的流式视频,且在长时程下保持稳定,未出现性能崩塌或显存溢出(OOM)。
- 基准测试表现优异:
- 在 VSI-Bench 上取得 64.4 的平均分,在 Absolute Distance、Relative Direction 等任务上表现突出。
- 在考验多视角细粒度推理的 MindCube-Tiny 上,准确率达 76.2%,比最强闭源基线 Gemini-3-pro(63.9%)高出 12 个百分点。
- 在考验长期记忆的 VSI-SUPER 系列任务中,随着视频长度从 10 分钟增加至 120 分钟,模型得分保持相对稳定,而通用模型在长视频上性能迅速下降。
- 效率显著提升:在 1024 帧输入设置下,Spatial-TTT-2B 的峰值显存占用为 11.9GB,理论计算量为 799.4 TFLOPs,相比行业领先模型节省超过 40% 的显存与计算资源。
- 消融实验验证协同效应:移除空间预测机制、密集场景描述监督或混合架构中的任一组件,模型性能均显著下降,证明三者存在显著的协同效应。
意义与影响
Spatial-TTT 的意义不仅在于其在基准测试上的领先成绩,更在于它提供了一种重新理解长视频记忆问题的范式转变:从“保存更多内容”走向“形成持续的世界状态”。
- 推动物理世界 Agent 的发展:对于机器人、自动驾驶和 AR 设备而言,它们需要在长期运行中积累空间经验。Spatial-TTT 证明模型可以将持续到来的视觉观察转化为可不断更新、修正和调用的内部空间状态,使过去的观察参与下一次判断与行动。
- 解决长上下文瓶颈:通过在线更新参数而非被动依赖一次性长上下文处理,该模型在实现线性复杂度的同时,避免了显存爆炸问题,为处理真实世界中无限长的视觉流提供了可行路径。
- 从感知到认知的跨越:该工作展示了多模态模型如何从单纯的视觉感知,迈向对连续、动态世界的建模与理解,为构建真正具备“空间智能”的 AI 系统奠定了重要基础。
