AI 资讯雷峰网·4 天前

商汤开源SenseNova U1：去VAE架构8B参数重定义生图上限

原标题：去掉 VAE 之后，商汤用 8B 参数重新定义了开源生图的上限

速览

商汤发布基于NEO-unify架构的SenseNova U1模型，彻底摒弃VAE和视觉编码器，直接在像素层面实现语言与视觉的端到端建模。该8B参数模型在理解、生成及编辑任务上达到同量级SOTA水平，并支持商用开源。此举标志着多模态从“模态集成”向“原生统一”的范式跨越，大幅降低落地门槛。

AI 深度解读

背景

在多模态人工智能领域，图像理解与图像生成长期以来被视为“两条腿走路”的技术路线。以 GPT-4V、LLaVA、Qwen-VL 为代表的视觉语言模型（VLM）专注于理解任务，而 Stable Diffusion、FLUX、DALL-E 3 等扩散模型则主导生成任务。尽管两者各有突破，但由于独立演进，形成了截然不同的架构范式。

2025年，GPT-4o 展示了统一多模态能力的潜力，但其本质仍是混合架构：理解依赖视觉编码器提取特征，生成则依赖集成的 DALL-E 3 等独立模块。这种物理上共享部分参数、但逻辑上模块接力完成任务的路径，导致了模型冗余、能力割裂以及交互障碍。业界一直渴望实现“同一个大脑”同时处理理解与生成，即真正的原生统一架构，以消除跨模块传递带来的信息损耗和效率低下问题。

核心内容

商汤（SenseTime）近期开源了 SenseNova U1 系列模型，基于其自主研发的 NEO-unify 架构，率先在单一模型架构上实现了多模态理解、推理与生成的原生统一。该系列模型以 Apache 2.0 协议开源，支持商用，并迅速推出了多种优化版本。

架构创新：摒弃 VAE 与视觉编码器 SenseNova U1 的核心突破在于彻底摒弃了传统扩散模型依赖的变分自编码器（VAE）和视觉编码器（VE）。传统架构像“说不同语言的人组成的工作组”，而 NEO-unify 架构让模型像“一个从一开始就同时掌握多项技能的人”。

端到端像素建模：模型直接在像素层面和文本层面进行端到端学习，像素与词语的信息在同一个表征空间中共同参与每一层计算。
消除信息损耗：VAE 的压缩过程本质上是有损的，且需要复杂的调参。原生像素-文本接口消除了跨模块对齐成本，保留了语义和像素细节。
MoT 主干架构：采用原生混合 Transformer（MoT）架构，解决语义抽象与像素细节共同表征、理解与生成协同、语言因果性与图像空间一致性三组矛盾。

模型规格与性能 本次开源的 SenseNova U1 Lite 包含两个主要规格：

SenseNova-U1-8B-MoT：基于稠密骨干网络，理解分支参数约 9.37B，生成分支约 8.19B。
SenseNova-U1-A3B-MoT：基于混合专家（MoE）骨干网络，理解分支约 30.54B，生成分支约 8.2B，每 token 激活 top-8 专家，实际活跃参数约 3B。

在基准测试中，8B-MoT 版本在涵盖图像理解、生成、编辑、空间智能和视觉推理的多项指标上达到同量级开源模型 SOTA 水平，部分指标甚至超越闭源商业模型。例如，GenEval 总分约 0.91-0.92，OneIG 中文文字渲染达 0.977，多模态理解 MMMU 达 80.55。

数据效率与推理优势

高数据效率：相比类似统一模型 BAGEL，NEO-unify 在更少训练 token 下取得更好表现。MoT 架构让理解与生成共享上下文，互相提供监督信号，提高了训练数据利用率。
推理加速：团队迅速推出了 8 步推理加速版、LoRA 微调版、GGUF 量化版及低显存 layer-offload 推理模式。8B-MoT 在生成质量比肩 Qwen-Image 2.0 Pro 等闭源模型的同时，推理响应速度显著更快。
落地友好：推荐 16GB 显存运行标准版，8GB 显存可通过 GGUF 量化版运行，甚至支持在浏览器端通过“办公小浣熊”平台免 GPU 体验。

应用场景验证 在实际工作流测试中，SenseNova U1 展现了强大的结构化叙事和设计能力：

连贯创作：能从线稿到上色完稿进行逻辑连贯的图文输出，保持画面一致性。
复杂排版与信息图：能处理高信息密度的观影指南和剧情分析信息图，准确渲染中文文字，并实现杂志级的自适应排版审美，无需模板套作。
异构知识合并：能自主从文本、图像等多格式来源合并知识点，提炼差异化分层信息，并构建合理的叙述逻辑。

关键要点

架构范式转移：SenseNova U1 彻底去除了 VAE 和视觉编码器，实现了从“模态集成”到“原生统一”的跨越，解决了传统混合架构的信息损耗和模块割裂问题。
开源与商用友好：采用 Apache 2.0 协议完全开源，支持商用。发布后两周内即推出加速、微调、量化等多种衍生版本，社区迭代迅速。
小参数大能力：仅 8B 参量的模型在理解、生成、编辑等综合基准测试中达到 SOTA 水平，部分指标超越大型闭源模型，展现了极高的数据效率。
原生像素-文本接口：通过在像素层面直接建模语言与视觉，保留了细粒度信息，使得冻结理解分支时，生成路径仍能恢复细节并完成图像编辑。
MoT 架构协同效应：原生混合 Transformer（MoT）让理解与生成共享上下文，既降低了内在冲突，又通过互相监督信号提升了训练稳定性和收敛速度。
生产级落地能力：在中文文字渲染、复杂信息图生成、PPT 制作等高难度生产场景中表现优异，解决了汉字扭曲、排版混乱等长期痛点，具备直接替代人工设计流程的潜力。
部署门槛降低：提供 GGUF 量化版和 layer-offload 模式，支持 8GB 显存运行，并通过 Web 端工具降低使用门槛，极大拓展了开发者生态。

意义与影响

SenseNova U1 的发布标志着多模态 AI 从“理解主导”向“理解与生成原生融合”的范式转变。

首先，它打破了理解与生成之间的信息壁垒。在 Agent 落地成为共识的今天，单一模型替代专用模型协作能显著降低存储、计算和部署成本。SenseNova U1 证明了统一架构并非折中方案，而是在表示能力、训练稳定性和数据效率上具有真实收益。

其次，它提升了多模态智能的上限。原生统一架构使得语言与视觉信息作为一个统一的复合体被建模，增强了复杂指令遵循能力和跨模态推理的可解释性。这种底层范式的创新，为通往 AGI 之路提供了新的技术路径，即通过深度融合的内核架构创新，而非单纯的规模扩大，来实现智能的突破。

最后，SenseNova U1 在竞争激烈的生图市场中开辟了差异化赛道。主流厂商如 GPT 系列、Qwen-VL 等在理解侧表现趋同，但在原生生成侧存在短板或依赖独立模块。SenseNova U1 凭借端到端的交付能力，直接切入企业办公场景（如信息图、PPT 生成），将技术优势转化为生产力，有望重新定义开源生图模型的能力上限和应用边界。

查看原文 →leiphone.com

商汤开源SenseNova U1：去VAE架构8B参数重定义生图上限

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐