← 返回信息流
技术博客美团技术团队·1 小时前

美团开源原生多模态模型LongCat-Next

原标题:美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

速览

美团发布并开源原生多模态大模型LongCat-Next,旨在让AI像处理语言一样处理物理世界信息。该模型采用DiNA离散原生自回归架构,将视觉、语音与文本统一映射为离散Token,实现理解与生成的对称统一。同时,其首创的dNaViT视觉分词器支持任意分辨率,解决了多模态信息内化难题。

AI 深度解读

背景

当前的大语言模型(LLM)本质上仍是“以语言为中心”的建模系统。在“压缩即智能”的范式下,语言作为人类智慧的符号化表述,展现了强大的能力。然而,物理世界的信息是由图像、声音和文字交织而成的。视觉、语音与文本等多模态信号,实际上是对现实物理对象的不同侧面投影。

通往真正的物理世界智能,语言可能并非边界。业界主流的多模态大模型长期受制于“语言基座 + 外挂视觉/语音模块”的拼凑式架构,非语言模态往往仅作为辅助组件存在。这种设计导致图像理解与生成在结构与优化上长期割裂:前者依赖对齐机制,后者依赖扩散等独立模型。多模态信息始终停留在“被投影”,而非“被内化”。

美团 LongCat 团队提出一个根本性问题:能否让 AI 像处理语言一样,用同一种方式简洁有效地处理物理世界的多种信息?如果能,物理世界的 AI 就有了统一的“母语”,Token 不再局限于文本,而是成为描述一切物理信号的原生表示。通过对这些信号进行统一建模与压缩,模型可能学到更加本质的表示,并实现更深层的模态内化。

核心内容

美团发布了原生多模态模型 LongCat-Next,并开源了其核心模型架构及离散分词器 dNaViT。该方案旨在构建一种语义完备的离散表示,将图像、语音与文本统一映射为同源的离散 Token,使模型从学习连续空间的映射,转向学习离散 ID 之间的关系结构,并通过纯粹的下一个 Token 预测(Next Token Prediction, NTP)范式,统一建模各种物理信号。

LongCat-Next 的核心技术由以下三部分构成:

1. 离散原生自回归架构 DiNA (Discrete Native Autoregressive)

DiNA 解决了“如何统一建模”的问题,彻底打破了模态间的隔阗。

  • 统一架构:将所有模态(视觉、语音、文本)统一为离散 Token,并使用同一个自回归模型进行建模。无论输入是文字、图像还是音频,模型都使用同一套参数、同一个注意力机制和同一个损失函数。
  • 理解与生成对称:在统一的 Token 空间中,理解与生成被统一为同一数学问题——条件下的 Token 预测。
    • 图像 → 文本:预测文字 Token,即“理解”。
    • 文本 → 图像:预测图像 Token,即“生成”。
    • 这种对称设计在优化上消弭了冲突,实验表明统一模型的理解损失仅比纯理解模型高 0.006,而生成损失比纯生成模型低 0.02,理解并未损害生成,反而表现出协同潜力。
  • 模态内化:在离散原生训练范式下,不同模态的 Token 表征在表示空间中自然融合,MoE(混合专家)专家自发形成模态偏好分化。这表明模型并非在“对齐模态”,而是在内部形成统一的多模态表征结构。
  • 基座模型:LongCat-Next 基于 LongCat-Flash-Lite MoE(68.5B 总参数,3B 激活参数)训练,DiNA 的 MoE 路由在训练中逐渐出现模态专精化。

2. 离散原生分辨率视觉分词器 dNaViT (Discrete Native Vision Tokenizer)

dNaViT 解决了“如何让图像本身能够被离散化为可建模的 Token”的问题,相当于语言模型中的 tokenizer,将图像拆解为一系列有意义的“视觉词汇”。

  • 原生任意分辨率支持:不做缩放、裁剪或填充,完整保留每一处细节。通过精心设计的训练策略,实现任意分辨率的图像编码与解码,在文档解析(OCR)、复杂图表推理等对细节敏感的任务中具备优势(如在 OmniDocBench、OCRBench 测试中表现优异)。
  • 8层残差向量量化 (RVQ):采用分层打包策略,类比于第一层打包轮廓、第二层打包颜色、第三层打包纹理等,通过 8 层级联递归拟合“残差中的残差”,实现高达 28 倍的极致像素空间压缩。解码时,DepthTransformer 将多级 Token 合并重建,确保压缩与还原高效协同。
  • 解耦的双轨生成解码器:离散 Token 还原图像时,先由“结构像素解码器”保住布局,再由“扩散像素细化器”注入纹理细节。这种解耦设计降低了生成方差,确保文本渲染无损清晰。
  • 闭环流转:实现了 image → token → image 的完整回环。理解时学到的对应关系,生成时正好反过来用,图像描述和图像生成在同一套 Token 序列中闭环流转。
  • 内生视觉表征:在 LongCat-Next 中,视觉 Token 完成的是图像到离散 ID 的映射,真正的特征是原生学习的。模型通过 Embedding 在语言模型内部学习视觉语言,实现了从“借用模态”到“内生模态”的转变。

3. 语义对齐完备编码器

针对离散建模通常受限于表征容量与离散化损失的问题,LongCat-Next 提出离散 Token 本身是否具备语义完备性 (Semantic Completeness) 才是决定上限的关键。

  • SAE 范式:采用语义与对齐编码器 (Semantic-and-Aligned Encoder, SAE)。不同于以对比学习为主的模型(如 SigLIP),SAE 通过大规模视觉-语言监督(涵盖图像描述、视觉问答、视觉推理等任务),学习高信息密度、多属性的表征。
  • 细节保留机制:在 SAE 网络的残差传递机制下,底层视觉细节能够持续向高层传播,从而在抽象语义中保留细粒度信息(如颜色、纹理与空间结构),为离散 Token 的语义完备性提供基础。
  • 多级 RVQ 离散化:在 SAE 基础上,采用多级残差向量量化机制对表征进行逐级离散建模,在有限离散空间内逼近高维连续表示,平衡压缩率与信息保真度。
  • 结果:最终得到的离散视觉 Token 既能支撑细粒度理解任务(如密集文本识别优于连续表征模型),也具备高保真的图像重建能力。

关键要点

  • 离散视觉没有天花板:LongCat-Next 挑战了“离散模型在细粒度文本识别上必然不如连续模型”的刻板印象。在 OmniDocBench(学术论文、财报、行政表格)上,其表现(0.152 / 0.226)超越了 Qwen3-Omni 及专用视觉模型 Qwen3-VL。
  • 理解与生成协同:消融实验证明,统一模型的理解损失仅比纯理解模型高 0.006,生成损失比纯生成模型低 0.02。在图像生成上,LongCat-Next 在 LongText-Bench(英文 93.15)表现优异;在图像理解上,MathVista(83.1)达到领先水平。
  • 不折损语言能力:在纯文本任务上,LongCat-Next 的 MMLU-Pro(77.02)和 C-Eval(86.80)表现领先,证明原生多模态训练未削弱语言核心能力。
  • 智能体与工具调用优势:在 τ²-Bench 零售场景中,其得分(73.68)大幅领先 Qwen3-Next-80B-A3B-Instruct(57.3);在代码能力上,SWE-Bench(43.0)显著超越同类模型。
  • 音频领域的通用性
    • TTS 任务:SeedTTS 的中文和英文 WER 分别低至 1.90 和 1.89。
    • 音频理解:MMAU(76.40)、TUT2017(43.09)均达到先进水平。
    • 交互能力:支持低延迟的并行文本语音生成与可定制的语音克隆。

意义与影响

LongCat-Next 的发布与开源,标志着 AI 在通往

查看原文 →tech.meituan.com