← 返回信息流
AI 资讯ReadHub 科技日报·2 小时前2 源报道

美团发布万亿参数开源大模型LongCat-2.0,原生支持1M上下文

原标题:美团正式发布万亿参数开源大模型 LongCat-2.0,原生支持 1M 超长上下文

速览

美团正式发布并开源新一代万亿参数大模型LongCat-2.0,这是业界首个在五万卡国产算力集群上完成全流程训练与推理的模型。该模型拥有1.6T总参数,原生支持1M超长上下文,在代码理解、数学推理等复杂场景中表现卓越。其推出标志着国产算力在大规模集群训练上取得重大突破,加速企业级AI Agent落地。

AI 深度解读

背景

在人工智能大模型竞争日益激烈的当下,算力基础设施的自主可控与模型能力的极致突破成为行业焦点。美团龙猫(LongCat)团队自 2023 年起,历时三年深耕底层技术,致力于解决大规模分布式训练中的算子适配、通信优化及系统稳定性等基础难题。此前,美团的预览版模型在 OpenRouter 平台发布后,凭借卓越性能月调用量跻身全球前三,已成为全球最受开发者欢迎的 Agent 模型之一。此次 LongCat-2.0 的正式发布,不仅是对过往技术积累的验证,更标志着国产算力在万卡级大规模集群训练与推理领域取得了重大突破,实现了从“可用”到“好用”再到“引领”的跨越。

核心内容

美团正式开源了新一代万亿参数大模型 LongCat-2.0。该模型在架构设计与技术实现上具有多项显著特征:

1. 参数规模与激活机制 LongCat-2.0 拥有 1.6T 的总参数量。模型采用动态激活机制,平均激活参数约为 48B,动态激活范围在 33B 至 56B 之间。这种设计在保证模型强大表达能力的同时,优化了推理效率。

2. 超长上下文支持 模型原生支持 1M(一百万)超长上下文窗口。这一能力使其能够处理极长篇幅的文档、代码库或对话历史,满足复杂办公场景和长程检索的需求。

3. 国产算力集群全流程训练 LongCat-2.0 是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型。龙猫团队通过自研确定性算子与弹性恢复机制,攻克了分布式稳定性难题,将月均日故障率降低了 70% 以上,实现了稳态日吞吐量超过 1T tokens 的高效能运行。

4. 架构优化与性能表现 在架构设计上,模型围绕真实的 Agentic Coding(智能体编程)任务进行了深度优化:

  • 稀疏注意力机制(LSA):引入 LSA 将长文本的计算量降低至线性级别,有效解决了长上下文带来的计算瓶颈。
  • 多专家融合架构:利用零计算专家机制与 MOPD 多专家融合架构,实现了 Token 级的动态激活,进一步提升了推理效率。

在权威评测中,LongCat-2.0 在代码理解、数学推理及长程检索等复杂场景中表现卓越。特别是在 SWE-bench Pro 等编程评测基准上,其表现超越了 GPT-5.5 及 Claude Opus4.6,展现了强大的技术竞争力。

关键要点

  • 开源发布:美团正式开源 LongCat-2.0,推动开发者生态建设。
  • 算力突破:首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型。
  • 参数特性:总参数 1.6T,平均激活约 48B,动态范围 33B~56B。
  • 上下文能力:原生支持 1M 超长上下文窗口。
  • 稳定性提升:通过自研确定性算子和弹性恢复机制,故障率降低 70% 以上,日吞吐超 1T tokens。
  • 架构创新:采用稀疏注意力机制(LSA)实现线性级长文本计算,结合 MOPD 多专家融合架构实现 Token 级动态激活。
  • 评测领先:在 SWE-bench Pro 等编程评测中超越 GPT-5.5 和 Claude Opus4.6。
  • 应用导向:专为 Agentic Coding 任务优化,加速企业级 AI Agent 的闭环落地。

意义与影响

LongCat-2.0 的发布具有多重深远意义。首先,它在国产算力基础设施上证明了万亿参数大模型全流程训练与推理的可行性,为国内其他企业和研究机构提供了宝贵的技术参考和实践路径,有助于加速国产算力生态的成熟与完善。

其次,模型在 SWE-bench Pro 等权威编程评测中超越 GPT-5.5 及 Claude Opus4.6,标志着中国大模型在核心能力上已达到或超越国际顶尖水平,增强了国产 AI 技术的国际竞争力。

最后,LongCat-2.0 针对 Agentic Coding 任务的深度优化及其在代码理解、数学推理等方面的卓越表现,将极大降低企业开发 AI Agent 的门槛,加速 AI 技术在软件开发、自动化办公等场景中的落地应用,推动产业智能化重构。

查看原文 →readhub.cn