全球首个无英伟达的万亿参数模型成海外开发者抢手货
速览
全球首个英伟达含量为0的万亿参数大模型在OpenRouter平台上实现霸榜,迅速成为海外开发者的抢手货。OpenRouter作为开源大模型的统一接口,为开发者提供便捷访问方式,极大提升了模型部署和使用的便利性。
AI 深度解读
全球首个英伟达含量为0的万亿模型,成了海外开发者的抢手货
背景
2026年,美团LongCat团队正式发布1.6万亿参数的MoE混合专家大模型LongCat-2.0。这是全球首个在国产算力集群上完成训练与推理全链路闭环的万亿参数模型,英伟达含量为0(全程5万张国产卡支撑)。模型原生支持1M超长上下文,每token激活约48B参数(动态范围33B~56B),自研MoE架构,总参数达1.6万亿。
LongCat-2.0并非开发者的“新朋友”。其匿名面具版“Owl Alpha”已在OpenRouter平台上运行近两个月,成为全球开发者首选的开源模型。在Hermes、Claude Code和OpenClaw部署中分列全球第一、第二和第三位,月调用量达约11万亿token(242%月环比增长),证明了其在Agent编码任务中的真实市场验证。
技术报告于长猫官网发布,公开体验地址为https://longcat.chat/platform/product。新用户认证可送1000万token。参考链接包括美团技术团队相关声明及全球开发者社区讨论。
核心内容
模型架构与性能亮点
LongCat-2.0采用自研MoE混合专家架构,总参数1.6万亿,每token激活约48B(动态33B~56B)。原生支持1M超长上下文,可一次处理百万字级输入。训练与推理全链路基于国产算力集群(5万张国产加速卡),无任何英伟达硬件参与。
关键创新设计:
- LongCat Sparse Attention (LSA):对DeepSeek DSA索引器进行三项针对性优化——零散访问整理成连续读取、相邻层共享索引结果、两阶段筛选减少计算量。这些优化相互独立,叠加后可显著提升1M上下文处理速度,同时模型质量基本无损。
- N-gram Embedding:继承自LongCat-Flash-Lite并进一步增强,将部分参数前移到Embedding层,让模型一开场就能识别更多高频词组和语言模式,减少专家间通信开销,同时提升代码、指令理解等任务准确率。
- 其他架构优化:ScMoE快捷连接、零计算专家等,均围绕让模型把算力花在真正值得算的地方的目标。
真实应用验证
用户实测中,模型在长上下文处理、编程任务和Agent协作中表现突出:
- 长上下文测试:手动拼凑数万字中英混杂研报和论文,验证前段信息准确检索与分析能力,速度较快(约1秒)。
- 编程任务:将开源2048游戏(GitHub 13k star,纯HTML+CSS+JS)迁移为5x5棋盘、赛博朋克配色、计步器,并迁移至React。模型独立设计7步计划,运行12分钟交付完整结果。
- Agent协作:接入Claude Code进行研究调研(无需使用Claude自带deep-research),通过原生Agent能力自主联网搜索并生成结构化报告;接入“只有一道门”魔性小游戏,统筹架构、拆分模块、编写代码、通关动画并添加Web Audio音效。
- 额外发现:同一提示词下生成物理仿真代码时,LongCat-2.0 token用量最低(9004 tokens,计费不到1毛钱),得益于Cache命中不计费和Token Plan不计消耗机制,显示美团在成本控制上的优势。
模型深度适配主流Agent工具(Claude Code、OpenClaw、Hermes),在代码理解、工具调用、多步逻辑推理等任务上具备较强综合性能。
国产算力工程突破
5万张国产卡撑起万亿参数模型,考验系统工程能力:
- 硬件挑战:单卡显存有限,通信带宽不如NVLink,跨节点延迟更高,计算与通信易不匹配。
- 软件生态:需重写算子(如FlashAttention反向梯度从单核串行慢20-70倍优化)、并行方案等。
- 故障处理:搭建自动化体系(异常检测、链路切换、自动恢复),将日均故障率从万分之15.7降至万分之4.4,支持训练任务从2560张卡扩展到5万多张。
- 性能提升:硬件利用率(MFU)从17.8%提升至27.68%,单日Token处理能力从7170亿提升至1.12万亿。
LongCat团队从2023年初开始布局国产算力集群,接受短期研发阵痛:2023年跑通千亿参数训练,2024年验证MoE架构,2025年推出5600亿参数的LongCat-Flash,2026年落地1.6万亿参数LongCat-2.0。
关键要点
- 首个在国产算力上实现万亿参数训推全链路闭环的模型,英伟达含量为0。
- 匿名版Owl Alpha在OpenRouter上已验证流量,Hermes全球第一、Claude Code全球第二、OpenClaw全球第三。
- 原创LSA稀疏注意力优化解决1M上下文索引瓶颈,N-gram Embedding提前识别语言模式。
- 自动化故障处理与MFU提升,证明5万张国产卡能稳定支撑大规模训练。
- 训练成本显著低于同规模英伟达路线(零计算专家、ScMoE等减少无效算力)。
- 3年布局成果显现:从千卡起步到5万卡集群,持续迭代国产算力生态。
意义与影响
LongCat-2.0标志着国产算力已具备支撑先进大模型持续训练、持续部署和持续迭代的能力,首次证明国产芯片硬件与软件生态能独立扛起万亿级模型全流程。无论技术指标还是市场真实流量,模型均被全球开发者认可,这为后续SOTA迭代提供了新马甲空间。
从企业角度,美团通过“时间换空间”策略提前吃透国产算力全链路,助力其构建低推理成本、能力紧跟SOTA的AI底座。未来物理世界AI的理解层和行动层将依托此类基座模型实现落地。LongCat-2.0不仅验证了国产芯片的潜力,更为中国AI生态在算力自立上的突破提供了可复制样本。
