万格智元获五源峰瑞数千万元融资,解决端侧Token账单焦虑
速览
清华00后团队万格智元连续完成五源资本、峰瑞资本参投的数千万元天使轮及天使+轮融资。公司推出端侧算力引擎cPilot和智能平台Amis,通过动态稀疏化算法大幅压缩内存占用,实现本地部署大模型以解决Token账单焦虑。目前已与多家硬件厂商合作,预计今年预装出货数万台设备,营收超千万元。
AI 深度解读
背景
随着 Claude Code、Codex、OpenClaw 等 Agent 能力的爆发式增长,AI 应用对 Token 的需求迎来了爆炸式增长。尽管 DeepSeek、小米(MiMo V2.5)等厂商纷纷下调 API 价格,试图通过降低云端算力成本来吸引用户,但在大规模应用面前,云端 Token 成本依然高昂。与此同时,端侧硬件市场面临一个核心矛盾:芯片厂商推出的端侧设备内存通常不超过 32GB,过大的内存会限制使用场景。厂商亟需在现有内存条件下,实现更快的推理速度和更大的模型搭载能力,且不增加额外硬件成本。
在此背景下,由清华 00 后博士王冠博创立的万格智元(Wange Zhiyuan)团队,专注于解决“端侧算力”与“Token 账单焦虑”的问题。团队规模约 20 人,近 90% 为 00 后,成员多来自清华、北大等顶尖院校,以及亚马逊、OpenAI、字节跳动等科技公司。近日,万格智元连续完成由五源资本、峰瑞资本参投的数千万元天使轮及天使+轮融资,源合资本担任独家财务顾问,资金将用于产品研发和市场推广。
核心内容
万格智元的核心战略是摒弃“端侧小模型”和“后训练”路线,转而通过底层算法优化,让低内存硬件能够运行大参数模型,并结合云端调度实现成本最优。
1. 端侧推理引擎 cPilot:突破内存瓶颈 万格智元推出了面向底层生态的推理引擎 cPilot。该引擎位于底层硬件和上层软件之间,通过自研算法最大程度压缩模型运行的内存占用,激发底层硬件潜能。
- 技术原理:针对 Dense(稠密模型)和 MoE(混合专家模型),万格智元设计了「动态稀疏化激活算法」。即使 MoE 模型本身已具备稀疏结构,仍有约 10 倍的稀疏度下降空间。该算法能准确预判推理过程中需要计算和加载的参数部分,大幅降低实际参数量。
- 性能表现:在相同内存开销下,相比其他牺牲速度或精度的方案,cPilot 的速度至少快 12 倍。
- 实测数据:在一台搭载 AMD 芯片、内存为 32GB 的机器上,运行 35B 参数大模型时,传统方式内存占用为 27.6GB;使用 cPilot 后,内存占用压缩至 4.7GB。这意味着在不到 5GB 的内存下,即可运行具备 Coding 和复杂任务处理能力的 Qwen3.6、Gemma 4 等大模型。
- 商业价值:对于硬件厂商,使用 cPilot 方案可使每台机器硬件成本节省约 2000 元,同时部署的模型参数从 4B 提升至 80B。
2. 端侧智能平台 Amis:端云协同调度 鉴于本地部署并非万能,且用户需求正从盲目追求模型能力转向按需调用,万格智元推出了端侧智能平台 Amis。
- 功能定位:Amis 作为 API 聚合平台和调度中枢,支持接入 OpenClaw、Hemers 等主流 Agent 工具及模型。
- 调度逻辑:平台根据任务复杂程度自动分配算力。轻量、高频且消耗 Token 的任务在本地完成,实现 0 Token 消耗;仅 10%-20% 端侧难以解决的复杂任务调度至云端。
- 用户价值:用户无需为其他模型厂商单独付费,通过 Amis 配置模型即可实现端云切换,极大压缩了整体使用成本。
3. 商业模式与市场进展
- B 端为主,C 端验证:目前主要客户为 B 端芯片厂商,合作开发终端硬件(如 AI mini PC、AI PC、AI NAS)。万格智元提供端侧算力引擎及本地自研产品,并预装能一键部署模型、聚合 API 的平台。
- 市场反馈:2025 年团队花费一年时间完成产品与各大厂商芯片的适配。随着 OpenClaw 等 Agent 工具的爆火,C 端对端侧智能的需求显现。
- 营收预期:目前与多家硬件厂商的合作已进入交付阶段,预计今年将有数万台设备预装出货,公司今年预期营收超千万元。
关键要点
- 团队背景:万格智元由清华 00 后博士王冠博创立,团队年轻化(近 90% 为 00 后),具备深厚的学术背景(清华、北大硕博)及产业经验(OpenAI、亚马逊等)。
- 融资情况:连续完成五源资本、峰瑞资本参投的数千万元天使轮及天使+轮融资,源合资本任独家财务顾问。
- 技术突破:
- 自研「动态稀疏化激活算法」,挖掘 MoE 模型剩余 10 倍稀疏度空间。
- 建立类似 CUDA 的调度体系,适配不同厂商芯片,解决内存、CPU 访存及 CPU-GPU 交互带宽限制。
- 在 32GB 内存设备上,将 35B 模型内存占用从 27.6GB 压缩至 4.7GB。
- 产品矩阵:
- cPilot:端侧 AI 推理引擎,专注降低内存占用,提升推理速度(快 12 倍)。
- Amis:端侧智能平台,负责 API 聚合与端云算力自动调度,实现大部分任务本地 0 Token 消耗。
- 战略选择:
- 不做端侧小模型:认为市场不够大、不够通用。
- 不做后训练:避免云端模型迭代导致本地知识被覆盖。
- 暂不自研硬件:认为芯片技术(如 NPU)尚未收敛,做硬件易固定形态且供应链门槛高,优先通过软件层切入生态。
- 市场定位:从 B 端芯片厂商合作入手,逐步验证 C 端商业模式,目标是将 cPilot 和 Amis 打造为低内存赛道上跨平台、开箱即用的完善平台。
意义与影响
万格智元的出现标志着 AI 算力范式可能从“云端租赁”向“端侧拥有”转变。
1. 降低 AI 使用门槛,解决 Token 焦虑 通过让低内存硬件运行大模型,万格智元从根本上解决了模型本地部署后的 Token 成本为零的问题。结合 Amis 的端云调度,用户仅需为少量复杂任务支付云端费用,大幅降低了 AI 应用的长期运营成本,使“拥有智能”而非“租赁智能”成为可能。
2. 推动端侧硬件价值重构 在芯片厂商面临内存成本与性能平衡难题时,万格智元的方案证明了通过软件算法优化可以显著提升硬件利用率。这不仅帮助厂商在不增加硬件成本的前提下提升产品竞争力(如从 4B 提升至 80B 模型部署能力),也为 AI PC、AI NAS 等终端设备的普及提供了技术可行性。
3. 探索端侧 AI 的新生态位 王冠博认为,AI 浪潮的下一波冲击将在端侧。万格智元选择先做软硬件之间的中间层,而非直接下场做硬件,是一种规避技术迭代风险、快速抢占生态位的策略。随着未来 NPU 等下一代芯片的成熟,以及 Agent 应用对本地算力的依赖加深,万格智元有望成为端侧智能基础设施的关键提供商。
4. 验证“端侧大模型”的商业可行性 在 2025 年端侧需求尚未强烈时,万格智元坚持投入研发适配,如今随着 Agent 爆发,其 B 端交付与 C 端验证的路径已初步跑通。数万台设备的预装出货预期,证明了通过技术优化降低硬件成本、提升用户体验的商业闭环正在形成。
