创投信息36氪主站·3 天前

万格智元获五源峰瑞数千万元融资，解决端侧Token账单焦虑

原标题：连续完成五源、峰瑞两轮数千万元融资，清华00后团队要解决Token账单焦虑｜智能涌现首发

速览

清华00后团队万格智元连续完成五源资本、峰瑞资本参投的数千万元天使轮及天使+轮融资。公司推出端侧算力引擎cPilot和智能平台Amis，通过动态稀疏化算法大幅压缩内存占用，实现本地部署大模型以解决Token账单焦虑。目前已与多家硬件厂商合作，预计今年预装出货数万台设备，营收超千万元。

AI 深度解读

背景

随着 Claude Code、Codex、OpenClaw 等 Agent 能力的爆发式增长，AI 应用对 Token 的需求迎来了爆炸式增长。尽管 DeepSeek、小米（MiMo V2.5）等厂商纷纷下调 API 价格，试图通过降低云端算力成本来吸引用户，但在大规模应用面前，云端 Token 成本依然高昂。与此同时，端侧硬件市场面临一个核心矛盾：芯片厂商推出的端侧设备内存通常不超过 32GB，过大的内存会限制使用场景。厂商亟需在现有内存条件下，实现更快的推理速度和更大的模型搭载能力，且不增加额外硬件成本。

在此背景下，由清华 00 后博士王冠博创立的万格智元（Wange Zhiyuan）团队，专注于解决“端侧算力”与“Token 账单焦虑”的问题。团队规模约 20 人，近 90% 为 00 后，成员多来自清华、北大等顶尖院校，以及亚马逊、OpenAI、字节跳动等科技公司。近日，万格智元连续完成由五源资本、峰瑞资本参投的数千万元天使轮及天使+轮融资，源合资本担任独家财务顾问，资金将用于产品研发和市场推广。

核心内容

万格智元的核心战略是摒弃“端侧小模型”和“后训练”路线，转而通过底层算法优化，让低内存硬件能够运行大参数模型，并结合云端调度实现成本最优。

1. 端侧推理引擎 cPilot：突破内存瓶颈 万格智元推出了面向底层生态的推理引擎 cPilot。该引擎位于底层硬件和上层软件之间，通过自研算法最大程度压缩模型运行的内存占用，激发底层硬件潜能。

技术原理：针对 Dense（稠密模型）和 MoE（混合专家模型），万格智元设计了「动态稀疏化激活算法」。即使 MoE 模型本身已具备稀疏结构，仍有约 10 倍的稀疏度下降空间。该算法能准确预判推理过程中需要计算和加载的参数部分，大幅降低实际参数量。
性能表现：在相同内存开销下，相比其他牺牲速度或精度的方案，cPilot 的速度至少快 12 倍。
实测数据：在一台搭载 AMD 芯片、内存为 32GB 的机器上，运行 35B 参数大模型时，传统方式内存占用为 27.6GB；使用 cPilot 后，内存占用压缩至 4.7GB。这意味着在不到 5GB 的内存下，即可运行具备 Coding 和复杂任务处理能力的 Qwen3.6、Gemma 4 等大模型。
商业价值：对于硬件厂商，使用 cPilot 方案可使每台机器硬件成本节省约 2000 元，同时部署的模型参数从 4B 提升至 80B。

2. 端侧智能平台 Amis：端云协同调度 鉴于本地部署并非万能，且用户需求正从盲目追求模型能力转向按需调用，万格智元推出了端侧智能平台 Amis。

功能定位：Amis 作为 API 聚合平台和调度中枢，支持接入 OpenClaw、Hemers 等主流 Agent 工具及模型。
调度逻辑：平台根据任务复杂程度自动分配算力。轻量、高频且消耗 Token 的任务在本地完成，实现 0 Token 消耗；仅 10%-20% 端侧难以解决的复杂任务调度至云端。
用户价值：用户无需为其他模型厂商单独付费，通过 Amis 配置模型即可实现端云切换，极大压缩了整体使用成本。

3. 商业模式与市场进展

B 端为主，C 端验证：目前主要客户为 B 端芯片厂商，合作开发终端硬件（如 AI mini PC、AI PC、AI NAS）。万格智元提供端侧算力引擎及本地自研产品，并预装能一键部署模型、聚合 API 的平台。
市场反馈：2025 年团队花费一年时间完成产品与各大厂商芯片的适配。随着 OpenClaw 等 Agent 工具的爆火，C 端对端侧智能的需求显现。
营收预期：目前与多家硬件厂商的合作已进入交付阶段，预计今年将有数万台设备预装出货，公司今年预期营收超千万元。

关键要点

团队背景：万格智元由清华 00 后博士王冠博创立，团队年轻化（近 90% 为 00 后），具备深厚的学术背景（清华、北大硕博）及产业经验（OpenAI、亚马逊等）。
融资情况：连续完成五源资本、峰瑞资本参投的数千万元天使轮及天使+轮融资，源合资本任独家财务顾问。
技术突破：
- 自研「动态稀疏化激活算法」，挖掘 MoE 模型剩余 10 倍稀疏度空间。
- 建立类似 CUDA 的调度体系，适配不同厂商芯片，解决内存、CPU 访存及 CPU-GPU 交互带宽限制。
- 在 32GB 内存设备上，将 35B 模型内存占用从 27.6GB 压缩至 4.7GB。
产品矩阵：
- cPilot：端侧 AI 推理引擎，专注降低内存占用，提升推理速度（快 12 倍）。
- Amis：端侧智能平台，负责 API 聚合与端云算力自动调度，实现大部分任务本地 0 Token 消耗。
战略选择：
- 不做端侧小模型：认为市场不够大、不够通用。
- 不做后训练：避免云端模型迭代导致本地知识被覆盖。
- 暂不自研硬件：认为芯片技术（如 NPU）尚未收敛，做硬件易固定形态且供应链门槛高，优先通过软件层切入生态。
市场定位：从 B 端芯片厂商合作入手，逐步验证 C 端商业模式，目标是将 cPilot 和 Amis 打造为低内存赛道上跨平台、开箱即用的完善平台。

意义与影响

万格智元的出现标志着 AI 算力范式可能从“云端租赁”向“端侧拥有”转变。

1. 降低 AI 使用门槛，解决 Token 焦虑 通过让低内存硬件运行大模型，万格智元从根本上解决了模型本地部署后的 Token 成本为零的问题。结合 Amis 的端云调度，用户仅需为少量复杂任务支付云端费用，大幅降低了 AI 应用的长期运营成本，使“拥有智能”而非“租赁智能”成为可能。

2. 推动端侧硬件价值重构 在芯片厂商面临内存成本与性能平衡难题时，万格智元的方案证明了通过软件算法优化可以显著提升硬件利用率。这不仅帮助厂商在不增加硬件成本的前提下提升产品竞争力（如从 4B 提升至 80B 模型部署能力），也为 AI PC、AI NAS 等终端设备的普及提供了技术可行性。

3. 探索端侧 AI 的新生态位 王冠博认为，AI 浪潮的下一波冲击将在端侧。万格智元选择先做软硬件之间的中间层，而非直接下场做硬件，是一种规避技术迭代风险、快速抢占生态位的策略。随着未来 NPU 等下一代芯片的成熟，以及 Agent 应用对本地算力的依赖加深，万格智元有望成为端侧智能基础设施的关键提供商。

4. 验证“端侧大模型”的商业可行性 在 2025 年端侧需求尚未强烈时，万格智元坚持投入研发适配，如今随着 Agent 爆发，其 B 端交付与 C 端验证的路径已初步跑通。数万台设备的预装出货预期，证明了通过技术优化降低硬件成本、提升用户体验的商业闭环正在形成。

查看原文 →36kr.com

万格智元获五源峰瑞数千万元融资，解决端侧Token账单焦虑

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐