创投信息36氪主站·7 天前

智象未来CEO梅涛：多模态模型Token毛利率远高于语言模型，两周内再获亿元融资

原标题：智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

速览

智象未来在获得5亿B轮融资后，两周内再次完成亿元级新一轮融资。CEO梅涛在开放日上强调，公司定位为原生多模态大模型，通过算法创新对抗数据稀缺，并指出多模态模型Token的毛利率远高于语言模型。公司正从“模型即产品”转向MaaS平台，旨在通过视频生成等能力为迈向世界模型积累技术。

AI 深度解读

背景

2026年，随着Seedance 2.0、GPT Image 2.0等模型的爆发，多模态能力已成为人工智能行业不可回避的核心关键词。在这一背景下，智象未来（ZhiXiang Future）于5月19日举办了首届开放日，主题为“Imaging the World”。作为一家从成立之初就定位为“原生多模态大模型”的公司，智象未来并未止步于图像或视频生成，而是将目光投向了更具挑战性的“世界模型”。

智象未来CEO梅涛在开放日上明确提出，“原生多模态是实现AGI的必经之路”，并强调其终极目标是打造世界模型。与此同时，资本市场对这一赛道保持高度关注。智象未来在近期完成了5亿元人民币的B轮融资，并迅速宣布完成新一轮亿元级融资。在激烈的市场竞争中，智象未来试图通过算法创新、低成本合成数据策略以及To B端的MaaS（模型即服务）平台，在巨头林立的AI领域寻找差异化生存空间。

核心内容

智象未来的战略核心在于重新定义多模态与大模型的关系，并构建从底层模型到上层应用的完整商业闭环。

1. 战略定位：从“世界模型”到“原生多模态” 尽管外界常将智象未来归类为“世界模型”公司，但CEO梅涛对此持谨慎态度。他认为目前业界对世界模型的定义尚不成熟，智象未来更倾向于将自己定义为“原生多模态大模型公司”。其逻辑在于，原生多模态是通往世界模型的必经阶段。真正的世界模型需满足四个严苛条件：掌握物理规律（如流体力学、牛顿定律等）、解决长跨度因果推理、实现全模态交互（如机器人操作细节）以及绝对的安全性。鉴于当前技术尚未完全收敛，智象未来选择务实路径，聚焦于视频、图像和3D交互数据的生成，通过算法创新积累可复用的视觉能力，为未来迈向世界模型奠定基础。

2. 技术路线：算法创新对抗数据稀缺 面对李飞飞的“生成3D世界”和Yann LeCun的“自监督预测世界”两大主流路线，智象未来选择了算法与架构层的创新。其核心优势在于：

架构创新：采用原生全模态Unified Transformer（UiT）架构，支持“Any to Any”（任何形式输入支持任何形式输出），使模型在统一架构中理解、生成并预测现实世界的不同状态。
数据策略：针对世界模型训练数据稀缺且昂贵的痛点，智象未来利用自有的视频模型生成万份级不同场景、肤色的合成数据，结合20万小时有影视版权的真实数据，训练VLA（视觉-语言-动作模型）和WAM（世界动作模型）。这种“以合成数据对抗数据瓶颈”的策略，旨在降低对海量真实标注数据的依赖，通过算法效率弥补算力与数据的不足。

3. 商业模式：1+1+3 MaaS平台与To B深耕 智象未来完成了从“模型即产品”到“做Agent平台”的战略转变，构建了“1+1+3”的MaaS平台架构：

底层：HiDream系列大模型。
中间层：HiHarness企业服务平台。
上层应用：聚焦商业营销、影视创作、社媒创作三大场景。

在商业化落地方面，智象未来坚持To B优先策略，避免在算力成本高昂阶段与巨头在To C端正面硬刚。其企业服务不采用定制化开发，而是提供标准化产品，服务中小型企业及个人用户。在分佣机制上，电商短视频广告领域采取按Token售卖、RaaS素材服务及按GMV分佣（15%-30%）三种模式；短剧领域则通过联合承制和发行进行分佣。

4. 财务逻辑：多模态Token的高毛利优势 投资人东方富海合伙人王兵指出，视频生成赛道具有极高的商业化潜力。随着英伟达芯片算力每年提升5-10倍而价格涨幅有限，算力成本呈指数级下降。梅涛进一步透露，多模态模型Token的毛利率远高于大语言模型（LLM）Token的毛利率。这一财务优势使得智象未来能够在保证研发效率的同时，实现良好的资金回报，从而支撑其长期的技术迭代。

关键要点

技术拐点与机会：多模态生成领域技术尚未收敛（如DIT框架并非唯一标准），这为创业公司通过算法创新实现“小资源、大效果”提供了窗口期，避免了单纯拼算力和数据的劣势。
世界模型的四大门槛：掌握物理规律、长上下文因果推理、全模态交互能力、绝对安全性。智象未来现阶段聚焦原生多模态，旨在为未来突破这些门槛做技术积淀。
视频模型对具身智能的重要性：梅涛认为，缺乏千亿规模的多模态底座模型，具身智能难以实现广泛泛化。智象未来拥有全球唯三、达到千亿规模的多模态模型，这为其在具身智能领域的泛化能力提供了坚实基础。
商业化转折点已至：随着AI短剧、短视频、电商视频质量达到商业化水准，视频生成赛道的盈利拐点比预期更快到来。算力成本下降与效果提升双重驱动，使得To B服务毛利率转正成为可能。
差异化竞争策略：智象未来不与大厂在C端流量入口或底层基座模型上直接竞争，而是深耕第二层（差异化基座）和第三层（应用/Agent）。通过“内容电商”而非“货架电商”切入，利用高频消耗的视频内容需求，证明端到端Agent的价值。
数据版权优势：在视频生成赛道潜在的版权风险中，智象未来拥有20万小时有影视版权的视频数据，并与头部影视公司合作，这一合规优势是其获得资本青睐的重要原因。

意义与影响

智象未来的战略选择为AI创业公司提供了新的范式参考。首先，它打破了“大模型必须拼算力”的固有认知，证明了通过架构创新（如UiT）和数据合成技术，创业公司可以在资源受限的情况下构建具备竞争力的多模态底座。其次，其“原生多模态”路径强调了视频与3D交互在通向AGI过程中的核心地位，特别是将视频模型视为具身智能不可或缺的“眼睛”和“大脑”，这一观点纠正了业界部分具身智能公司低估视频模型重要性的倾向。

在商业层面，智象未来验证了To B MaaS模式在多模态领域的可行性。通过聚焦高毛利的多模态Token、标准化的企业服务以及具体的垂类场景（如营销、短剧），企业能够在巨头夹缝中建立商业化壁垒。随着算力成本的持续下降和生成质量的提升，视频生成从“技术演示”走向“大规模商业替代人工”的趋势已不可逆转。智象未来通过提前布局版权数据、算法优化及Agent平台，有望在这一轮行业洗牌中占据有利位置，并为全球多模态大模型的发展提供中国方案。

查看原文 →36kr.com

智象未来CEO梅涛：多模态模型Token毛利率远高于语言模型，两周内再获亿元融资

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐