← 返回信息流
创投信息36氪 主站·7 天前

智象未来CEO梅涛:多模态模型Token毛利率远高于语言模型,两周内再获亿元融资

原标题:智象未来CEO梅涛:多模态模型Token的毛利率,远高于语言模型

速览

智象未来在获得5亿B轮融资后,两周内再次完成亿元级新一轮融资。CEO梅涛在开放日上强调,公司定位为原生多模态大模型,通过算法创新对抗数据稀缺,并指出多模态模型Token的毛利率远高于语言模型。公司正从“模型即产品”转向MaaS平台,旨在通过视频生成等能力为迈向世界模型积累技术。

AI 深度解读

背景

2026年,随着Seedance 2.0、GPT Image 2.0等模型的爆发,多模态能力已成为人工智能行业不可回避的核心关键词。在这一背景下,智象未来(ZhiXiang Future)于5月19日举办了首届开放日,主题为“Imaging the World”。作为一家从成立之初就定位为“原生多模态大模型”的公司,智象未来并未止步于图像或视频生成,而是将目光投向了更具挑战性的“世界模型”。

智象未来CEO梅涛在开放日上明确提出,“原生多模态是实现AGI的必经之路”,并强调其终极目标是打造世界模型。与此同时,资本市场对这一赛道保持高度关注。智象未来在近期完成了5亿元人民币的B轮融资,并迅速宣布完成新一轮亿元级融资。在激烈的市场竞争中,智象未来试图通过算法创新、低成本合成数据策略以及To B端的MaaS(模型即服务)平台,在巨头林立的AI领域寻找差异化生存空间。

核心内容

智象未来的战略核心在于重新定义多模态与大模型的关系,并构建从底层模型到上层应用的完整商业闭环。

1. 战略定位:从“世界模型”到“原生多模态” 尽管外界常将智象未来归类为“世界模型”公司,但CEO梅涛对此持谨慎态度。他认为目前业界对世界模型的定义尚不成熟,智象未来更倾向于将自己定义为“原生多模态大模型公司”。其逻辑在于,原生多模态是通往世界模型的必经阶段。真正的世界模型需满足四个严苛条件:掌握物理规律(如流体力学、牛顿定律等)、解决长跨度因果推理、实现全模态交互(如机器人操作细节)以及绝对的安全性。鉴于当前技术尚未完全收敛,智象未来选择务实路径,聚焦于视频、图像和3D交互数据的生成,通过算法创新积累可复用的视觉能力,为未来迈向世界模型奠定基础。

2. 技术路线:算法创新对抗数据稀缺 面对李飞飞的“生成3D世界”和Yann LeCun的“自监督预测世界”两大主流路线,智象未来选择了算法与架构层的创新。其核心优势在于:

  • 架构创新:采用原生全模态Unified Transformer(UiT)架构,支持“Any to Any”(任何形式输入支持任何形式输出),使模型在统一架构中理解、生成并预测现实世界的不同状态。
  • 数据策略:针对世界模型训练数据稀缺且昂贵的痛点,智象未来利用自有的视频模型生成万份级不同场景、肤色的合成数据,结合20万小时有影视版权的真实数据,训练VLA(视觉-语言-动作模型)和WAM(世界动作模型)。这种“以合成数据对抗数据瓶颈”的策略,旨在降低对海量真实标注数据的依赖,通过算法效率弥补算力与数据的不足。

3. 商业模式:1+1+3 MaaS平台与To B深耕 智象未来完成了从“模型即产品”到“做Agent平台”的战略转变,构建了“1+1+3”的MaaS平台架构:

  • 底层:HiDream系列大模型。
  • 中间层:HiHarness企业服务平台。
  • 上层应用:聚焦商业营销、影视创作、社媒创作三大场景。

在商业化落地方面,智象未来坚持To B优先策略,避免在算力成本高昂阶段与巨头在To C端正面硬刚。其企业服务不采用定制化开发,而是提供标准化产品,服务中小型企业及个人用户。在分佣机制上,电商短视频广告领域采取按Token售卖、RaaS素材服务及按GMV分佣(15%-30%)三种模式;短剧领域则通过联合承制和发行进行分佣。

4. 财务逻辑:多模态Token的高毛利优势 投资人东方富海合伙人王兵指出,视频生成赛道具有极高的商业化潜力。随着英伟达芯片算力每年提升5-10倍而价格涨幅有限,算力成本呈指数级下降。梅涛进一步透露,多模态模型Token的毛利率远高于大语言模型(LLM)Token的毛利率。这一财务优势使得智象未来能够在保证研发效率的同时,实现良好的资金回报,从而支撑其长期的技术迭代。

关键要点

  • 技术拐点与机会:多模态生成领域技术尚未收敛(如DIT框架并非唯一标准),这为创业公司通过算法创新实现“小资源、大效果”提供了窗口期,避免了单纯拼算力和数据的劣势。
  • 世界模型的四大门槛:掌握物理规律、长上下文因果推理、全模态交互能力、绝对安全性。智象未来现阶段聚焦原生多模态,旨在为未来突破这些门槛做技术积淀。
  • 视频模型对具身智能的重要性:梅涛认为,缺乏千亿规模的多模态底座模型,具身智能难以实现广泛泛化。智象未来拥有全球唯三、达到千亿规模的多模态模型,这为其在具身智能领域的泛化能力提供了坚实基础。
  • 商业化转折点已至:随着AI短剧、短视频、电商视频质量达到商业化水准,视频生成赛道的盈利拐点比预期更快到来。算力成本下降与效果提升双重驱动,使得To B服务毛利率转正成为可能。
  • 差异化竞争策略:智象未来不与大厂在C端流量入口或底层基座模型上直接竞争,而是深耕第二层(差异化基座)和第三层(应用/Agent)。通过“内容电商”而非“货架电商”切入,利用高频消耗的视频内容需求,证明端到端Agent的价值。
  • 数据版权优势:在视频生成赛道潜在的版权风险中,智象未来拥有20万小时有影视版权的视频数据,并与头部影视公司合作,这一合规优势是其获得资本青睐的重要原因。

意义与影响

智象未来的战略选择为AI创业公司提供了新的范式参考。首先,它打破了“大模型必须拼算力”的固有认知,证明了通过架构创新(如UiT)和数据合成技术,创业公司可以在资源受限的情况下构建具备竞争力的多模态底座。其次,其“原生多模态”路径强调了视频与3D交互在通向AGI过程中的核心地位,特别是将视频模型视为具身智能不可或缺的“眼睛”和“大脑”,这一观点纠正了业界部分具身智能公司低估视频模型重要性的倾向。

在商业层面,智象未来验证了To B MaaS模式在多模态领域的可行性。通过聚焦高毛利的多模态Token、标准化的企业服务以及具体的垂类场景(如营销、短剧),企业能够在巨头夹缝中建立商业化壁垒。随着算力成本的持续下降和生成质量的提升,视频生成从“技术演示”走向“大规模商业替代人工”的趋势已不可逆转。智象未来通过提前布局版权数据、算法优化及Agent平台,有望在这一轮行业洗牌中占据有利位置,并为全球多模态大模型的发展提供中国方案。

查看原文 →36kr.com