巨头AI账单失控:Token成奢侈品,烧钱难换产出
速览
亚马逊、Uber等科技巨头因AI使用失控面临巨额账单,凸显Token成本从白菜价飙升至奢侈品的现状。受限于HBM等硬件供给瓶颈,算力租赁与模型API价格全线上涨。同时,内部“Tokenmaxxing”等管理漏洞导致大量Token被无效消耗,实际业务产出与投入严重不成正比。
AI 深度解读
背景
2024年至2026年间,全球人工智能行业经历了一场从“疯狂扩张”到“成本焦虑”的剧烈转折。此前,大模型厂商通过低价倾销和免费Token策略抢占市场,行业普遍信奉“规模效应将无限摊薄边际成本”的叙事,认为AI成本将持续下降。然而,随着2025年下半年需求端的急剧膨胀,供给端的结构性瓶颈逐渐显现。
据OpenRouter统计,全球周度Token消耗量从2024年的2.1T激增至2026年的24.5T,增幅巨大。国内日均Token调用量更是从2024年初的1000亿飙升至2026年3月的140万亿。与此同时,算力供给增速(如Blackwell芯片算力年增3.4倍)远远落后于需求增速(年增约10倍)。HBM高带宽内存、CoWoS封装产能的短缺,以及英伟达芯片租赁价格的翻倍,导致Token从“白菜价”变为“奢侈品”。
在这一宏观背景下,科技巨头们开始面临前所未有的财务压力。亚马逊、Uber、微软、Meta等公司相继出现AI预算超支、内部工具权限收紧甚至停用第三方模型的现象。文章指出,这并非孤立的财务失误,而是AI经济底层逻辑发生根本性变化的信号:巨头们开始“烧不动Token”了。
核心内容
文章深入剖析了AI成本失控的多重原因,包括供给瓶颈、管理失效以及技术悖论,并探讨了行业的未来出路。
1. 供给端的结构性短缺与成本飙升 AI成本的上涨并非单纯的市场波动,而是由硬件供应链的刚性约束决定的。HBM内存和CoWoS封装产能的扩产周期长达24至36个月,导致2025年下半年以来HBM价格涨幅超过50%。算力租赁市场随之紧张,英伟达B200芯片租赁费用翻倍,B300服务器报价飙升至700万元且供不应求。这种硬件成本的上升直接传导至模型层,GPT-5.5、Gemini和Claude等主流模型的API价格全线上涨,“AI成本持续下降”的神话破灭。
2. 内部管理失控与“Tokenmaxxing”现象 除了外部成本压力,企业内部的管理机制加剧了资源浪费。亚马逊和Meta曾推行以Token消耗量为指标的“AI使用量排行榜”,催生了员工通过AI代理执行无意义任务以刷高排名的“Tokenmaxxing”行为。亚马逊因未设置许可证上限,单月AI支出高达5亿美元;Uber部署Claude Code给5000名工程师后,四个月用光全年预算。苹果部分团队甚至被允许每天花费300美元生成数千万Token。这种激励机制导致AI成为效率的损耗源而非提升器。
3. 价值产出的低效与悖论 数据揭示了Token消耗与实际价值之间的巨大落差。Entelligence.AI的数据显示,每投入1美元AI Token费用,仅18美分产生触达用户的实际价值,其余部分被修复Bug、返工和审查摩擦消耗。METR的研究更指出,Claude Code在实测中使资深开发者完成速度变慢19%。当AI从简单的问答转向复杂的Agent自主执行时,工具调用和上下文处理占据了推理成本的60%-90%,导致Token消耗呈指数级爆炸。
4. 经济逻辑的根本性转变 文章指出,AI时代的成本结构与传统工业截然不同。传统工业是“买断制”,边际成本趋近于零;而AI是“租赁制”,按Token付费。当任务复杂度增加,Token消耗指数级增长,AI的边际成本可能反超人力成本。微软停用Claude Code转回GitHub Copilot,以及部分企业发现AI成本超过人力成本,标志着“用AI替代人力”的逻辑起点正在动摇。
5. 行业的三条出路 面对不可逆的成本上升趋势,行业正在探索三条路径:
- 技术降本:以DeepSeek为代表的开源模型通过稀疏注意力、量化压缩和动态批处理等技术,大幅降低推理成本,提供“性能不减、成本腰斩”的范式。
- 管理重构:企业从“用量考核”转向“结果考核”。亚马逊关闭Token排行榜,改用衡量实际交付代码的指标;Uber实施严格的分级流量管理。
- 商业模式重构:免费模式终结,豆包、文心一言、Kimi等开始推行付费订阅;Anthropic将Claude企业版改为“基础费+按算力消耗付费”的混合模式,成本最终将向用户转移。
关键要点
- 供需严重失衡:全球Token需求增速(年增约10倍)远超算力供给增速(年增约3.4倍),导致Token价格结构性上涨。
- 硬件瓶颈制约:HBM内存和CoWoS封装产能不足,英伟达高端芯片租赁费用翻倍,服务器报价大幅上涨。
- 内部浪费严重:以消耗量为KPI的激励机制导致“Tokenmaxxing”,员工刷Token而非创造价值,亚马逊单月AI支出达5亿美元。
- ROI(投资回报率)低下:每1美元AI Token投入仅产生18美分用户价值,大量成本消耗在Bug修复和返工上。
- Agent成本高昂:复杂Agent任务中,工具调用和上下文处理占推理成本的60%-90%,导致Token消耗远超简单问答。
- AI替代人力逻辑动摇:当AI成本超过人力成本,且效率提升不如预期时,“用AI替代人”的经济基础不复存在。
- 免费模式终结:资本输血阶段结束,主流大模型开始推行付费订阅或混合计费模式,成本向最终用户转移。
- 初创公司受冲击:纯API创业公司因无算力囤货和自有流量,成为Token成本上涨下最先倒下的群体。
- 技术降本成为关键:DeepSeek等开源模型通过架构创新大幅降低API价格,为行业提供降本参考。
- 管理转向价值导向:企业停止考核Token使用量,转而考核AI辅助代码的实际交付质量和业务价值。
意义与影响
这篇文章标志着AI行业从“狂热扩张期”进入“理性回归期”。其核心意义在于打破了“AI必然廉价且高效”的迷思,揭示了算力稀缺性带来的经济现实。
首先,AI的经济账本被重新计算。过去两年被忽视的Token成本,如今成为企业财务模型中最不可忽视的变量。当算力不再是无限资源,而是昂贵的租赁服务时,企业必须重新评估AI应用的ROI。那些无法证明明确业务价值、仅靠消耗Token刷存在感的AI项目,将被迅速砍掉。
其次,产业格局面临结构性洗牌。Token成本的上升将加速行业分化。拥有自有算力、私有化部署能力或独特数据生态的企业将具备更强的抗风险能力;而依赖纯API调用、无自有流量的初创公司将面临生存危机。2026年第一季度已有10余家AI应用初创公司停止运营,这仅是开始。
再次,技术路线与管理范式发生转变。技术层面,追求极致性价比的开源模型和架构创新(如稀疏注意力、量化)将获得更多关注;管理层面,企业将从“全员普及”转向“精准赋能”,考核指标从“用了多少AI”转向“AI创造了多少价值”。
最后,这一趋势不可逆转。尽管技术优化(如KV Cache、量化)能带来部分成本下降,但无法抵消需求爆炸式增长带来的压力。AI从“获客成本”变为“硬成本”,意味着AI应用必须找到可持续的商业模式。巨头收缩预算并非放弃AI,而是从“烧Token竞赛”回归到“价值创造”,这将是AI产业走向成熟和可持续的必经之路。
