AI算力成本失控,业界紧急寻求治理方案
速览
随着AI模型运行中Token消耗带来的成本急剧上升,行业焦点已从追求极致速度和效率,转向建立严格的管控机制。业界正紧急 scramble 以寻找有效手段来遏制这一失控趋势,确保AI应用的可持续性。
AI 深度解读
代币账单到期:深入解析AI行业应对失控成本的紧急 scramble
背景
曾经被视为“无限自助餐”式订阅的AI时代正在迅速终结。尽管单个Token(令牌/词元)的价格在不断下降,但随着企业加速采用AI以及日益自主化的AI Agent(智能体)的普及,Token的消耗量呈指数级增长。
2025年初,许多公司疯狂采购AI服务,如今却陷入了预算超支的困境。从Uber在4月份就耗尽了2026年的AI编程预算,到微软在启用Claude Code后不久便撤销了开发者的许可证,再到Priceline员工发现Cursor合同续约费用暴涨4-5倍,行业内的企业开始对AI的高昂价格感到震惊和退缩。
与此同时,一场旨在解决这一问题的市场正在形成。初创公司、成熟厂商以及一个新的标准制定机构——Linux基金会旗下的Tokenomics Foundation(代币经济学基金会)——正在竞相为企业提供追踪支出、理解成本构成以及从预算废墟中挽救投资回报率(ROI)的工具和语言。
核心内容
1. 对话焦点的转变:从“能力”到“成本可见性”
OpenAI企业负责人Alexander Embricos指出,客户对话的焦点已发生根本性转移。六个月前,讨论集中在“它能做什么?是否足够好?”;而现在,对话完全转向了成本控制:“我们花费巨大,你们有可见性吗?可审计性如何?Token控制机制是什么?模型效率如何?”
这种转变源于企业面临的“存在性危机”。FinOps基金会执行董事J.R. Storment透露,他在2025年4月和5月听到大量企业抱怨:“天哪,我们才4月份,就已经超支了2026年整个Token预算的3倍。”
2. 失控的根源:CEO的推动与Agent的爆发
这种成本危机的背后,是CEO们推动团队使用最佳模型并追求速度的文化,往往忽视了成本。2024年11月发布的Anthropic Claude Opus 4.5、OpenAI GPT-5.1和Google Gemini 3 Pro等新模型,显著提升了Agentic Tools(智能体工具)的能力,导致消耗量倍增。
- 极端案例:一家公司因未为员工设置使用限制,最终收到了高达5亿美元的Claude账单。
- 成瘾性比喻:Priceline IT财务高级总监Chris Reed将这种现象比作“可卡因流行病”,指出AI让企业先尝到甜头产生依赖,如今却不得不为其买单。
- 管理困境:Faros AI CEO Vitaly Gordon分享了一个CTO的困惑:一名工程师上月花费了4万美元购买Token,管理者不知道该阻止他,还是该让其他人效仿他。
3. 生产力与成本的悖论
尽管支出爆炸式增长,但生产力的提升并不成比例。
- Faros AI调查:在20,000名开发者中,虽然产出增加,但Bug数量和代码重写率也在上升。
- Jellyfish数据:使用AI最多的工程师生产力约为少用AI者的两倍,但为此消耗的Token数量却是后者的10倍。
- ROI难以衡量:Jellyfish研究主管Nicholas Arcolano指出,极端支出是否值得,取决于最终交付代码的业务价值(如收入),而大多数公司仍无法准确衡量这一点。
4. 技术挑战:数据规模的质变
追踪AI成本比追踪云成本复杂得多。FinOps基金会执行董事J.R. Storment表示,云成本追踪是一个每月涉及数亿行数据的问题,而Token成本追踪则是每月涉及数万亿行数据的问题。简单的电子表格或基础工具已无法应对,企业必须从根本上重新思考其工具、规格和会计系统。
此外,账单差异普遍存在。Priceline的Chris Reed发现,供应商报告的用量与公司内部数据存在 discrepancies(差异),这类似于电信费用管理中的历史问题,新事物的引入往往伴随着计费错误和审计优化的空间。
5. 市场响应:新工具与新标准
针对这一痛点,市场正在快速分化:
- 纯AI成本优化公司:如Pay-i,专注于追踪、衡量和优化GenAI投资成本;Paid则允许开发者基于实际价值而非订阅费向用户计费。
- 工程管理平台:Jellyfish、Waydev和Faros AI提供AI Agent监控,以证明开发工具ROI。FinOps基金会内的180家供应商大多正转向这一领域。
- 现有巨头扩展功能:Ramp进入AI支出管理;Datadog和New Relic增加了云成本管理、Token级可观测性和GPU监控服务。AWS预计将在FinOps X大会上推出面向企业AI支出的新功能。
- 模型路由优化:NEA合伙人Tiffany Luck指出,Token效率和可观测性将增加在“Harness或应用层”。Factory等初创公司推出了自动选择最合适模型的模型路由器。Vitaly Gordon预测,前沿实验室将采用类似OpenRouter的优化策略,将查询引导至最便宜的模型(如在使用Opus时,部分流量会被智能路由至Sonnet或Haiku)。
6. 标准化努力:Tokenomics Foundation
目前,所有工具缺乏共同的语言和定义,无法跨供应商比较成本。为此,Linux基金会推出了Tokenomics Foundation,旨在为AI Token建立类似FinOps在云支出管理中的成本纪律。
- 目标:建立“Tokenomics”的规范定义和框架;制定AI Token使用和计费的开放标准、规范和指标;引入新的经济指标,如“每单位智能成本”(cost-per-intelligence)或“每瓦特Token数”(tokens-per-watt)。
- 时间表:计划于7月正式推出,并将在FinOps X大会上宣布更多成员。
- 挑战:Salesforce首席可用性官Nishant Gupta表示,Token经济比之前管理的任何规模都更抽象、更不透明,需要不同的运营能力。
尽管Goldman Sachs预测全球Token使用量到2030年将增长24倍,但企业急需解决方案,而基金会的首个交付成果仍需数月时间。正如Gordon所言:“也许我们创造了蒸汽机,但我们尚未找到装配线。”
关键要点
- 预算危机爆发:Uber、Microsoft、Priceline等巨头出现严重的AI预算超支,部分企业甚至面临数亿美元的账单,迫使企业从“激进采用”转向“成本管控”。
- 消耗量激增原因:尽管单价下降,但AI Agent的自主性增强和新模型(如Claude Opus 4.5, GPT-5.1)的能力提升,导致Token消耗量呈指数级增长。
- ROI模糊不清:高Token消耗并未带来同比例的生产力提升。数据显示,高消耗用户的Bug率和代码重写率更高,且大多数公司无法准确衡量AI代码带来的最终业务价值。
- 数据规模挑战:Token成本追踪涉及每月数万亿行数据,远超传统云成本追踪的复杂度,现有工具(如电子表格)失效,亟需重构会计和监控体系。
- 市场分层形成:
- 垂直工具:Pay-i、Paid等专注于AI成本追踪和优化。
- 工程平台:Jellyfish、Faros AI等提供Agent监控以验证ROI。
- 基础设施扩展:Datadog、New Relic、Ramp等现有平台增加Token级可观测性和支出管理功能。
- 智能路由:模型提供商和中间件开始自动将请求路由至最具成本效益的模型。
- 标准化缺失与补救:缺乏跨供应商的统一计量标准,Linux基金会成立Tokenomics Foundation,旨在建立Token经济学标准、开放规范和新型指标(如每瓦特Token数),预计7月正式推出。
- 未来趋势:Goldman Sachs预测2030年Token使用量将增长24倍。专家建议企业采取“广泛、适度”的采用策略,将中等用户从低使用量提升至中等使用量,而非进一步推高重度用户的使用量,以获得最佳ROI。
意义与影响
AI行业正从“野蛮生长”阶段进入“精细化运营”阶段。Token成本的失控不仅是一个财务问题,更是一个技术管理和工程文化问题。
- 工程管理的范式转移:AI不再仅仅是辅助工具,而是
